오늘의 인기 글
최근 글
최근 댓글
Today
Total
11-29 02:49
관리 메뉴

우노

[ML] 이상값(outlier)과 로버스트(robust) 본문

AI/Machine Learning

[ML] 이상값(outlier)과 로버스트(robust)

운호(Noah) 2020. 8. 6. 16:04

이상값이란?

  • 검출된 값중 다른 값들에 비해 지나치게 높거나 낮은 값을 말합니다.
    • 예를 들어, 어느 마을 구성원의 수입이 다음과 같다고 가정합시다.
      • A : 10만원
      • B : 12만원
      • C : 14만원
      • D : 16만원
      • 여기서 마을 구성원들의 평균 수입은 13만원입니다.
    • 그런데 어느날, 이 마을에 빌게이츠가 이사옵니다.
    • 빌게이츠의 수입은 1000만원이라고 하겠습니다.
    • 그렇다면 마을 구성원의 수입 평균은 13만원이 아닌 210만원이 됩니다.
    • 이상하지 않나요?
    • 여기서 평균이라는 대푯값의 문제점이 발생합니다.
      • 평균이상값(Outlier), 즉 다른 값들에 비해 지나치게 크거나 작은 값에 영향을 많이 받는다는 것입니다.
    • 따라서 이러한 경우에는 흔히 중앙값(median)을 대푯값으로 사용합니다.
    • 위의 예시에서 중앙값을 계산한다면
      • 빌게이츠가 이사오기 전의 중앙값 : 13만원
      • 빌게이츠가 이사온 후의 중앙값 : 14만원
    • 즉, 중앙값이 위의 자료를 보다 잘 설명한다는 뜻입니다.
    • 만약 자료의 수가 많고 이상값이 존재한다면 대푯값으로 더욱 중앙값을 사용해야합니다.
  • 이처럼 회귀분석시 이상값에 영향을 적게 받도록 하는 방법을 '로버스트' 방법이라고 합니다.
Comments