우노
[ML] 이상값(outlier)과 로버스트(robust) 본문
이상값이란?
- 검출된 값중 다른 값들에 비해 지나치게 높거나 낮은 값을 말합니다.
- 예를 들어, 어느 마을 구성원의 수입이 다음과 같다고 가정합시다.
- A : 10만원
- B : 12만원
- C : 14만원
- D : 16만원
- 여기서 마을 구성원들의 평균 수입은 13만원입니다.
- 그런데 어느날, 이 마을에 빌게이츠가 이사옵니다.
- 빌게이츠의 수입은 1000만원이라고 하겠습니다.
- 그렇다면 마을 구성원의 수입 평균은 13만원이 아닌 210만원이 됩니다.
- 이상하지 않나요?
- 여기서 평균이라는 대푯값의 문제점이 발생합니다.
- 평균은 이상값(Outlier), 즉 다른 값들에 비해 지나치게 크거나 작은 값에 영향을 많이 받는다는 것입니다.
- 따라서 이러한 경우에는 흔히 중앙값(median)을 대푯값으로 사용합니다.
- 위의 예시에서 중앙값을 계산한다면
- 빌게이츠가 이사오기 전의 중앙값 : 13만원
- 빌게이츠가 이사온 후의 중앙값 : 14만원
- 즉, 중앙값이 위의 자료를 보다 잘 설명한다는 뜻입니다.
- 만약 자료의 수가 많고 이상값이 존재한다면 대푯값으로 더욱 중앙값을 사용해야합니다.
- 예를 들어, 어느 마을 구성원의 수입이 다음과 같다고 가정합시다.
- 이처럼 회귀분석시 이상값에 영향을 적게 받도록 하는 방법을 '로버스트' 방법이라고 합니다.
'AI > Machine Learning' 카테고리의 다른 글
[ML] Data Preprocessing - Missing Value (결측치 처리) (0) | 2020.08.11 |
---|---|
[ML] 베이지안 최적화 (Bayesian Optimization) (29) | 2020.08.10 |
[ML] Model compile() - 학습과정 설정 (0) | 2020.08.06 |
[ML] Metric 종류 (0) | 2020.08.06 |
[ML] 배깅(Bagging), 부스팅(Boosting), 보팅(Voting) (0) | 2020.08.04 |
Comments