이상치 (outlier) 확인 방법들과 처리 과정을 알아보자!
이상치 (outlier) 또는 이상값은
표본 시료에서 측정된 값들 중에 현저하게 벗어난 값을 의미한다.
다르게 설명하면, 원인을 알 수 없는 오류로 측정된 결과 값이다.
동일한 조건에서 측정된 값들은 중앙값을 기준으로 일정 범위에서 벗어나는 오차를 나타낸다.
측정값은 중앙을 기준으로 많이 측정되고, 중앙에서 멀어지면 측정된 값의 빈도가 감소한다.
이런 분포는 자연계에서 나타나는 정규분포 형태로 나타난다.
이상치는 정규분포를 벗어 측정값으로 규정된다.
이상치를 식별하고, 적절히 처리하는 것이
측정된 결과를 외곡시키지 않으므로 중요하다.
예를 들면, A (흑색)와 B (녹색) 그룹의 측정값을 비교하는 과정에서
첫번째 테스트에서 A 그룹의 평균값이 11.38이고, B 그룹의 평균값이 11.60으로
평균 비교 테스트 (t-test)에서 통계적으로 유의한 차이를 보이지만,
두번째 테스트에서 B 그룹의 측정값 중 이상치가 포함되어
B 그룹의 평균이 감소하고, 두 그룹의 평균값은 통계적으로 유의한 차이가 사라진다.
이상치는 측정값들의 분포에서 벗어난 경우라도
표본에서 나타날 수 있는 의미있는 값을 나타내는 경우도 있다.
위 그림처럼 데이터 분포와 떨어져 있지만,
분포의 끝자라에 위치한 결과는 이상치로 결정하는 것이 쉽지는 않다.
잘못된 이상치 확인 및 처리 방법은 결과를 변화시킬 수 있기 때문에
적절한 이상치 확인 방법과 처리 과정이 중요하다.
아래 소개된 내용은 분석 실험에서 측정된 데이터를 기반으로
이상치를 확인하는 방법들이 소개되어 있다.
해당 내용은 아래 참고 문헌의 내용을 기반으로 작성되었다.
참고문헌: NIST, 1.3.5.17. Detection of Outliers. Retrieved 2023.3.12 from https://www.itl.nist.gov/div898/handbook/eda/section3/eda35h.htm
이상치 확인 방법
- 그래프 작성: 히스토그램 (histogram), 상자 수염 (Box plot), Q-Q (Quantile-Quantile) plot
- 통계적 처리:
▸ Z-score, Modifed Z-score
▸ Grubbs' test
▸ Tietjen-Moore test
▸ Generalized extreme studentized deviate (ESD) test
▸ Dixon's Q test
이상치 확인 방법은 그래프 작성과 통계적 처리 방법으로 나눌 수 있으며,
위 방법들은 정규분포를 벗어난 값을 확인하는 방법으로
측정 데이터의 개수 및 이상치의 개수에 따라서 확인 방법이 달라진다.
측정 데이터의 개수가 많은 경우로 대략 30~50개 이상이 된다면,
모수 (전체 데이터)와 큰 차이가 않기 때문에
정규분포 내용을 확인해서 벗어난 이상치를 확인한다.
이 때 사용되는 방법들은 그래프 작성 (히스토그램, 상자 수염), Z-score를 사용한다.
실험 측정 결과 값이 대략 30~50개 이하라면
정규분포 내용을 확인하기 어렵기 때문에 통계적 방법이 주로 사용된다.
데이터의 개수가 적더라도 그래프 작성 및 z-score 방법이 사용될 수 있지만,
데이터 개수가 적어질수록 이상치 평가 내용이 달라질 수 있다.
통계적 방법들은 데이터의 개수가 낮아져서 발생하는 오류들을 보정한 방법이다.
단일 이상치 평가 방법으로는 Grubbs' test, Dixon's Q test 가 적합하고,
정해진 다수의 이상치 평가 방법으로는 Tietjen-Moore test 가 적용된다.
미확인된 다수 이상치 평가에서는 Modifed Z-score, ESD test 방법들이 사용된다.
이상치 처리 과정
- 이상치 확인
- 이상치 라벨 및 제거
- 전체 결과 확인 (라벨 이상치 포함 vs 미포함)
- 라벨 이상치 평가
이상치를 처리 과정은 단순하지만,
절대적 평가 기준이 구분할 수 없기 때문에 쉽게 결정하기 어렵다.
가장 중요한 부분은 이상치 확인이다.
이전에 설명된 방법들로 상황에 따라 정확히 평가하고,
확연히 차이나는 이상치는 제거하는 방법이 주로 사용된다.
하지만, 해당 절차를 여러 차례 반복하면
정상적인 값들도 제거될 수 있다.
이상치 확인 후 데이터를 제거한 다음
수정된 데이터를 기준으로 다시 이상치를 확인하면,
또 다른 이상치가 나타날 수 있다.
정규분포 데이터를 기준으로 평가하므로
데이터의 분포 결과 값이 변경되면
처음 정상 결과 값이 이상치 제거 이후에
데이터 분포가 폭이 좁아지기 때문에
다시 이상치를 확인하면 정상 결과 값이 이상치로 변경될 수 있다.
모든 데이터 (Raw data) 를 기준으로
다양한 이상치 확인 방법을 적용하는 것은 적절하지만,
이상치를 처리하고 난 후에는 이상치 재평가는 필요없다.
이상치로 평가된 결과 값이 다른 결과 값과 큰 차이가 없는 경우에는
이상치로 라벨한 후에 전체 실험 결과를 확인하고
그 이후에 라벨된 이상치를 제거하거나 유지하는 방법이 사용된다.
'데이터 처리 방법' 카테고리의 다른 글
[Excel] 이상치 (Outlier) 확인: 상자 수염 (Box-Plot) (3) | 2024.04.01 |
---|---|
[Excel] 이상치 (Outlier) 확인: 히스토그램 (Histogram) (0) | 2024.03.25 |
[Excel+Python] 정규성 검증: Shapiro-Wilk test (0) | 2024.02.19 |
[Excel] 분석법 비교 방법 : Bland-Altman Plot (반복 측정 결과) (1) | 2024.02.06 |
[Excel] 분석법 비교 방법 : Bland-Altman Plot (단일 측정 결과) (0) | 2024.02.05 |