단일 이상치 (Single Outlier)를 확인하는 다양한 방법들을 비교하고 차이를 알아보자.
동일한 실험 조건에서 측정된 결과에서 이상치 확인 방법들을 이전 블로그 내용에서 소개하였다.
- Z-score test, Modified Z-score test
- Dixon's Q-test
- Grubbs' test
- Tietjen-Moore test
- Generalized ESD (Extreme Studentized Deviate) test
위에 소개한 이상치 확인 방법들은 단일 이상치 확인에 주로 사용되는 방법들과
다수의 이상치를 확인하는 방법으로 구분해서 설명하였다.
하지만, 그 구분이 분명하지 않기 때문에 혼용되어 사용되기도 한다.
나에게 적합한 이상치 확인 방법이 무엇인지를 선택하기 위해서는
각각의 방법이 나타내는 결과 및 방법 간의 차이를 이해하는 것이 중요하다.
방법 간의 결과 차이를 확인하기 위해서 동일한 데이터에서 같은 값의 이상치를 어떻게 평가하는지 확인하였다.
비교 테스트를 위한 데이터 설정
비교 테스트를 위해서 정규분포 데이터가 사용되었다.
평균 10, 표준편차 1을 나타내는 정규분포 데이터 300개 중에서
15개의 데이터를 무작위로 3번 추출하였다.
단일 이상치가 발생되는 보편적 상황은 데이터 개수가 적을 때 주로 나타나기 때문에
개별 테이터의 개수는 15개로 설정하였고,
데이터 분포에 차이로 이상치 확인 결과가 다를 수 있으므로
3개 데이터 그룹에서 이상치 확인 결과를 비교하였다.
개별 데이터 그룹의 기술 통계 자료는 다음과 같다.
Data Set 1 | Data Set 2 | Data Set 3 | |
Mean | 9.94 | 10.03 | 9.87 |
SD | 1.01 | 0.84 | 0.91. |
Max | 12.13 | 11.56 | 11.67: |
Median | 10.07 | 10.08 | 9.93 |
Min | 8.08 | 8.73 | 8.19 |
Set 1은 정규분포 데이터와 비슷한 평균과 표준표차를 보이고,
다른 데이터에 비해 분포가 가장 넓다. 촤대값과 다음 높은 값의 차이가 가장 크다.
Set 2은 정규분포 데이터와 비슷한 평균과 표준표차가 낮은 값을 보이고,
다른 데이터에 비해 분포가 가장 좁다.
Set 3은 정규분포 데이터와 가장 큰 평균 차이를 보이고,
정규분포 데이터에 비해 분포가 좁은 것으로 확인된다.
모든 Data Set은 Box-Plot에서 이상치가 확인되지 않았다.
이상치 확인 결과 비교
각각의 데이터에서 이상치를 평가하는 기준은 최대한 동일하게 평가할 수 있도록 설정하였다.
Z-score 값은 이상치의 값이 벗어나는 정도를 확인하기 위해서 사용되었고,
그래프로 확인하는 방법은 Box-plot으로 확인하였다.
Box-plot의 이상치 설정 기준은 엑셀에서 평가한 내용을 기반으로 이상치를 확인하였다.
Modified Z-score 평가 기준은 3.5 이상인 경우 이상치로 확인하였고,
나머지 평가 방법은 신뢰 수준 95% 로 설정된 값으로 평가하였다.
실험의 측정 데이터는 음 또는 양의 값이 발생되므로 양측검정으로 설정해서 이상치를 확인하였다.
비교 평가에 사용된 이상치 값은 정규분포를 기준으로 2ⅹSD 이상 벗어나는 값으로 설정했다.
벗어나는 정도에 따라서 이상치 확인 결과가 다를 수 있기에
0.2 간격으로 평가하였고, 최대 3.4ⅹSD에 해당하는 값 13.4까지 이상치를 확인하였다.
[Data Set 1] 이상치 확인 결과 비교
Outlier | Z-score | Box-Plot | Modified Z-score test |
Dixon's Q-test |
Grubbs' test |
Tietjen-Moore test |
Generalized ESD test |
12.2 | 2.13 | ⨉ | ⨉ | ◯ | ⨉ | ⨉ | ⨉ |
12.4 | 2.24 | ⨉ | ◯ | ◯ | ⨉ | ⨉ | ⨉ |
12.6 | 2.34 | ⨉ | ◯ | ◯ | ⨉ | ⨉ | ⨉ |
12.8 | 2.44 | ◯ | ◯ | ◯ | ⨉ | ⨉ | ⨉ |
13.0 | 2.52 | ◯ | ◯ | ◯ | ⨉ | ⨉ | ⨉ |
13.2 | 2.60 | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
13.4 | 2.67 | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
[Data Set 2] 이상치 확인 결과 비교
Outlier | Z-score | Box-Plot | Modified Z-score test |
Dixon's Q-test |
Grubbs' test |
Tietjen-Moore test |
Generalized ESD test |
12.2 | 2.21 | ⨉ | ◯ | ⨉ | ⨉ | ⨉ | ⨉ |
12.4 | 2.32 | ◯ | ◯ | ⨉ | ⨉ | ⨉ | ⨉ |
12.6 | 2.43 | ◯ | ◯ | ⨉ | ⨉ | ⨉ | ⨉ |
12.8 | 2.52 | ◯ | ◯ | ⨉ | ⨉ | ⨉ | ⨉ |
13.0 | 2.61 | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
13.2 | 2.69 | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
13.4 | 2.76 | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
[Data Set 3] 이상치 확인 결과 비교
Outlier | Z-score | Box-Plot | Modified Z-score test |
Dixon's Q-test |
Grubbs' test |
Tietjen-Moore test |
Generalized ESD test |
12.2 | 2.49 | ⨉ | ◯ | ⨉ | ⨉ | ⨉ | ⨉ |
12.4 | 2.72 | ◯ | ◯ | ⨉ | ⨉ | ⨉ | ⨉ |
12.6 | 2.95 | ◯ | ◯ | ⨉ | ⨉ | ⨉ | ⨉ |
12.8 | 3.17 | ◯ | ◯ | ◯ | ⨉ | ⨉ | ⨉ |
13.0 | 3.40 | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
13.2 | 3.63 | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
13.4 | 3.86 | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
이상치의 Z-score 값은 정규분포의 표준편차 값으로 설정한 것과는 차이 나는 것이 확인되었다.
Z-score는 평균과 표준편차로 계산되므로
상대적으로 평균 차이가 큰 Data Set 3에서 z-score가 상대적으로 증가한 것이 나타났다.
Box-Plot으로 확인된 이상치들은 Data Set 마다 차이나는 결과를 보여주었고,
데이터 분포가 좁은 경우 이상치로 확인된 데이터들이 많았다.
Modified Z-score 결과에서는 가장 낮은 값 12.2를 제외하고 모든 Data Set에서 이상치로 확인되었다.
데이터 분포가 가장 넓은 Data Set 1은 12.2를 이상치로 확인하지 않았다.
그리고 Z-score 값이 2.2를 초과하는 경우 이상치로 확인되는 것이 나타났다.
Dixon's Q-test 결과에서는 비교한 방법들 중에서 가장 편차가 큰 결과를 보여주었다.
데이터 분포가 좁은 Data Set 2, 3은 3ⅹSD에 가까운 값 12.8, 13.0 보다 큰 값은 이상치로 확인되었고,
데이터 분포가 넓은 Data Set 1은 모든 값을 이상치로 확인하였다.
Grubbs' test 결과에서는 일관된 이상치 확인 내용을 보여주었다.
3ⅹSD 이상에 값이 모두 이상치로 확인되었고,
데이터 분포가 넓은 Data Set 1은 상대적으로 더 벗어나는 값이 되어야 이상치로 확인하였다.
이러한 패턴은 Tietjen-Moore test, Generalized ESD test 에서도 동일하였다.
단일 이상치 확인 방법 차이
이상치를 확인하는 방법들의 비교한 결과들을 보면
방법들이 두 개의 분류로 나뉘는 것을 볼 수 있었다.
- 이상치 값 2ⅹSD 이상부터 검출하는 방법 : Box-plot, Modified z-score, Dixon's test
- 이상치 값 3ⅹSD 이상부터 검출하는 방법 : Grubbs' test, Tietjen-Moore test, Generalized ESD test
이상치 값 2ⅹSD 이상부터 검출하는 방법들은 이상치 확인 결과 값이 데이터 분포에 따라서 차이가 나는 것이 확인된다.
이상치 값 3ⅹSD 이상부터 검출하는 방법들은 데이터 분포에 따라 차이가 다소 발생하지만 일정한 결과를 보여주었다.
데이터의 정교함을 추구하는 경우라면 가능한 많은 이상치를 제거하고 결과를 확인하는 것이 좋기 때문에
이상치 값 2ⅹSD 이상부터 검출하는 방법 (Box-plot, Modified z-score, Dixon's test)을 사용하면 좋다.
여러 가지 변수들이 결과에 영향을 미치는 경우라면 가급적 많은 데이터를 포함해서 분석하는 것이 중요하다.
이런 경우에는 많이 벗어난 이상치를 제거하고 데이터 분포에 근접한 데이터 유지하는 것이 좋기 때문에
이상치 값 3ⅹSD 이상부터 검출하는 방법 ( Grubbs' test, Tietjen-Moore test, Generalized ESD test)을 사용하면 좋다.
이상치를 확인하는 여러가지 방법들이 있으며
각각의 방법들은 이상치를 확인하는 방식이 다르므로 다른 결과들이 나타나는 것이 확인되었다.
최적의 이상치 확인 방법은 실험 목적의 내용을 고려하여
여러 가지 이상치 방법들을 비교해서 이상치를 결정하는 것이 적절하다.
'데이터 처리 방법' 카테고리의 다른 글
[Excel] t-분포 (t -distribution) 및 t-검정 (t-test) 이해 (0) | 2024.11.04 |
---|---|
[Excel] F-검증 (F-test) | 분산분석 (ANOVA) : "F-통계량" 차이점 (0) | 2024.10.07 |
[Excel] 이상치 (Outlier) 확인: Generalized ESD test (0) | 2024.05.20 |
[Excel] 이상치 (Outlier) 확인: Tietjen-Moore test (0) | 2024.05.06 |
[Excel] 이상치 (Outlier) 확인: Grubbs' test (0) | 2024.04.22 |