본문 바로가기
데이터 통계 분석

[Excel] 다수 이상치 (Multiple outliers) 확인 : Grubbs' test

by 어날켐 2025. 9. 28.
728x90
반응형

동일한 조건의 측정 결과에서 다수 이상치 (Outlier)를 확인하는
"Grubbs' test" 계산식과 평가 기준을 알아보자. 

단일 그룹 내 측정 결과 (동일한 조건의 반복 측정 결과)에서 밸생되는 무작위 오차는 정규분포를 나타낸다.
하지만, 실험 결과에서 실험 오류로 인해서 정규분포를 벗어난 측정 결과를 이상치 (outlier)로 규정한다.
이상치는 실험 결과에 잘못된 결과를 발생시키는 원인이기 때문에 제거되어야 한다. 

이전 글에서 그룹 내 단일 이상치를 평가하는 방법을 소개하였다. 

2024.04.13 - [데이터 처리 방법] - [Excel] 이상치 (Outlier) 확인: Grubbs' test

 

[Excel] 이상치 (Outlier) 확인: Grubbs' test

단일 이상치 (Single Outlier) 확인을 위한 Grubbs' test를 알아보자. Grubbs' test는 1950에  Frank E. Grubbs에 의해서 발표된 내용으로정규분포에서 벗어난 이상치를 확인하기 위한 방법으로 소개되었다. 현

analchem.tistory.com

Grubbs' test는 ISO 5725-2 문서에 소개되어 있고, 
해당 문서에는 연속된 다수 이상치를 평가하는 내용까지 포함되어 있다. 
이번 글에서는 연속된 다수 이상치를 확인하는 Grubbs' test 방법을 소개하고자 한다.  


Grubbs' test 계산 및 평가 방법

단일 이상치를 평가하는 Grubbs' test의 통계량 G1 값은 아래 수식으로 계산된다.
$$G1_\text{ (n or 1)} = \lvert x_\text{ (n or 1)}-\bar{x} \rvert /s$$
$\bar{x}$ : 평균, $s$ : 표본의 표준편차

표준편차 값에 비해 해당 값이 얼마나 떨어져 있는지를 나타내는 값으로 
표준점수 (z) 계산과 동일하지만, 
데이터가 적으면 분포는 다르게 나타나지 때문에
이상치를 평가하는 임계값은 데이터 수에 따라 다르다. 
이상치로 예상되는 가장 큰 값 또는 낮은 값의 G1 값이 
임계값 $(G1_{crit})$ 보다 증가되면 해당 값이 이상치로 평가된다.  

연속된 다수 이상치를 평가하는 Grubbs' test의 통계량 G2 값은 아래 수식으로 계산된다. 
$$G2_\text{ (n, n-1 or 2, 1)}=ss^2_\text{ (n, n-1 or 2, 1)} \ / \ ss^2_0 $$
$ss^2_0 = \sum^n_{i=1} (x_i-\bar{x})^2$

$ss^2_\text{ (n, n-1)} = \sum^{n-2}_{i=1} (x_i - \bar{x}_\text{(n, n-1)}) \ \ \ \ \  or \ \ \ \ \  ss^2_\text{ (2, 1)} = \sum^{n}_{i=3} (x_i - \bar{x}_\text{(2, 1)})$

$\bar{x}_\text{(n, n-1)}=\dfrac{\sum^{n-2}_{i=1}x_i}{n-2} \ \ \ \ \  or \ \ \ \ \  \bar{x}_\text{(2, 1)}=\dfrac{\sum^{n}_{i=3}x_i}{n-2}$

G2는 전체 분산과 연달아 존재하는 이상치 2개를 제외한 분산의 비율이다.   
연속된 낮은 값 2개 또는 높은 값 2개의 이상치가 존재하는 경우 
G2 값은 임계값 ($G2_{crit}$) 보다 낮은 값으로 계산된다. 
위 그래프 결과에서 두 개의 이상치가 높은 곳에 존재하지만, 
G1 값은 임계값 보다 낮게 계산되어 이상치가 맞는데도 불구하고 이상치로 평가되지 않았다. 
상위 2개 값의 이상치를 평가하는 G2 값은 임계값 보다 낮은 값으로 계산되어
높은 2개 값은 이상치로 평가되는 것이 확인되었다. 
연속된 2개 값이 이상치로 존재하는 경우
단일 이상치로 평가하기 어렵기 때문에 다수 이상치 평가 방법이 필요하다.  

이상치 평가에 사용되는 임계값은 ISO 5725-2 문서에 표로 제공되어 있다.
일부 내용은 다음과 같다. 

n One largest or one smallest Two largest or two smallest
Upper 1 % Upper 5 % Lower 1% Lower 5 %
3 1.155 1.155 - -
4 1.496 1.481 0.0000 0.0002
5 1.764 1.715 0.0018 0.0090
6 1.973 1.887 0.0116 0.0349
7 2.139 2.020 0.0308 0.0708
8 2.274 2.126 0.0563 0.1100
9 2.387 2.215 0.0851 0.1492
10 2.482 2.290 0.1150 0.1864

임계값은 신뢰구간 (1%, 5%)과 데이터 개수에 따른 임계값이 제공되고
계산되어 있는 임계값은 양측검증 (two-tailed)에 사용되는 값이다.
일반적인 이상치는 낮은 값 또는 높은 값에서 모두 나타날 확률이 있기 때문에 양측검증으로 평가된다.   

표의 임계값을 계산식으로 변환하는 방법들이 소개되어 있지만, 
단일 이상치를 평가하는 임계값 계산식은 이전 글에서도 소개했었다. 
연속된 다수 이상치를 평가하는 임계값 계산식을 소개한 논문도 있었지만, 
계산된 값의 오차가 존재하고 수식이 복잡하기 때문에 표 정보를 사용해서 평가하는 것이 간편했다.  


Grubbs' test 한계점

다수 이상치를 평가하는 Grubbs' test는 모든 이상치를 평가하는데 제약이 존재한다. 
다음과 같은 상황에서는 이상치를 평가할 수 없음을 확인할 수 있다. 

이상치가 높은 값과 낮은 값이 동시에 존재하는 경우에는
G1, G2 값이 이상치 평가되지 않는 것이 확인된다. 
가장 큰 값과 가장 낮은 값이 동시에 존재하게 되면
전체 분산이 증가되기 때문에 이상치가 존재해도 
이상치가 제거된 분산이랑 큰 차이가 없어서 이상치로 평가되지 않는다. 

위와 같은 데이터에서는 이상치 평가가 어렵기 때문에
그래프로 데이터 분포를 확인하고, 
이상치로 의심되거나 확인되는 값을 Grubbs' test로 평가하는 과정이 필요하다.   

자세한 계산 내용은 첨부된 엑셀 파일로 확인할 수 있다. 

Multiple outlier_Grubbs test_V1.xlsx
0.02MB

728x90
반응형