분산분석 (ANOVA)에서 이상치를 확인하는
"Cochran’s C test" 계산식과 평가 기준을 알아보자.
분산분석은 세 그룹 이상의 분산 차이를 확인하는 통계분석으로
각 그룹 내 분산에 문제가 없다면 정확한 평가 결과가 나타나지만,
이상치의 포함으로 분산의 크기가 증가된다면 다른 평가 결과를 얻게 된다.
다음 그래프는 3일 동안 단일 농도를 반복 측정한 결과이다.

왼쪽 그래프 1번은 이상치가 없고, 2번은 이상치 1개를 포함하고 있다.
일원배치 분산분석 ANOVA 결과에서 1번 데이터는 분산 및 평균 차이가 없는 것으로 평가되고,
이상치를 포함한 데이터는 그룹 (Day) 간 분산 및 평균 차이가 있는 것으로 나타난다.
두 데이터는 이상치를 제외하고 나머지 값이 모두 동일했지만,
이상치 존재로 ANOVA 평가 결과가 달라진다.
재현성 평가에서 이상치로 인한 결과 차이가 나타날 수 있기 때문에
ISO 5725-2 문서에서도 통계 분석 전 이상치를 제거하는 과정을 소개하고 있다.
해당 문서에서 분산 차이를 확인해서 이상치를 평가하는 방법으로
"Cochran's test"를 소개하고 있다.
Cochran's test는 2 가지 방법이 존재하고,
ISO 문서에서 소개된 방법의 구분되는 명칭은 Cochran's C test이다.
Cochran's C test는 분산의 동질성 (homogeneity)을 확인하는 방법으로
전체 분산과 비교해서 특정 그룹의 분산에 차이가 있는지 확인한다.
분산 분석은 그룹 내 분산과 그룹 간 분산의 차이를 확인해서 그룹 간 분산 및 평균 차이를 확인하지만,
Cochran's C test는 그룹 간 분산 차이만 확인하는 방법으로 이상치 존재 유무를 확인할 때 사용된다.
Cochran's C test의 기본적인 조건은 다음과 같다.
- 모든 데이터는 정규분포 형태를 가지고 있다.
- 개별 그룹의 데이터(n)는 동일해야 한다.
재현성 실험에서 동일 농도의 반복측정 데이터는 정규분포 형태를 이루고 있고,
실험실에서 발생되는 환경에서 결과 차이가 있는 것을 확인하는 것이기 때문에
Cochran's C test의 기본적인 조건을 만족한다.
Cochran's C test 계산 방법
Cochran's C test의 통계량 C 값은 다음과 같은 수식으로 계산된다.
$$C = \frac{\max(s_i^2)}{\sum_{i=1}^p s_i^2}$$
위 그래프의 이상치를 포함한 데이터로 통계량 C 값을 계산하면 다음과 같이 계산된다.
| Day 1 | Day 2 | Day 3 | |
| T1 | 22.8 | 22.2 | 20.1 |
| T2 | 24.4 | 34.0 | 22.1 |
| T3 | 22.8 | 24.2 | 23.1 |
| T4 | 20.9 | 22.6 | 21.6 |
| T5 | 22.5 | 25.2 | 20.9 |
| T6 | 20.5 | 26.1 | 24.5 |
| T7 | 21.5 | 23.1 | 21.5 |
| $Mean$ | 22.2 | 25.3 | 22.0 |
| $SD^{\ 2}$ | 1.79 | 16.55 | 2.12 |
| $C$ | 0.0874 | 0.8092 | 0.1035 |
각 그룹 (Day)의 통계량 $C$ 값은 개별 $SD^{\ 2}$을 총합계로 나눈 값으로
그중에 가장 큰 값 0.8092이 통계량 $C$ 값이 된다.
Cochran's C test 평가 방법
Cochran's C test의 통계량 C 값을 이용해서 이상치가 포함된 그룹을 확인할 수 있다.
설정된 통계량 가설은 모든 그룹의 분산이 동일하다는 가정이다.
다른 분산이 포함된 그룹이 있다면, 설정된 가설의 확률이 낮아진다.
평가 방법은 기준에 부합하는 임계값 ($C_{crit}$)과 실험으로 계산된 통계량 C 값이 사용된다.
$C_{crit} > C $ 이면, 모든 그룹의 분산이 같을 확률이 높은 것으로 해석된다.
$C_{crit} < C $ 이면, 특정 그룹의 분산이 다른 분산과 차이가 있다는 것으로 해석된다.
임계값 ($C_{crit}$)은 그룹의 수 (p), 개별 그룹 데이터의 수 (n), 유의 수준 (1 or 5%)으로 설정된다.
임계값 정보는 ISO 5725-2 문서에 포함되어 있어 활용이 가능하다.
ISO 문서에 포함된 표의 일부 내용은 다음과 같다.
| p | n = 2 1% 5% |
n = 3 1% 5% |
||
| 3 | 0.993 | 0.967 | 0.942 | 0.871 |
| 4 | 0.968 | 0.906 | 0.864 | 0.768 |
| 5 | 0.928 | 0.841 | 0.788 | 0.684 |
| 6 | 0.883 | 0.781 | 0.722 | 0.616 |
| 7 | 0.838 | 0.727 | 0.664 | 0.561 |
앞서 실험 데이터는 3일 동안 (p=3), 7회 반복측정 (n=7)으로 구성되어 있기 때문에
5% 오차를 허용하는 임계값은 위 표에서 0.561로 확인된다.
실험 데이터에서 계산된 C 값 0.8092은 임계값 0.561 보다 큰 값이다.
임계값보다 증가된 C 값을 가지는 그룹은 다른 그룹에 비해서 큰 분산을 가지고 있다는 것이 확인된다.
실험 조건에 맞는 임계값이 표 범위를 벗어나는 경우라면 확인이 불가하기 때문에
표에 나타난 임계값을 수식으로 변환할 수 있는 내용을 확인하였다.
NIST 홈페이지에서 해당 내용이 확인되었고, 수식은 다음과 같다.
$$C_{crit}=\dfrac{1}{1+\dfrac{p-1}{F_{(\alpha /p,\ n-1,\ (p-1)\times(n-1))}}}$$
Cochran's C test는 F-분포를 기반으로 평가되기 때문에 임계값은 F-분포와 연관된다.
F값은 유의 수준 ($\alpha /p$), 자유도 1 ($n-1$), 자유도 2 ($(p-1)\times(n-1)$)로 계산되며,
$F_{(\alpha /p,\ n-1,\ (p-1)\times(n-1))}$ 값은 엑셀의 F.INV.RT 함수로 계산할 수 있다.
Cochran's C test의 C 값을 유의확률 (p-value) 값으로 변환도 가능하다.
위 수식을 이용해서 C 값을 F 값으로 변환하고,
F-분포를 기반으로 유의확률 값을 계산할 수 있다.
Cochran's C test는 이상치로 인해서 발생된 분포가 증가된 그룹을 찾아낼 수 있다.
해당 그룹에서 단일 이상치를 평가하는 방법으로 Grubbs' test가 ISO 5725-2 문서에 포함되어 있다.
이상치 평가 순서는 분포가 다른 그룹을 Cochran's C test로 평가한 다음으로
개별 이상치를 Grubbs' test로 평가해서 이상치로 판정된 값은 삭제한다.
Grubbs' test 방법은 이전 글에서 확인할 수 있다.
2024.04.13 - [데이터 처리 방법] - [Excel] 이상치 (Outlier) 확인: Grubbs' test
[Excel] 이상치 (Outlier) 확인: Grubbs' test
단일 이상치 (Single Outlier) 확인을 위한 Grubbs' test를 알아보자. Grubbs' test는 1950에 Frank E. Grubbs에 의해서 발표된 내용으로정규분포에서 벗어난 이상치를 확인하기 위한 방법으로 소개되었다. 현
analchem.tistory.com
각 그룹의 데이터 n이 서로 다른 경우 Cochran's C test 평가 방법
반복 측정 후 이상치를 제거하거나 장비 에러로 결측치가 발생하는 경우에는
해당 데이터 개수가 이전과 달라지게 된다.
이런 경우 Cochran's C test를 진행하려 한다면,
모든 그룹의 데이터 (n)이 동일하다는 기본적인 조건을 만족하지 않기 때문에
앞서 확인된 임계값 ($C_{crit}$)으로 정확한 평가가 될 수 없다.
NIST 홈페이지에서는 n 이 다른 경우 C 값을 계산하는 내용이 포함되어 있었다.
그 내용은 G 값으로 표현되었고, 수식은 다음과 같다.
$$G_j=\dfrac{(n_j - 1) s_j^2}{\sum_{i=1}^p (n_i - 1) s_i^2}$$
위 수식은 각 그룹에 n 이 가중되어 계산되고 있어서 각 그룹에 n 이 동일하지 않아도 된다.
모든 그룹에서 n 이 동일하면, G 값은 C 값과 동일하다.
G 값의 임계값 ($G_{crit}$)은 n 이 가중된 수식으로 내용은 다음과 같다.
$$G_{crit}=\dfrac{1}{1+\dfrac{(\sum_{i=1}^p (n_i -1))/(n_j-1)-1}{F_{(\alpha /p,\ n_j-1,\ \sum_{i=1}^p (n_i -1) - (n_j-1))}}}$$
해당 임계값도 각 그룹에 n 이 모두 동일하면, C 값의 임계값과 동일하다.
Cochran's C test 한계점
Cochran's C test는 여러 개의 그룹 중 분산이 증가되어 다른 그룹과 차이 나는 것을 확인하는 방법이지만,
한 개의 그룹만 평가할 수 있다는 한계점이 존재한다.
두 개의 그룹이 분산이 증가되어 나타나면 Cochran's C test는 차이점을 평가할 수 없다.
아래 그림과 같이 두 그룹에 이상치가 모두 발생하면 C 값은 임계값 보다 낮은 값으로 계산된다.

다른 한계점으로 특정 그룹의 분산이 작아지는 차이점이 발생하면
해당 그룹을 평가하는 방법은 위에서 소개한 임계값으로 평가하는 것이 불가하다.
상대적으로 낮은 분산을 갖는 그룹을 평가하기 위해서는
낮은 분산을 평가할 수 있는 임계값이 필요하다.
NIST 홈페이지에는 낮은 분산을 평가하는 G 임계값의 수식 내용이 포함되어 있다.
재현성 평가에서는 활용도가 낮아서 해당 내용은 이 글에서 제외하였다.
Cochran's C test의 자세한 엑셀 계산 내용은 첨부파일 통해서 확인할 수 있다.
'데이터 통계 분석' 카테고리의 다른 글
| 정량분석 결과의 유효숫자 (Significant figure) (3) | 2026.01.02 |
|---|---|
| [Excel] 다수 이상치 (Multiple outliers) 확인 : Grubbs' test (0) | 2025.09.28 |
| [Excel] 검정곡선의 이상치 (Outlier) 확인 : 표준화 잔차 (0) | 2025.08.19 |
| [Excel] t-분포 (t -distribution) 및 t-검정 (t-test) 이해 (0) | 2024.11.04 |
| [Excel] F-검증 (F-test) | 분산분석 (ANOVA) : "F-통계량" 차이점 (0) | 2024.10.07 |