F-검증 (F-test)과 일원배치 분산분석 (ANOVA)에 사용되는
"F-통계량" 계산과 해석 차이를 알아보자.
F-검증과 분산분석에서는 동일한 F-통계량을 사용해서 유의확률을 계산한다.
하지만, 두 통계 결과의 F-통계량은 다른 것을 확인할 수 있다.
엑셀을 이용해서 통계 결과 내용의 계산 차이를 자세히 알아보고,
F-통계량으로 확인된 유의확률 차이점도 같이 설명하고자 한다.
F 분포 (F distribution)
우선 F-통계량을 이해하기 위해서는 F 분포에 대한 이해가 필요하다.
F-통계량은 두 그룹 데이터에서 계산된 분산의 비율이고,
F-통계량 (F-value)과 빈도 (Probability density)를 나타낸 그래프 모양이 F 분포이다.
일반적인 F 분포는 최고점을 기점으로 좌, 우 비대칭 형태를 나타낸다.
F 분포의 확률밀도함수의 엑셀 함수는 다음과 같다.
F.DIST(F-value, Degree of freedom1, Degree of freedom2, Cumulative)
자유도 (Degree of freedom)는 "각 그룹의 데이터 개수 (n) - 1" 로 계산한다.
누적 (Cumulative) 옵션은 "True" 설정은 누적 결과를 반환하고,
"False" 설정은 누적이 아닌 빈도 값을 반환한다. 위 그래프를 작성은 "False"로 설정하고,
F 값 (범위 : 0.001~5), 자유도1 (10 - 1 = 9), 자유도2 (10 - 1 = 9) 를 입력하였다.
위 함수를 계산하기 위해서는 각 그룹의 자유도 값이 꼭 필요하다.
그 이유는 아래 그래프 내용을 보면 알 수 있다.
자유도가 다른 F 분포는 각 그룹의 데이터 개수가 증가하면서 비대칭에서 대칭으로 변경된다.
이전에 확인된 자유도 변화에 따른 F 분포의 확률분포 함수는
설정된 가정의 통계적 검증에 필요한 유의확률 (p-value)을 계산할 수 있다.
예를 들어, 두 그룹 데이터의 분산이 동일하다는 가정을 검증하기 위해서
조건에 부합한 F 분산에서 확인한 계산된 F-통계량 (F-value)의 유의확률을 확인할 수 있다.
이때 확인하는 유의확률은 F 분산의 면적에 해당한다.
면적으로 계산된 유의확률이 유의수준 (α = 0.05) 보다 낮은 값을 나타낸다면,
두 그룹의 분산이 동일할 확률이 매우 낮게 되므로 분산은 차이가 있다고 설명한다.
엑셀에서 F-통계량 (F-value)으로 유의확률 (F 분산의 면적)을 확인하는 방법은
누적 그래프 함수에서 그 값을 얻을 수 있다.
일정 범위 x 값의 모든 y 값을 합하면 그 값은 면적으로 변환된다.
엑셀에서 F 분포의 누적 그래프 함수는 두 가지 존재한다.
첫 번째로 아래 그림의 주황색 누적 그래프는 위에서 소개한 엑셀 함수에서 cumulative 항목을 "True"로 설정하면 된다.
F.DIST(F-value, Degree of freedom1, Degree of freedom2, Cumulative)
두 번째 방법은 위 그림의 빨간색 그래프처럼 주황색 그래프와 반전된 엑셀 함수는 다음과 같다.
F.DIST.RT(F-value, Degree of freedom1, Degree of freedom2)
해당 엑셀 함수는 누적에 대한 옵션이 없다.
두 가지 엑셀 함수를 모두 사용하는데 그 이유는
분산에 대한 비교는 단측검정으로도 확인되므로
한쪽 측면의 누적값인 유의확률로 유의확률을 확인한다.
F 분포는 비대칭이기 때문에 두 그래프가 교차되는 지점을 기점으로
F-통계량이 1보다 작은 경우 오른쪽 누적 함수 "F.DIST" 에서 유의확률을 계산하고,
1보다 큰 경우에는 왼쪽 방향의 누적 함수 "F.DIST.RT" 에서 유의확률을 계산한다.
F-통계량은 두 그룹 분산을 나눈 값으로
두 그룹의 분산이 변경되지 않더라도
분모와 분자가 바뀌면 F-통계량 값은 변경된다.
F-분포가 비대칭이기 때문에 유의수준에 해당하는 F-통계량도 달라지게 된다.
위 그림처럼 유의수준 0.05에 해당하는
F-통계량의 기각치 (Critical value)는 0.315, 3.179로 다르게 나타난다.
F-검정 (F-test)
F-검정은 F 분포를 이용해서 두 그룹의 분산의 차이를 확인하는 통계적 방법이다.
해당 내용을 이해하기 위해서 두 종류의 데이터 예시로 설명하고자 한다.
첫 번째 데이터는 두 그룹의 평균 및 분산 차이가 없는 데이터이다.
No | Test1 | Test2 |
---|---|---|
1 | 12.2 | 12.0 |
2 | 10.3 | 12.2 |
3 | 11.5 | 11.5 |
4 | 12.4 | 12.8 |
5 | 11.0 | 12.7 |
6 | 12.3 | 12.9 |
7 | 10.1 | 12.4 |
8 | 11.6 | 10.4 |
9 | 11.5 | 12.1 |
10 | 12.2 | 10.9 |
Mean | 11.506 | 11.989 |
SD | 0.824 | 0.831 |
Variance | 0.680 | 0.691 |
두 번째 데이터는 두 그룹의 분산 차이는 없지만, 평균 차이가 있는 데이터이다.
No | Test1 | Test2 |
---|---|---|
1 | 10.1 | 7.4 |
2 | 12.0 | 6.5 |
3 | 12.7 | 7.2 |
4 | 12.4 | 5.1 |
5 | 11.3 | 5.8 |
6 | 11.3 | 5.0 |
7 | 11.3 | 6.0 |
8 | 10.7 | 7.2 |
9 | 11.4 | 6.8 |
10 | 11.2 | 5.6 |
Mean | 11.445 | 6.248 |
SD | 0.764 | 0.879 |
Variance | 0.583 | 0.773 |
두 데이터의 F-검정 결과를 엑셀로 확인하였다.
엑셀의 메뉴에서 "데이터>데이터분석" 를 선택하고,
통계 데이터 분석 메뉴에서 "F-검정: 분산에 대한 두 집단" 방법으로 결과를 확인하였다.
첫 번째 데이터 결과는 다음과 같다.
Test 1 | Test 2 | |
---|---|---|
Mean | 11.506 | 11.989 |
Variance | 0.680 | 0.691 |
Observations | 10 | 10 |
df | 9 | 9 |
F | 0.984 | |
P(F<=f) one-tail | 0.490 | |
F Critical one-tail | 0.315 |
결과 내용을 보면 평균 (Mean)과 분산 (Variance)는 테스트 그룹 간에 큰 차이는 없는 것으로 예상된다.
두 그룹의 분산 차이를 확인 F-검증의 결과 내용을 보면
측정 데이터 (Observations)는 각 그룹당 10개 이고, 자유도(df)는 10-1로 확인된다.
F-통계량 (F)는 각 그룹의 분산 값을 나눈 값으로 분모에는 테스트2 값이 사용되었다.
단측검정 유의확률 (P one-tail)은 유의수준 0.05 보다 큰 값으로 확인되어
두 분산이 같다는 가정의 확률이 유의수준 보다 높기 때문에 분산이 동일할 확률이 높다.
F-통계량 값이 1보다 낮기 때문에 오른쪽 방향의 누적함수를 이용해서 얻을 수 있다.
유의확률 값은 오른쪽 엑셀 누적함수에 다음과 같이 입력하면 동일한 값이 나타난다.
"= F.DIST(0.984, 9, 9, TRUE)"
F-검증의 기각치 (F Critical one-tail)는 유의수준 0.05에 해당하는 F-통계량 값으로
분산이 같을 확률을 구분할 수 있는 F-통계량 값이다.
기각치 0.315 보다 F-통계량 값이 더 크기 때문에 두 분산이 같을 확률이 높다는 것이 확인된다.
기각치 값은 오른쪽 엑셀 누적함수에서 F-통계량을 반환하는 함수 F.INV에 다음과 같이 입력하면 동일한 값이 나타난다.
"= F.INV(0.05, 9, 9)"
두 번째 데이터 결과는 다음과 같다.
Test 1 | Test 2 | |
---|---|---|
Mean | 11.445 | 6.248 |
Variance | 0.583 | 0.773 |
Observations | 10 | 10 |
df | 9 | 9 |
F | 0.754 | |
P(F<=f) one-tail | 0.340 | |
F Critical one-tail | 0.315 |
결과 내용을 보면 첫 번째 데이터 결과와 계산 방법은 동일하다.
평균의 차이점이 예상되고, 분산의 차이도 일부 나타나는 것이 예상된다.
하지만, F-검증 결과를 보면 유의수준 0.05 보다 유의확률 (P) 0.754 값이 더 크게 계산되었다.
동일한 분산이라고 가정된 확률이 유의수준 보다 높기 때문에
분산 차이는 없는 것이 확인된다.
F-검증은 두 그룹의 분산 차이만을 검증하는 도구로
평균과 같은 다른 차이점은 검증하는 것이 불가하다.
일원배치 분산분석 (ANOVA)
일원배치 분산분석은 그룹 내 분산과 그룹 간 분산의 차이를 확인하는 통계적 방법이다.
위에서 사용한 동일한 두 개의 데이터를 사용해서 F-검증과 비교했다.
일원배치 분산분석은 엑셀의 메뉴에서 "데이터>데이터분석" 를 선택하고,
통계 데이터 분석 메뉴에서 "분산분석: 일원배치법" 방법으로 결과를 확인하였다.
첫 번째 데이터의 일원배치 분산분석 결과는 다음과 같다.
ANOVA | ||||||
Source of Variation | SS | df | MS | F | P-value | F crit |
Between Groups | 1.167 | 1 | 1.167 | 1.702 | 0.2084 | 4.414 |
Within Groups | 12.334 | 18 | 0.685 | |||
Total | 13.501 | 19 |
일원배치 분산분석 결과 내용은 그룹 간 (Between Groups) 결과와 그룹 내 (Within Groups) 결과로 나누어져 있다.
한글 버전 결과에서는 "Between Groups = 처리, Within Groups = 잔차" 로 표현하였다.
F-검증 처럼 두 그룹 (그룹 간, 그룹 내)으로 나누어서 F-통계량 (F)을 계산하였다.
F-통계량은 "그룹 간 분산 (MS of between groups) / 그룹 내 분산 (MS of within groups)" 의 비율로 계산된다.
분산 (MS)은 한글 버전에서 "제곱평균"으로 표기되어 있고,
분산 공식과 동일하게 평균에서 개별 값을 빼고 제곱해서 합한 "제곱합 (SS)"을
자유도 (df) 로 나누어서 계산하였다.
자유도는 2개 그룹으로 분석하였기 때문에
그룹 간 자유도는 2-1로 계산되고, 그룹 내 자유도는 각 그룹의 자유도 (10-1)의 합 9+9로 계산되었다.
그룹 간 제곱합은 전체 20개의 평균값을 각 그룹의 평균값을 빼고 제곱해서
각 그룹의 샘플 개수로 가중치를 곱해서 합산하였다.
그룹 내 제곱합은 각 그룹의 개별 값을 그룹의 평균값으로 빼고 제곱해서 합산하였다.
계 (Total)은 개별 값을 모든 값의 평균값으로 빼고 제곱해서 합산한 것으로
그룹 간 제곱합과 그룹 내 제곱합의 합한 결과와 동일하다.
F-통계량은 1보다 큰 1.702로 계산되어 왼쪽 방향의 누적 함수 "F.DIST.RT" 에서 유의확률을 계산한다.
계산된 유의확률 0.2084는 유의수준 0.05 보다 크기 때문에
그룹 간 분산과 그룹 내 분산의 동일하다는 가정의 확률이 높으므로
그룹 간 분산과 그룹 내 분산 차이가 없는 것이 확인된다.
두 번째 데이터의 일원배치 분산분석 결과는 다음과 같다.
ANOVA | ||||||
Source of Variation | SS | df | MS | F | P-value | F crit |
Between Groups | 135.019 | 1 | 135.019 | 199.099 | 3.570.E-11 | 4.414 |
Within Groups | 12.207 | 18 | 0.678 | |||
Total | 147.225 | 19 |
두 번째 데이터는 분산은 비슷하고 평균 차이가 있었다.
일원배치 분산분석 결과 내용은 첫 번째 데이터에 비해서
그룹 간 분산 (MS of between groups)이 그룹 내 분산 (MS of within groups) 보다 큰 차이를 나타내고,
F-통계량도 첫 번째 데이터와 비교해서 100배 넘는 값으로 계산되었다.
그룹 내 분산은 첫 번째 데이터와 큰 차이를 보이지 않았지만,
그룹 간 분산이 첫 번째 데이터와 큰 차이를 보이면서 F-통계량이 증가하였다.
F-통계량으로 확인된 유의확률은 0에 가까운 값으로 나타나서
그룹 내 분산과 그룹 간 분산에 차이점이 통계적으로 유의하다는 것이 확인되었다.
그룹 간의 차이점은 평균의 차이에서 발생된 결과에서 기인된 것이다.
F-검증과 일원배치 분산분석 (ANOVA) 통계분석은 동일한 F 분포를 사용해서 분산 차이점을 확인할 수 있다.
두 통계분석에 차이점은
F-검증은 두 그룹의 분산 차이만 확인할 수 있고,
일원배치 분산분석은 그룹 내 분산과 그룹 간 분산 차이를 확인할 수 있어서
평균의 차이도 확인할 수 있다.
추가적으로 F-검증은 두 그룹의 비교 분석만 가능하지만,
일원배치 분산분석은 두 그룹 이상에서 분석이 가능하다는 차이점도 있다.
엑셀을 이용해서 F-검증과 일원배치 분석분석에 차이점을 확인해 보았다.
통계 결과를 확인하기 위해서 다양한 계산 내용이 포함되어 있기 때문에
엑셀에서 도구분석을 통해서 일괄된 결과를 손쉽게 얻을 수 있다.
하지만, 내용을 이해하기 위해서는 각각의 계산 방법을 알아보는 것도 도움이 된다.
해당 결과 내용을 엑셀 함수와 간단한 수식으로 계산된 엑셀 파일을 업로드합니다.
자세한 계산 내용이 궁금하시면 엑셀 파일을 참고해 주세요.
'데이터 처리 방법' 카테고리의 다른 글
[Excel] t-분포 (t -distribution) 및 t-검정 (t-test) 이해 (0) | 2024.11.04 |
---|---|
단일 이상치 (Single Outlier) 확인 방법 비교 (0) | 2024.06.10 |
[Excel] 이상치 (Outlier) 확인: Generalized ESD test (0) | 2024.05.20 |
[Excel] 이상치 (Outlier) 확인: Tietjen-Moore test (0) | 2024.05.06 |
[Excel] 이상치 (Outlier) 확인: Grubbs' test (0) | 2024.04.22 |