[Excel] F-검증 (F-test) | 분산분석 (ANOVA) : "F-통계량" 차이점
F-검증 (F-test)과 일원배치 분산분석 (ANOVA)에 사용되는
"F-통계량" 계산과 해석 차이를 알아보자.
F-검증과 분산분석에서는 동일한 F-통계량을 사용해서 유의확률을 계산한다.
하지만, 두 통계 결과의 F-통계량은 다른 것을 확인할 수 있다.
엑셀을 이용해서 통계 결과 내용의 계산 차이를 자세히 알아보고,
F-통계량으로 확인된 유의확률 차이점도 같이 설명하고자 한다.
F 분포 (F distribution)
우선 F-통계량을 이해하기 위해서는 F 분포에 대한 이해가 필요하다.
F-통계량은 두 그룹 데이터에서 계산된 분산의 비율이고,
F-통계량 (F-value)과 빈도 (Probability density)를 나타낸 그래프 모양이 F 분포이다.
일반적인 F 분포는 최고점을 기점으로 좌, 우 비대칭 형태를 나타낸다.
F 분포의 확률밀도함수의 엑셀 함수는 다음과 같다.
F.DIST(F-value, Degree of freedom1, Degree of freedom2, Cumulative)
자유도 (Degree of freedom)는 "각 그룹의 데이터 개수 (n) - 1" 로 계산한다.
누적 (Cumulative) 옵션은 "True" 설정은 누적 결과를 반환하고,
"False" 설정은 누적이 아닌 빈도 값을 반환한다. 위 그래프를 작성은 "False"로 설정하고,
F 값 (범위 : 0.001~5), 자유도1 (10 - 1 = 9), 자유도2 (10 - 1 = 9) 를 입력하였다.
위 함수를 계산하기 위해서는 각 그룹의 자유도 값이 꼭 필요하다.
그 이유는 아래 그래프 내용을 보면 알 수 있다.
자유도가 다른 F 분포는 각 그룹의 데이터 개수가 증가하면서 비대칭에서 대칭으로 변경된다.
이전에 확인된 자유도 변화에 따른 F 분포의 확률분포 함수는
설정된 가정의 통계적 검증에 필요한 유의확률 (p-value)을 계산할 수 있다.
예를 들어, 두 그룹 데이터의 분산이 동일하다는 가정을 검증하기 위해서
조건에 부합한 F 분산에서 확인한 계산된 F-통계량 (F-value)의 유의확률을 확인할 수 있다.
이때 확인하는 유의확률은 F 분산의 면적에 해당한다.
면적으로 계산된 유의확률이 유의수준 (α = 0.05) 보다 낮은 값을 나타낸다면,
두 그룹의 분산이 동일할 확률이 매우 낮게 되므로 분산은 차이가 있다고 설명한다.
엑셀에서 F-통계량 (F-value)으로 유의확률 (F 분산의 면적)을 확인하는 방법은
누적 그래프 함수에서 그 값을 얻을 수 있다.
일정 범위 x 값의 모든 y 값을 합하면 그 값은 면적으로 변환된다.
엑셀에서 F 분포의 누적 그래프 함수는 두 가지 존재한다.
첫 번째로 아래 그림의 주황색 누적 그래프는 위에서 소개한 엑셀 함수에서 cumulative 항목을 "True"로 설정하면 된다.
F.DIST(F-value, Degree of freedom1, Degree of freedom2, Cumulative)
두 번째 방법은 위 그림의 빨간색 그래프처럼 주황색 그래프와 반전된 엑셀 함수는 다음과 같다.
F.DIST.RT(F-value, Degree of freedom1, Degree of freedom2)
해당 엑셀 함수는 누적에 대한 옵션이 없다.
두 가지 엑셀 함수를 모두 사용하는데 그 이유는
분산에 대한 비교는 단측검정으로도 확인되므로
한쪽 측면의 누적값인 유의확률로 유의확률을 확인한다.
F 분포는 비대칭이기 때문에 두 그래프가 교차되는 지점을 기점으로
F-통계량이 1보다 작은 경우 오른쪽 누적 함수 "F.DIST" 에서 유의확률을 계산하고,
1보다 큰 경우에는 왼쪽 방향의 누적 함수 "F.DIST.RT" 에서 유의확률을 계산한다.
F-통계량은 두 그룹 분산을 나눈 값으로
두 그룹의 분산이 변경되지 않더라도
분모와 분자가 바뀌면 F-통계량 값은 변경된다.
F-분포가 비대칭이기 때문에 유의수준에 해당하는 F-통계량도 달라지게 된다.
위 그림처럼 유의수준 0.05에 해당하는
F-통계량의 기각치 (Critical value)는 0.315, 3.179로 다르게 나타난다.
F-검정 (F-test)
F-검정은 F 분포를 이용해서 두 그룹의 분산의 차이를 확인하는 통계적 방법이다.
해당 내용을 이해하기 위해서 두 종류의 데이터 예시로 설명하고자 한다.
첫 번째 데이터는 두 그룹의 평균 및 분산 차이가 없는 데이터이다.
No | Test1 | Test2 |
---|---|---|
1 | 12.2 | 12.0 |
2 | 10.3 | 12.2 |
3 | 11.5 | 11.5 |
4 | 12.4 | 12.8 |
5 | 11.0 | 12.7 |
6 | 12.3 | 12.9 |
7 | 10.1 | 12.4 |
8 | 11.6 | 10.4 |
9 | 11.5 | 12.1 |
10 | 12.2 | 10.9 |
Mean | 11.506 | 11.989 |
SD | 0.824 | 0.831 |
Variance | 0.680 | 0.691 |
두 번째 데이터는 두 그룹의 분산 차이는 없지만, 평균 차이가 있는 데이터이다.
No | Test1 | Test2 |
---|---|---|
1 | 10.1 | 7.4 |
2 | 12.0 | 6.5 |
3 | 12.7 | 7.2 |
4 | 12.4 | 5.1 |
5 | 11.3 | 5.8 |
6 | 11.3 | 5.0 |
7 | 11.3 | 6.0 |
8 | 10.7 | 7.2 |
9 | 11.4 | 6.8 |
10 | 11.2 | 5.6 |
Mean | 11.445 | 6.248 |
SD | 0.764 | 0.879 |
Variance | 0.583 | 0.773 |
두 데이터의 F-검정 결과를 엑셀로 확인하였다.
엑셀의 메뉴에서 "데이터>데이터분석" 를 선택하고,
통계 데이터 분석 메뉴에서 "F-검정: 분산에 대한 두 집단" 방법으로 결과를 확인하였다.
첫 번째 데이터 결과는 다음과 같다.
Test 1 | Test 2 | |
---|---|---|
Mean | 11.506 | 11.989 |
Variance | 0.680 | 0.691 |
Observations | 10 | 10 |
df | 9 | 9 |
F | 0.984 | |
P(F<=f) one-tail | 0.490 | |
F Critical one-tail | 0.315 |
결과 내용을 보면 평균 (Mean)과 분산 (Variance)는 테스트 그룹 간에 큰 차이는 없는 것으로 예상된다.
두 그룹의 분산 차이를 확인 F-검증의 결과 내용을 보면
측정 데이터 (Observations)는 각 그룹당 10개 이고, 자유도(df)는 10-1로 확인된다.
F-통계량 (F)는 각 그룹의 분산 값을 나눈 값으로 분모에는 테스트2 값이 사용되었다.
단측검정 유의확률 (P one-tail)은 유의수준 0.05 보다 큰 값으로 확인되어
두 분산이 같다는 가정의 확률이 유의수준 보다 높기 때문에 분산이 동일할 확률이 높다.
F-통계량 값이 1보다 낮기 때문에 오른쪽 방향의 누적함수를 이용해서 얻을 수 있다.
유의확률 값은 오른쪽 엑셀 누적함수에 다음과 같이 입력하면 동일한 값이 나타난다.
"= F.DIST(0.984, 9, 9, TRUE)"
F-검증의 기각치 (F Critical one-tail)는 유의수준 0.05에 해당하는 F-통계량 값으로
분산이 같을 확률을 구분할 수 있는 F-통계량 값이다.
기각치 0.315 보다 F-통계량 값이 더 크기 때문에 두 분산이 같을 확률이 높다는 것이 확인된다.
기각치 값은 오른쪽 엑셀 누적함수에서 F-통계량을 반환하는 함수 F.INV에 다음과 같이 입력하면 동일한 값이 나타난다.
"= F.INV(0.05, 9, 9)"
두 번째 데이터 결과는 다음과 같다.
Test 1 | Test 2 | |
---|---|---|
Mean | 11.445 | 6.248 |
Variance | 0.583 | 0.773 |
Observations | 10 | 10 |
df | 9 | 9 |
F | 0.754 | |
P(F<=f) one-tail | 0.340 | |
F Critical one-tail | 0.315 |
결과 내용을 보면 첫 번째 데이터 결과와 계산 방법은 동일하다.
평균의 차이점이 예상되고, 분산의 차이도 일부 나타나는 것이 예상된다.
하지만, F-검증 결과를 보면 유의수준 0.05 보다 유의확률 (P) 0.754 값이 더 크게 계산되었다.
동일한 분산이라고 가정된 확률이 유의수준 보다 높기 때문에
분산 차이는 없는 것이 확인된다.
F-검증은 두 그룹의 분산 차이만을 검증하는 도구로
평균과 같은 다른 차이점은 검증하는 것이 불가하다.
일원배치 분산분석 (ANOVA)
일원배치 분산분석은 그룹 내 분산과 그룹 간 분산의 차이를 확인하는 통계적 방법이다.
위에서 사용한 동일한 두 개의 데이터를 사용해서 F-검증과 비교했다.
일원배치 분산분석은 엑셀의 메뉴에서 "데이터>데이터분석" 를 선택하고,
통계 데이터 분석 메뉴에서 "분산분석: 일원배치법" 방법으로 결과를 확인하였다.
첫 번째 데이터의 일원배치 분산분석 결과는 다음과 같다.
ANOVA | ||||||
Source of Variation | SS | df | MS | F | P-value | F crit |
Between Groups | 1.167 | 1 | 1.167 | 1.702 | 0.2084 | 4.414 |
Within Groups | 12.334 | 18 | 0.685 | |||
Total | 13.501 | 19 |
일원배치 분산분석 결과 내용은 그룹 간 (Between Groups) 결과와 그룹 내 (Within Groups) 결과로 나누어져 있다.
한글 버전 결과에서는 "Between Groups = 처리, Within Groups = 잔차" 로 표현하였다.
F-검증 처럼 두 그룹 (그룹 간, 그룹 내)으로 나누어서 F-통계량 (F)을 계산하였다.
F-통계량은 "그룹 간 분산 (MS of between groups) / 그룹 내 분산 (MS of within groups)" 의 비율로 계산된다.
분산 (MS)은 한글 버전에서 "제곱평균"으로 표기되어 있고,
분산 공식과 동일하게 평균에서 개별 값을 빼고 제곱해서 합한 "제곱합 (SS)"을
자유도 (df) 로 나누어서 계산하였다.
자유도는 2개 그룹으로 분석하였기 때문에
그룹 간 자유도는 2-1로 계산되고, 그룹 내 자유도는 각 그룹의 자유도 (10-1)의 합 9+9로 계산되었다.
그룹 간 제곱합은 전체 20개의 평균값을 각 그룹의 평균값을 빼고 제곱해서
각 그룹의 샘플 개수로 가중치를 곱해서 합산하였다.
그룹 내 제곱합은 각 그룹의 개별 값을 그룹의 평균값으로 빼고 제곱해서 합산하였다.
계 (Total)은 개별 값을 모든 값의 평균값으로 빼고 제곱해서 합산한 것으로
그룹 간 제곱합과 그룹 내 제곱합의 합한 결과와 동일하다.
F-통계량은 1보다 큰 1.702로 계산되어 왼쪽 방향의 누적 함수 "F.DIST.RT" 에서 유의확률을 계산한다.
계산된 유의확률 0.2084는 유의수준 0.05 보다 크기 때문에
그룹 간 분산과 그룹 내 분산의 동일하다는 가정의 확률이 높으므로
그룹 간 분산과 그룹 내 분산 차이가 없는 것이 확인된다.
두 번째 데이터의 일원배치 분산분석 결과는 다음과 같다.
ANOVA | ||||||
Source of Variation | SS | df | MS | F | P-value | F crit |
Between Groups | 135.019 | 1 | 135.019 | 199.099 | 3.570.E-11 | 4.414 |
Within Groups | 12.207 | 18 | 0.678 | |||
Total | 147.225 | 19 |
두 번째 데이터는 분산은 비슷하고 평균 차이가 있었다.
일원배치 분산분석 결과 내용은 첫 번째 데이터에 비해서
그룹 간 분산 (MS of between groups)이 그룹 내 분산 (MS of within groups) 보다 큰 차이를 나타내고,
F-통계량도 첫 번째 데이터와 비교해서 100배 넘는 값으로 계산되었다.
그룹 내 분산은 첫 번째 데이터와 큰 차이를 보이지 않았지만,
그룹 간 분산이 첫 번째 데이터와 큰 차이를 보이면서 F-통계량이 증가하였다.
F-통계량으로 확인된 유의확률은 0에 가까운 값으로 나타나서
그룹 내 분산과 그룹 간 분산에 차이점이 통계적으로 유의하다는 것이 확인되었다.
그룹 간의 차이점은 평균의 차이에서 발생된 결과에서 기인된 것이다.
F-검증과 일원배치 분산분석 (ANOVA) 통계분석은 동일한 F 분포를 사용해서 분산 차이점을 확인할 수 있다.
두 통계분석에 차이점은
F-검증은 두 그룹의 분산 차이만 확인할 수 있고,
일원배치 분산분석은 그룹 내 분산과 그룹 간 분산 차이를 확인할 수 있어서
평균의 차이도 확인할 수 있다.
추가적으로 F-검증은 두 그룹의 비교 분석만 가능하지만,
일원배치 분산분석은 두 그룹 이상에서 분석이 가능하다는 차이점도 있다.
엑셀을 이용해서 F-검증과 일원배치 분석분석에 차이점을 확인해 보았다.
통계 결과를 확인하기 위해서 다양한 계산 내용이 포함되어 있기 때문에
엑셀에서 도구분석을 통해서 일괄된 결과를 손쉽게 얻을 수 있다.
하지만, 내용을 이해하기 위해서는 각각의 계산 방법을 알아보는 것도 도움이 된다.
해당 결과 내용을 엑셀 함수와 간단한 수식으로 계산된 엑셀 파일을 업로드합니다.
자세한 계산 내용이 궁금하시면 엑셀 파일을 참고해 주세요.