본문 바로가기
데이터 처리 방법

[Excel] F-검증 (F-test) | 분산분석 (ANOVA) : "F-통계량" 차이점

by 어날켐 2024. 10. 7.
728x90
반응형

F-검증 (F-test)과 일원배치 분산분석 (ANOVA)에 사용되는
"F-통계량" 계산과 해석 차이를 알아보자.

F-검증과 분산분석에서는 동일한 F-통계량을 사용해서 유의확률을 계산한다.
하지만, 두 통계 결과의 F-통계량은 다른 것을 확인할 수 있다.
엑셀을 이용해서 통계 결과 내용의 계산 차이를 자세히 알아보고,
F-통계량으로 확인된 유의확률 차이점도 같이 설명하고자 한다.


F 분포 (F distribution)

우선 F-통계량을 이해하기 위해서는 F 분포에 대한 이해가 필요하다.
F-통계량은 두 그룹 데이터에서 계산된 분산의 비율이고,
F-통계량 (F-value)과 빈도 (Probability density)를 나타낸 그래프 모양이 F 분포이다.

일반적인 F 분포는 최고점을 기점으로 좌, 우 비대칭 형태를 나타낸다.
F 분포의 확률밀도함수의 엑셀 함수는 다음과 같다.

F.DIST(F-value, Degree of freedom1, Degree of freedom2, Cumulative)

자유도 (Degree of freedom)는 "각 그룹의 데이터 개수 (n) - 1" 로 계산한다.
누적 (Cumulative) 옵션은 "True" 설정은 누적 결과를 반환하고,
"False" 설정은 누적이 아닌 빈도 값을 반환한다. 위 그래프를 작성은 "False"로 설정하고,
F 값 (범위 : 0.001~5), 자유도1 (10 - 1 = 9), 자유도2 (10 - 1 = 9) 를 입력하였다.

위 함수를 계산하기 위해서는 각 그룹의 자유도 값이 꼭 필요하다.
그 이유는 아래 그래프 내용을 보면 알 수 있다.

자유도가 다른 F 분포는 각 그룹의 데이터 개수가 증가하면서 비대칭에서 대칭으로 변경된다.

이전에 확인된 자유도 변화에 따른 F 분포의 확률분포 함수는
설정된 가정의 통계적 검증에 필요한 유의확률 (p-value)을 계산할 수 있다.
예를 들어, 두 그룹 데이터의 분산이 동일하다는 가정을 검증하기 위해서
조건에 부합한 F 분산에서 확인한 계산된 F-통계량 (F-value)의 유의확률을 확인할 수 있다.
이때 확인하는 유의확률은 F 분산의 면적에 해당한다.
면적으로 계산된 유의확률이 유의수준 (α = 0.05) 보다 낮은 값을 나타낸다면,
두 그룹의 분산이 동일할 확률이 매우 낮게 되므로 분산은 차이가 있다고 설명한다.

엑셀에서 F-통계량 (F-value)으로 유의확률 (F 분산의 면적)을 확인하는 방법은
누적 그래프 함수에서 그 값을 얻을 수 있다.
일정 범위 x 값의 모든 y 값을 합하면 그 값은 면적으로 변환된다.

엑셀에서 F 분포의 누적 그래프 함수는 두 가지 존재한다.
첫 번째로 아래 그림의 주황색 누적 그래프는 위에서 소개한 엑셀 함수에서 cumulative 항목을 "True"로 설정하면 된다.

F.DIST(F-value, Degree of freedom1, Degree of freedom2, Cumulative)

두 번째 방법은 위 그림의 빨간색 그래프처럼 주황색 그래프와 반전된 엑셀 함수는 다음과 같다.

F.DIST.RT(F-value, Degree of freedom1, Degree of freedom2)

해당 엑셀 함수는 누적에 대한 옵션이 없다.

두 가지 엑셀 함수를 모두 사용하는데 그 이유는
분산에 대한 비교는 단측검정으로도 확인되므로
한쪽 측면의 누적값인 유의확률로 유의확률을 확인한다.
F 분포는 비대칭이기 때문에 두 그래프가 교차되는 지점을 기점으로
F-통계량이 1보다 작은 경우 오른쪽 누적 함수 "F.DIST" 에서 유의확률을 계산하고,
1보다 큰 경우에는 왼쪽 방향의 누적 함수 "F.DIST.RT" 에서 유의확률을 계산한다.

F-통계량은 두 그룹 분산을 나눈 값으로
두 그룹의 분산이 변경되지 않더라도
분모와 분자가 바뀌면 F-통계량 값은 변경된다.
F-분포가 비대칭이기 때문에 유의수준에 해당하는 F-통계량도 달라지게 된다.
위 그림처럼 유의수준 0.05에 해당하는
F-통계량의 기각치 (Critical value)는 0.315, 3.179로 다르게 나타난다.


F-검정 (F-test)

F-검정은 F 분포를 이용해서 두 그룹의 분산의 차이를 확인하는 통계적 방법이다.
해당 내용을 이해하기 위해서 두 종류의 데이터 예시로 설명하고자 한다.

첫 번째 데이터는 두 그룹의 평균 및 분산 차이가 없는 데이터이다.

No Test1 Test2
1 12.2 12.0
2 10.3 12.2
3 11.5 11.5
4 12.4 12.8
5 11.0 12.7
6 12.3 12.9
7 10.1 12.4
8 11.6 10.4
9 11.5 12.1
10 12.2 10.9
     
Mean 11.506 11.989
SD 0.824 0.831
Variance 0.680 0.691

두 번째 데이터는 두 그룹의 분산 차이는 없지만, 평균 차이가 있는 데이터이다.

No Test1 Test2
1 10.1 7.4
2 12.0 6.5
3 12.7 7.2
4 12.4 5.1
5 11.3 5.8
6 11.3 5.0
7 11.3 6.0
8 10.7 7.2
9 11.4 6.8
10 11.2 5.6
     
Mean 11.445 6.248
SD 0.764 0.879
Variance 0.583 0.773

두 데이터의 F-검정 결과를 엑셀로 확인하였다.
엑셀의 메뉴에서 "데이터>데이터분석" 를 선택하고,
통계 데이터 분석 메뉴에서 "F-검정: 분산에 대한 두 집단" 방법으로 결과를 확인하였다.

첫 번째 데이터 결과는 다음과 같다.

  Test 1 Test 2
Mean 11.506 11.989
Variance 0.680 0.691
Observations 10 10
df 9 9
F 0.984  
P(F<=f) one-tail 0.490  
F Critical one-tail 0.315  

결과 내용을 보면 평균 (Mean)과 분산 (Variance)는 테스트 그룹 간에 큰 차이는 없는 것으로 예상된다.
두 그룹의 분산 차이를 확인 F-검증의 결과 내용을 보면
측정 데이터 (Observations)는 각 그룹당 10개 이고, 자유도(df)는 10-1로 확인된다.
F-통계량 (F)는 각 그룹의 분산 값을 나눈 값으로 분모에는 테스트2 값이 사용되었다.
단측검정 유의확률 (P one-tail)은 유의수준 0.05 보다 큰 값으로 확인되어
두 분산이 같다는 가정의 확률이 유의수준 보다 높기 때문에 분산이 동일할 확률이 높다.
F-통계량 값이 1보다 낮기 때문에 오른쪽 방향의 누적함수를 이용해서 얻을 수 있다.
유의확률 값은 오른쪽 엑셀 누적함수에 다음과 같이 입력하면 동일한 값이 나타난다.
"= F.DIST(0.984, 9, 9, TRUE)"
F-검증의 기각치 (F Critical one-tail)는 유의수준 0.05에 해당하는 F-통계량 값으로
분산이 같을 확률을 구분할 수 있는 F-통계량 값이다.
기각치 0.315 보다 F-통계량 값이 더 크기 때문에 두 분산이 같을 확률이 높다는 것이 확인된다.
기각치 값은 오른쪽 엑셀 누적함수에서 F-통계량을 반환하는 함수 F.INV에 다음과 같이 입력하면 동일한 값이 나타난다.
"= F.INV(0.05, 9, 9)"

두 번째 데이터 결과는 다음과 같다.

  Test 1 Test 2
Mean 11.445 6.248
Variance 0.583 0.773
Observations 10 10
df 9 9
F 0.754  
P(F<=f) one-tail 0.340  
F Critical one-tail 0.315  

결과 내용을 보면 첫 번째 데이터 결과와 계산 방법은 동일하다.
평균의 차이점이 예상되고, 분산의 차이도 일부 나타나는 것이 예상된다.
하지만, F-검증 결과를 보면 유의수준 0.05 보다 유의확률 (P) 0.754 값이 더 크게 계산되었다.
동일한 분산이라고 가정된 확률이 유의수준 보다 높기 때문에
분산 차이는 없는 것이 확인된다.

F-검증은 두 그룹의 분산 차이만을 검증하는 도구로
평균과 같은 다른 차이점은 검증하는 것이 불가하다. 


일원배치 분산분석 (ANOVA)

일원배치 분산분석은 그룹 내 분산과 그룹 간 분산의 차이를 확인하는 통계적 방법이다.
위에서 사용한 동일한 두 개의 데이터를 사용해서 F-검증과 비교했다. 
일원배치 분산분석은 엑셀의 메뉴에서 "데이터>데이터분석" 를 선택하고,
통계 데이터 분석 메뉴에서 "분산분석: 일원배치법" 방법으로 결과를 확인하였다.

첫 번째 데이터의 일원배치 분산분석 결과는 다음과 같다. 

ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 1.167 1 1.167 1.702 0.2084 4.414
Within Groups 12.334 18 0.685      
             
Total 13.501 19        

일원배치 분산분석 결과 내용은 그룹 간 (Between Groups) 결과와 그룹 내 (Within Groups) 결과로 나누어져 있다. 
한글 버전 결과에서는 "Between Groups = 처리, Within Groups = 잔차" 로 표현하였다. 
F-검증 처럼 두 그룹 (그룹 간, 그룹 내)으로 나누어서 F-통계량 (F)을 계산하였다. 
F-통계량은 "그룹 간 분산 (MS of between groups) / 그룹 내 분산 (MS of within groups)" 의 비율로 계산된다.  
분산 (MS)은 한글 버전에서 "제곱평균"으로 표기되어 있고, 
분산 공식과 동일하게 평균에서 개별 값을 빼고 제곱해서 합한 "제곱합 (SS)"을 
자유도 (df) 로 나누어서 계산하였다. 
자유도는 2개 그룹으로 분석하였기 때문에 
그룹 간 자유도는 2-1로 계산되고, 그룹 내 자유도는 각 그룹의 자유도 (10-1)의 합 9+9로 계산되었다. 
그룹 간 제곱합은 전체 20개의 평균값을 각 그룹의 평균값을 빼고 제곱해서
각 그룹의 샘플 개수로 가중치를 곱해서 합산하였다. 
그룹 내 제곱합은 각 그룹의 개별 값을 그룹의 평균값으로 빼고 제곱해서 합산하였다. 
계 (Total)은 개별 값을 모든 값의 평균값으로 빼고 제곱해서 합산한 것으로
그룹 간 제곱합과 그룹 내 제곱합의 합한 결과와 동일하다.

F-통계량은 1보다 큰 1.702로 계산되어 왼쪽 방향의 누적 함수 "F.DIST.RT" 에서 유의확률을 계산한다.
계산된 유의확률 0.2084는 유의수준 0.05 보다 크기 때문에 
그룹 간 분산과 그룹 내 분산의 동일하다는 가정의 확률이 높으므로
그룹 간 분산과 그룹 내 분산 차이가 없는 것이 확인된다. 

두 번째 데이터의 일원배치 분산분석 결과는 다음과 같다. 

ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 135.019 1 135.019 199.099 3.570.E-11 4.414
Within Groups 12.207 18 0.678      
             
Total 147.225 19        

두 번째 데이터는 분산은 비슷하고 평균 차이가 있었다. 
일원배치 분산분석 결과 내용은 첫 번째 데이터에 비해서
그룹 간 분산 (MS of between groups)이 그룹 내 분산 (MS of within groups) 보다 큰 차이를 나타내고,
F-통계량도 첫 번째 데이터와 비교해서 100배 넘는 값으로 계산되었다. 
그룹 내 분산은 첫 번째 데이터와 큰 차이를 보이지 않았지만, 
그룹 간 분산이 첫 번째 데이터와 큰 차이를 보이면서 F-통계량이 증가하였다.  

F-통계량으로 확인된 유의확률은 0에 가까운 값으로 나타나서 
그룹 내 분산과 그룹 간 분산에 차이점이 통계적으로 유의하다는 것이 확인되었다. 
그룹 간의 차이점은 평균의 차이에서 발생된 결과에서 기인된 것이다. 


F-검증과 일원배치 분산분석 (ANOVA) 통계분석은 동일한 F 분포를 사용해서 분산 차이점을 확인할 수 있다. 
두 통계분석에 차이점은 
F-검증은 두 그룹의 분산 차이만 확인할 수 있고, 
일원배치 분산분석은 그룹 내 분산과 그룹 간 분산 차이를 확인할 수 있어서
평균의 차이도 확인할 수 있다. 
추가적으로 F-검증은 두 그룹의 비교 분석만 가능하지만, 
일원배치 분산분석은 두 그룹 이상에서 분석이 가능하다는 차이점도 있다.  

엑셀을 이용해서 F-검증과 일원배치 분석분석에 차이점을 확인해 보았다. 
통계 결과를 확인하기 위해서 다양한 계산 내용이 포함되어 있기 때문에 
엑셀에서 도구분석을 통해서 일괄된 결과를 손쉽게 얻을 수 있다. 
하지만, 내용을 이해하기 위해서는 각각의 계산 방법을 알아보는 것도 도움이 된다. 
해당 결과 내용을 엑셀 함수와 간단한 수식으로 계산된 엑셀 파일을 업로드합니다. 
자세한 계산 내용이 궁금하시면 엑셀 파일을 참고해 주세요. 

F statstics_Result comparison_V1.xlsx
0.03MB

728x90
반응형