[Excel] F-검증 (F-test) | 분산분석 (ANOVA) : "F-통계량" 차이점

728x90

F-검증 (F-test)과 일원배치 분산분석 (ANOVA)에 사용되는
"F-통계량" 계산과 해석 차이를 알아보자.

F-검증과 분산분석에서는 동일한 F-통계량을 사용해서 유의확률을 계산한다.
하지만, 두 통계 결과의 F-통계량은 다른 것을 확인할 수 있다.
엑셀을 이용해서 통계 결과 내용의 계산 차이를 자세히 알아보고,
F-통계량으로 확인된 유의확률 차이점도 같이 설명하고자 한다.

F 분포 (F distribution)

우선 F-통계량을 이해하기 위해서는 F 분포에 대한 이해가 필요하다.
F-통계량은 두 그룹 데이터에서 계산된 분산의 비율이고,
F-통계량 (F-value)과 빈도 (Probability density)를 나타낸 그래프 모양이 F 분포이다.

일반적인 F 분포는 최고점을 기점으로 좌, 우 비대칭 형태를 나타낸다.
F 분포의 확률밀도함수의 엑셀 함수는 다음과 같다.

F.DIST(F-value, Degree of freedom1, Degree of freedom2, Cumulative)

자유도 (Degree of freedom)는 "각 그룹의 데이터 개수 (n) - 1" 로 계산한다.
누적 (Cumulative) 옵션은 "True" 설정은 누적 결과를 반환하고,
"False" 설정은 누적이 아닌 빈도 값을 반환한다. 위 그래프를 작성은 "False"로 설정하고,
F 값 (범위 : 0.001~5), 자유도1 (10 - 1 = 9), 자유도2 (10 - 1 = 9) 를 입력하였다.

위 함수를 계산하기 위해서는 각 그룹의 자유도 값이 꼭 필요하다.
그 이유는 아래 그래프 내용을 보면 알 수 있다.

자유도가 다른 F 분포는 각 그룹의 데이터 개수가 증가하면서 비대칭에서 대칭으로 변경된다.

이전에 확인된 자유도 변화에 따른 F 분포의 확률분포 함수는
설정된 가정의 통계적 검증에 필요한 유의확률 (p-value)을 계산할 수 있다.
예를 들어, 두 그룹 데이터의 분산이 동일하다는 가정을 검증하기 위해서
조건에 부합한 F 분산에서 확인한 계산된 F-통계량 (F-value)의 유의확률을 확인할 수 있다.
이때 확인하는 유의확률은 F 분산의 면적에 해당한다.
면적으로 계산된 유의확률이 유의수준 (α = 0.05) 보다 낮은 값을 나타낸다면,
두 그룹의 분산이 동일할 확률이 매우 낮게 되므로 분산은 차이가 있다고 설명한다.

엑셀에서 F-통계량 (F-value)으로 유의확률 (F 분산의 면적)을 확인하는 방법은
누적 그래프 함수에서 그 값을 얻을 수 있다.
일정 범위 x 값의 모든 y 값을 합하면 그 값은 면적으로 변환된다.

엑셀에서 F 분포의 누적 그래프 함수는 두 가지 존재한다.
첫 번째로 아래 그림의 주황색 누적 그래프는 위에서 소개한 엑셀 함수에서 cumulative 항목을 "True"로 설정하면 된다.

F.DIST(F-value, Degree of freedom1, Degree of freedom2, Cumulative)

두 번째 방법은 위 그림의 빨간색 그래프처럼 주황색 그래프와 반전된 엑셀 함수는 다음과 같다.

F.DIST.RT(F-value, Degree of freedom1, Degree of freedom2)

해당 엑셀 함수는 누적에 대한 옵션이 없다.

두 가지 엑셀 함수를 모두 사용하는데 그 이유는
분산에 대한 비교는 단측검정으로도 확인되므로
한쪽 측면의 누적값인 유의확률로 유의확률을 확인한다.
F 분포는 비대칭이기 때문에 두 그래프가 교차되는 지점을 기점으로
F-통계량이 1보다 작은 경우 오른쪽 누적 함수 "F.DIST" 에서 유의확률을 계산하고,
1보다 큰 경우에는 왼쪽 방향의 누적 함수 "F.DIST.RT" 에서 유의확률을 계산한다.

F-통계량은 두 그룹 분산을 나눈 값으로
두 그룹의 분산이 변경되지 않더라도
분모와 분자가 바뀌면 F-통계량 값은 변경된다.
F-분포가 비대칭이기 때문에 유의수준에 해당하는 F-통계량도 달라지게 된다.
위 그림처럼 유의수준 0.05에 해당하는
F-통계량의 기각치 (Critical value)는 0.315, 3.179로 다르게 나타난다.

F-검정 (F-test)

F-검정은 F 분포를 이용해서 두 그룹의 분산의 차이를 확인하는 통계적 방법이다.
해당 내용을 이해하기 위해서 두 종류의 데이터 예시로 설명하고자 한다.

첫 번째 데이터는 두 그룹의 평균 및 분산 차이가 없는 데이터이다.

No	Test1	Test2
1	12.2	12.0
2	10.3	12.2
3	11.5	11.5
4	12.4	12.8
5	11.0	12.7
6	12.3	12.9
7	10.1	12.4
8	11.6	10.4
9	11.5	12.1
10	12.2	10.9

Mean	11.506	11.989
SD	0.824	0.831
Variance	0.680	0.691

두 번째 데이터는 두 그룹의 분산 차이는 없지만, 평균 차이가 있는 데이터이다.

No	Test1	Test2
1	10.1	7.4
2	12.0	6.5
3	12.7	7.2
4	12.4	5.1
5	11.3	5.8
6	11.3	5.0
7	11.3	6.0
8	10.7	7.2
9	11.4	6.8
10	11.2	5.6

Mean	11.445	6.248
SD	0.764	0.879
Variance	0.583	0.773

두 데이터의 F-검정 결과를 엑셀로 확인하였다.
엑셀의 메뉴에서 "데이터>데이터분석" 를 선택하고,
통계 데이터 분석 메뉴에서 "F-검정: 분산에 대한 두 집단" 방법으로 결과를 확인하였다.

첫 번째 데이터 결과는 다음과 같다.

	Test 1	Test 2
Mean	11.506	11.989
Variance	0.680	0.691
Observations	10	10
df	9	9
F	0.984
P(F<=f) one-tail	0.490
F Critical one-tail	0.315

결과 내용을 보면 평균 (Mean)과 분산 (Variance)는 테스트 그룹 간에 큰 차이는 없는 것으로 예상된다.
두 그룹의 분산 차이를 확인 F-검증의 결과 내용을 보면
측정 데이터 (Observations)는 각 그룹당 10개 이고, 자유도(df)는 10-1로 확인된다.
F-통계량 (F)는 각 그룹의 분산 값을 나눈 값으로 분모에는 테스트2 값이 사용되었다.
단측검정 유의확률 (P one-tail)은 유의수준 0.05 보다 큰 값으로 확인되어
두 분산이 같다는 가정의 확률이 유의수준 보다 높기 때문에 분산이 동일할 확률이 높다.
F-통계량 값이 1보다 낮기 때문에 오른쪽 방향의 누적함수를 이용해서 얻을 수 있다.
유의확률 값은 오른쪽 엑셀 누적함수에 다음과 같이 입력하면 동일한 값이 나타난다.
"= F.DIST(0.984, 9, 9, TRUE)"
F-검증의 기각치 (F Critical one-tail)는 유의수준 0.05에 해당하는 F-통계량 값으로
분산이 같을 확률을 구분할 수 있는 F-통계량 값이다.
기각치 0.315 보다 F-통계량 값이 더 크기 때문에 두 분산이 같을 확률이 높다는 것이 확인된다.
기각치 값은 오른쪽 엑셀 누적함수에서 F-통계량을 반환하는 함수 F.INV에 다음과 같이 입력하면 동일한 값이 나타난다.
"= F.INV(0.05, 9, 9)"

두 번째 데이터 결과는 다음과 같다.

	Test 1	Test 2
Mean	11.445	6.248
Variance	0.583	0.773
Observations	10	10
df	9	9
F	0.754
P(F<=f) one-tail	0.340
F Critical one-tail	0.315

결과 내용을 보면 첫 번째 데이터 결과와 계산 방법은 동일하다.
평균의 차이점이 예상되고, 분산의 차이도 일부 나타나는 것이 예상된다.
하지만, F-검증 결과를 보면 유의수준 0.05 보다 유의확률 (P) 0.754 값이 더 크게 계산되었다.
동일한 분산이라고 가정된 확률이 유의수준 보다 높기 때문에
분산 차이는 없는 것이 확인된다.

F-검증은 두 그룹의 분산 차이만을 검증하는 도구로
평균과 같은 다른 차이점은 검증하는 것이 불가하다.

일원배치 분산분석 (ANOVA)

일원배치 분산분석은 그룹 내 분산과 그룹 간 분산의 차이를 확인하는 통계적 방법이다.
위에서 사용한 동일한 두 개의 데이터를 사용해서 F-검증과 비교했다.
일원배치 분산분석은 엑셀의 메뉴에서 "데이터>데이터분석" 를 선택하고,
통계 데이터 분석 메뉴에서 "분산분석: 일원배치법" 방법으로 결과를 확인하였다.

첫 번째 데이터의 일원배치 분산분석 결과는 다음과 같다.

ANOVA
Source of Variation	SS	df	MS	F	P-value	F crit
Between Groups	1.167	1	1.167	1.702	0.2084	4.414
Within Groups	12.334	18	0.685

Total	13.501	19

일원배치 분산분석 결과 내용은 그룹 간 (Between Groups) 결과와 그룹 내 (Within Groups) 결과로 나누어져 있다.
한글 버전 결과에서는 "Between Groups = 처리, Within Groups = 잔차" 로 표현하였다.
F-검증 처럼 두 그룹 (그룹 간, 그룹 내)으로 나누어서 F-통계량 (F)을 계산하였다.
F-통계량은 "그룹 간 분산 (MS of between groups) / 그룹 내 분산 (MS of within groups)" 의 비율로 계산된다.
분산 (MS)은 한글 버전에서 "제곱평균"으로 표기되어 있고,
분산 공식과 동일하게 평균에서 개별 값을 빼고 제곱해서 합한 "제곱합 (SS)"을
자유도 (df) 로 나누어서 계산하였다.
자유도는 2개 그룹으로 분석하였기 때문에
그룹 간 자유도는 2-1로 계산되고, 그룹 내 자유도는 각 그룹의 자유도 (10-1)의 합 9+9로 계산되었다.
그룹 간 제곱합은 전체 20개의 평균값을 각 그룹의 평균값을 빼고 제곱해서
각 그룹의 샘플 개수로 가중치를 곱해서 합산하였다.
그룹 내 제곱합은 각 그룹의 개별 값을 그룹의 평균값으로 빼고 제곱해서 합산하였다.
계 (Total)은 개별 값을 모든 값의 평균값으로 빼고 제곱해서 합산한 것으로
그룹 간 제곱합과 그룹 내 제곱합의 합한 결과와 동일하다.

F-통계량은 1보다 큰 1.702로 계산되어 왼쪽 방향의 누적 함수 "F.DIST.RT" 에서 유의확률을 계산한다.
계산된 유의확률 0.2084는 유의수준 0.05 보다 크기 때문에
그룹 간 분산과 그룹 내 분산의 동일하다는 가정의 확률이 높으므로
그룹 간 분산과 그룹 내 분산 차이가 없는 것이 확인된다.

두 번째 데이터의 일원배치 분산분석 결과는 다음과 같다.

ANOVA
Source of Variation	SS	df	MS	F	P-value	F crit
Between Groups	135.019	1	135.019	199.099	3.570.E-11	4.414
Within Groups	12.207	18	0.678

Total	147.225	19

두 번째 데이터는 분산은 비슷하고 평균 차이가 있었다.
일원배치 분산분석 결과 내용은 첫 번째 데이터에 비해서
그룹 간 분산 (MS of between groups)이 그룹 내 분산 (MS of within groups) 보다 큰 차이를 나타내고,
F-통계량도 첫 번째 데이터와 비교해서 100배 넘는 값으로 계산되었다.
그룹 내 분산은 첫 번째 데이터와 큰 차이를 보이지 않았지만,
그룹 간 분산이 첫 번째 데이터와 큰 차이를 보이면서 F-통계량이 증가하였다.

F-통계량으로 확인된 유의확률은 0에 가까운 값으로 나타나서
그룹 내 분산과 그룹 간 분산에 차이점이 통계적으로 유의하다는 것이 확인되었다.
그룹 간의 차이점은 평균의 차이에서 발생된 결과에서 기인된 것이다.

F-검증과 일원배치 분산분석 (ANOVA) 통계분석은 동일한 F 분포를 사용해서 분산 차이점을 확인할 수 있다.
두 통계분석에 차이점은
F-검증은 두 그룹의 분산 차이만 확인할 수 있고,
일원배치 분산분석은 그룹 내 분산과 그룹 간 분산 차이를 확인할 수 있어서
평균의 차이도 확인할 수 있다.
추가적으로 F-검증은 두 그룹의 비교 분석만 가능하지만,
일원배치 분산분석은 두 그룹 이상에서 분석이 가능하다는 차이점도 있다.

엑셀을 이용해서 F-검증과 일원배치 분석분석에 차이점을 확인해 보았다.
통계 결과를 확인하기 위해서 다양한 계산 내용이 포함되어 있기 때문에
엑셀에서 도구분석을 통해서 일괄된 결과를 손쉽게 얻을 수 있다.
하지만, 내용을 이해하기 위해서는 각각의 계산 방법을 알아보는 것도 도움이 된다.
해당 결과 내용을 엑셀 함수와 간단한 수식으로 계산된 엑셀 파일을 업로드합니다.
자세한 계산 내용이 궁금하시면 엑셀 파일을 참고해 주세요.

F statstics_Result comparison_V1.xlsx

0.03MB

728x90

저작자표시 비영리

'데이터 처리 방법' 카테고리의 다른 글

[Excel] t-분포 (t -distribution) 및 t-검정 (t-test) 이해 (0)	2024.11.04
단일 이상치 (Single Outlier) 확인 방법 비교 (0)	2024.06.10
[Excel] 이상치 (Outlier) 확인: Generalized ESD test (0)	2024.05.20
[Excel] 이상치 (Outlier) 확인: Tietjen-Moore test (0)	2024.05.06
[Excel] 이상치 (Outlier) 확인: Grubbs' test (0)	2024.04.22

[Excel] F-검증 (F-test) | 분산분석 (ANOVA) : "F-통계량" 차이점

F-검증 (F-test)과 일원배치 분산분석 (ANOVA)에 사용되는"F-통계량" 계산과 해석 차이를 알아보자.

'데이터 처리 방법' 카테고리의 다른 글

관련글

티스토리툴바

F-검증 (F-test)과 일원배치 분산분석 (ANOVA)에 사용되는
"F-통계량" 계산과 해석 차이를 알아보자.