평균 비교 테스트로 사용되는 t-검정의 엑셀 (Excel) 계산 내용과
유의확률 계산에 필요한 t-분포를 엑셀 함수로 알아보자.
t-검정은 두 그룹 데이터의 평균 차이를 규명하기 위해서 사용된다.
t-검정에 필요한 t 통계량은 각 그룹의 데이터 개수, 평균, 분산으로 계산된다.
계산된 t 통계량을 이용해서 두 그룹의 유의한 평균 차이를 확인하는데
의미 있는 평균 차이의 평가는 확률로 평가한다.
확률의 결과는 유의확률 (p-value)로 표현하고,
확률 계산은 검증된 t-분포 데이터를 이용해서
t-검정의 가설 (두 그룹의 평균이 동일)이 발생할 확률을 확인한다.
의미 있다고 판단할 수 있는 확률의 값을 유의수준 (significance level)이라고 한다.
유의수준은 95% 신뢰구간을 기점으로 평가되어서
신뢰구간을 구분하는 5%에 해당하는 값을 설정해서 평가한다.
유의수준은 %로 표현하지 않기 때문에 5%는 0.05로 설정된다.
t-분포에서 확인된 확률이 유의수준 값 보다 큰 값으로 계산되면,
각 그룹의 평균 값이 동일할 확률이 높기 때문에 유의한 차이가 없다고 해석된다.
t-분포에서 확인된 확률이 유의수준 값 보다 낮은 값으로 계산되면,
각 그룹의 평균 값이 동일할 확률이 낮기 때문에 유의한 차이가 있다고 해석된다.
t-검정에 사용되는 t 통계량과 t-분포의 내용을 계산 수식과
엑셀에서 사용되는 함수로 계산할 수 있는 방법을 확인하였다.
t-분포 (t-distribution)
t-분포는 t 통계량과 확률밀도의 관계를 나타내는 것으로
분포 그래프의 수식을 "확률밀도함수"라고 표현한다.
확률밀도는 "확률 / 통계량"으로 계산된 값으로
통계량을 기준으로 설정된 가설의 확률은 "확률밀도 ✕통계량"으로 계산되므로
확률은 그래프의 면적 (Area) 값이다.
분포 그래프총 면적 값은 1이고, 확률%로 100%에 해당한다.
t-분포의 그래프를 변경시키는 매개변수는 자유도 (Degree of freedom)이다.
아래 그래프는 자유도 차이와 t-분포 그래프 차이를 확인한 것이다.
자유도는 각 그룹의 측정 데이터에서 1을 뺀 값이고,
전체 데이터에서는 2를 뺀 값이다.
자유도가 증가하면 정규분포 그래프와 동일하게 되고,
자유도가 30 이상이 되면 정규분포 그래프와 거의 차이가 없는 것이 확인된다.
t-검정의 유의확률 (p-value) 계산
t-검정의 유의확률 (p-value)은 t-분포 그래프의 t-통계량 값까지 면적으로 계산된다.
t-분포는 t-통계량 0 값을 기준으로 대칭으로 중앙에서 멀어지면 확률이 낮아지는 형태이다.
t-검정에서 t-통계량 0의 의미는 두 그룹의 평균이 같은 것을 의미한다.
차이가 양의 값 또는 음의 값으로 멀어지면 두 그룹의 평균이 같을 수 있는 확률밀도는 낮아진다.
통계량의 유의확률은 두 그룹의 평균이 같을 확률의 반대인 값을 유의수준 (0.05)으로 평가되므로
유의확률은 t-분포에서 확률밀도가 0 부터 계산된 통계량까지 면적으로 계산된다.
엑셀에는 t-분포를 확인하는 함수가 존재한다.
= T.DIST (t-Statistic, Degree of freedom, FALSE)
위 함수에 t-통계량을 -4 ~ 4 범위의 일정간격의 값을 대입해서
자유도 (n-2) 값 10을 입력하면 위와 같은 그래프를 얻을 수 있다.
하지만, 해당 그래프를 이용해서는 면적을 얻기 위해서는 적분이 필요하고
추가로 총 면적이 1이 되도록 보정도 필요하다.
엑셀에서 보정된 면적 값을 얻기 위해서는 누적 함수를 사용하면 된다.
= T.DIST (t-Statistic, Degree of freedom, TRUE)
위와 동일한 함수이지만, 마지막 옵션 설정을 "TURE"로 변경하면
누적 함수로 변경되고, 누적 함수로 얻은 값은 통계량 값까지의 면적을 계산한다.
하지만, 두 그룹의 평균 차이는 하나의 기준 값에서 다른 값을 빼는 경우
양의 차이와 음의 차이가 발생되어 t-통계량이 0을 기점으로 양의 값이 계산되면
면적 값으로 계산된 확률은 양의 값이 증가할수록 확률이 1에 가깝게 된다.
t-통계량이 음의 값으로 계산되는 경우에는 반대로 누적 함수를 계산하면 해결된다.
= T.DIST.RT (t-Statistic, Degree of freedom)
해당 함수는 누적 값을 제공하고 있기 때문에 이전 함수처럼 누적에 대한 설정이 필요 없다.
이 같이 한 쪽 방향으로 확률만 계산하는 방식이 "단측검정"이라고 한다.
"단측검정"은 측정 값이 한 방향으로만 나타나는 경우 적용되기 때문에
설정된 그룹의 데이터와 다른 그룹의 데이터가 양의 방향 또는 음의 방향으로만 나타날 때 사용된다.
두 그룹 평균 값의 차이가 양의 값과 음의 값으로 나타날 것을 고려해서 확률을 계산한다면,
"양측검정"으로 계산해서 확인해야 한다.
이때 사용되는 엑셀 함수는 다음과 같다.
= T.DIST.2T (t-Statistic, Degree of freedom)
해당 함수는 누적 값을 제공하고 있기 때문에 누적에 대한 설정이 없다.
"양측검정"의 함수는 통계량 값의 범위가 0부터 시작되어 음의 값이 입력되면 오류가 발생된다.
그래서 함수에 입력되는 통계량 값을 항상 양의 값으로 입력되도록 절댓값 설정이 필요하다.
"양측검정"과 "단측검정"의 차이점은 다음과 같다.
"단측검정"은 한 방향으로 유의확률을 계산하지만,
"양측검정"은 양 방향으로 유의확률을 계산하기 때문에
좌측 확률과 우측 확률의 값을 합해서 나타낸다.
그래서 대칭인 t-분포의 특징을 고려해서 두 값을 합한 누적함수를 엑셀에서 제공한다.
t-검정의 통계량과 유의확률 계산
엑셀에는 t-검정의 유의확률 (p-value)를 계산하는 방법은 두 가지가 존재한다.
첫 번째로 엑셀 메뉴에서 "데이터> 데이터 분석"을 선택하면,
분석 도구 창이 열리고 해당 항목에 t-검정 항목으로 유의확률을 계산할 수 있다.
두 번째로 엑셀 함수 "T.TEST"를 사용하면 유의확률 값을 반환해 준다.
= T.TEST (array1, array2, tails, type)
array 1, 2에 각 그룹의 데이터가 존재하는 셀을 선택하고,
tails는 단측검정 또는 양측검정에 대한 선택을 입력한다.
type은 t-검정의 종류를 선택한다.
일반적으로 두 그룹의 평균 비교 검증에는
"두 표본의 등분산" 또는 "두 표본의 이분산"을 선택한다.
명칭대로 두 그룹의 데이터가 서로 분산 같은지 다른지 선택하는 것이다.
분산 검증은 F-검증으로 확인할 수 있다.
F-검증의 자세한 내용은 이전에 작성된 내용을 보면 확인할 수 있다.
2024.10.03 - [데이터 처리 방법] - [Excel] F-검증 (F-test) | 분산분석 (ANOVA) : "F-통계량" 차이점
t-검증의 상세한 결과들을 확인하고, 계산 방법을 알아보기 위해서
분석도구로 확인된 결과들을 엑셀로 계산하고, 해당 공식을 알아보았다.
두 그룹의 분산이 비슷한 아래 데이터를 이용해서 결과를 확인하였다.
Data 1 | Data 2 |
10.86 | 12.73 |
9.53 | 12.06 |
9.45 | 13.01 |
9.44 | 12.08 |
10.48 | 12.04 |
10.03 | 12.09 |
10.05 | 12.03 |
10.52 | 12.07 |
9.61 | 12.02 |
10.74 | 11.40 |
10.09 | 11.84 |
9.26 | 12.68 |
10.90 | 11.47 |
10.07 | 11.67 |
9.94 | 12.00 |
t-검정 : 등분산 가정 두 집단 결과
Data1 | Data2 | |
평균 | 10.06454 | 12.08015 |
분산 | 0.29200 | 0.19459 |
관측수 | 15 | 15 |
공동(Pooled) 분산 | 0.24330 | |
가설 평균차 | 0 | |
자유도 | 28 | |
t 통계량 | -11.19095 | |
P(T<=t) 단측 검정 | 3.7949E-12 | |
t 기각치 단측 검정 | 1.70113 | |
P(T<=t) 양측 검정 | 7.5898E-12 | |
t 기각치 양측 검정 | 2.04841 |
각 항목의 엑셀 계산 내용을 확인해 보면 다음과 같다.
- 평균1, 2 = AVERAGE (DATA1), = AVERAGE (DATA2)
- 분산1, 2 = VAR.S (DATA1), = VAR.S (DATA2)
- 관측수1, 2 = COUNT (DATA1), = COUNT (DATA2)
- 자유도 = 관측수1 + 관측수2 - 2
- 공동 분산 = $\frac{분산1ⅹ(관측수1 - 1) + 분산2 ⅹ(관측수2 - 1)}{자유도}$
- 가설 평균차 : = 0
[평균 차이가 없는 가설이므로 0으로 기본 설정됨.]
- t-통계량 = $\frac{평균1 - 평균2}{\sqrt{분산1/관측수1 + 분산2/관측수2}}$
- P 단측 검정 = T.DIST (t-통계량, 자유도, TRUE)
[통계량 값이 음의 값으로 음의 값부터 증가하는 누적 함수를 적용해서 계산함.]
- t 기각치 단측 검정 = T.INV (1- 0.05, 자유도)
[양의 값으로 증가되는 누적 그래프에서 면적 (확률)을 입력하면, 자유도에 맞는 그래프의 통계량(x)을 반환함.
유의수준 0.05를 입력하면 음의 값이 반환되므로, 대칭적인 부분을 이용해서 반대 확률인 0.95 값을 반환함.]
- P 양측 검정 = T.DIST.2T ( ABS(t-통계량), 자유도)
[통계량 값의 절댓값을 입력되도록 절대값을 반환하는 함수 "=ABS()"를 적용해서 계산함.]
- t 기각치 양측 검정 = T.INV.2T (0.05, 자유도)
[양측검정 함수는 0부터 시작되는 그래프로 면적 (확률)을 입력하면 자유도에 맞는 그래프의 통계량(x)을 반환함.]
t-검정 : 이분산 가정 두 집단 결과
Data 1 | Data 2 | |
평균 | 10.0645441 | 12.0801495 |
분산 | 0.29200331 | 0.1945929 |
관측수 | 15 | 15 |
가설 평균차 | 0 | |
자유도 | 27 | |
t 통계량 | -11.190945 | |
P(T<=t) 단측 검정 | 6.0229E-12 | |
t 기각치 단측 검정 | 1.70328845 | |
P(T<=t) 양측 검정 | 1.2046E-11 | |
t 기각치 양측 검정 | 2.05183052 |
등분산 가정 두 집단 결과와 계산항목은 대부분 동일하지만,
한 가지 항목 자유도의 계산 방법에 차이가 있다.
분산이 다른 두 집단의 t-통계량을 계산할 때는 각 그룹의 분산을 독립적으로 계산해서 적용하기 때문에
각 그룹의 자유도를 적용해서 전체 자유도를 계산합니다.
- 자유도 = $\dfrac{(\frac{분산1}{관측수1} + \frac{분산2}{관측수2})^2}{ \frac{(\frac{분산1}{관측수1})^2}{관측수1-1} + \frac{(\frac{분산2}{관측수2})^2}{관측수2-1} }$
결과 해석은 두 그룹의 분산이 F-검정으로 차이가 없다는 것이 확인되어
등분산 가정 두 집단 결과로 유의확률을 확인하면,
단측검정, 양측검정 결과를 확인할 수 있다.
농도 측정의 두 그룹의 데이터가 Data 2를 기준으로
Data 1이 양의 차이와 음의 차이 모두 나타낼 수 있으므로
양측검정의 유의확률을 확인해서 평가한다.
양측검정의 유의확률은 "7.5898E-12"으로 유의수준 0.05 보다 매우 낮으므로
가설로 설정된 두 그룹의 평균이 같을 수 있는 확률은 거의 존재하지 않는다.
이런 결과는 다음과 같이 서술해서 표현한다.
"두 그룹의 농도 측정 결과는 통계적으로 유의한 차이를 나타낸다."
엑셀로 t-분포와 t-검정 계산 방법과 결과 해석에 대한 내용을 확인했다.
자세한 계산 내용은 첨부된 엑셀 파일로 확인할 수 있다.
'데이터 처리 방법' 카테고리의 다른 글
[Excel] F-검증 (F-test) | 분산분석 (ANOVA) : "F-통계량" 차이점 (0) | 2024.10.07 |
---|---|
단일 이상치 (Single Outlier) 확인 방법 비교 (0) | 2024.06.10 |
[Excel] 이상치 (Outlier) 확인: Generalized ESD test (0) | 2024.05.20 |
[Excel] 이상치 (Outlier) 확인: Tietjen-Moore test (0) | 2024.05.06 |
[Excel] 이상치 (Outlier) 확인: Grubbs' test (0) | 2024.04.22 |