데이터 처리 방법17 [Excel] t-분포 (t -distribution) 및 t-검정 (t-test) 이해 평균 비교 테스트로 사용되는 t-검정의 엑셀 (Excel) 계산 내용과 유의확률 계산에 필요한 t-분포를 엑셀 함수로 알아보자.t-검정은 두 그룹 데이터의 평균 차이를 규명하기 위해서 사용된다. t-검정에 필요한 t 통계량은 각 그룹의 데이터 개수, 평균, 분산으로 계산된다. 계산된 t 통계량을 이용해서 두 그룹의 유의한 평균 차이를 확인하는데의미 있는 평균 차이의 평가는 확률로 평가한다. 확률의 결과는 유의확률 (p-value)로 표현하고, 확률 계산은 검증된 t-분포 데이터를 이용해서 t-검정의 가설 (두 그룹의 평균이 동일)이 발생할 확률을 확인한다. 의미 있다고 판단할 수 있는 확률의 값을 유의수준 (significance level)이라고 한다.유의수준은 95% 신뢰구간을 기점으로 평가되어서 신.. 2024. 11. 4. [Excel] F-검증 (F-test) | 분산분석 (ANOVA) : "F-통계량" 차이점 F-검증 (F-test)과 일원배치 분산분석 (ANOVA)에 사용되는"F-통계량" 계산과 해석 차이를 알아보자.F-검증과 분산분석에서는 동일한 F-통계량을 사용해서 유의확률을 계산한다.하지만, 두 통계 결과의 F-통계량은 다른 것을 확인할 수 있다.엑셀을 이용해서 통계 결과 내용의 계산 차이를 자세히 알아보고,F-통계량으로 확인된 유의확률 차이점도 같이 설명하고자 한다.F 분포 (F distribution)우선 F-통계량을 이해하기 위해서는 F 분포에 대한 이해가 필요하다.F-통계량은 두 그룹 데이터에서 계산된 분산의 비율이고,F-통계량 (F-value)과 빈도 (Probability density)를 나타낸 그래프 모양이 F 분포이다.일반적인 F 분포는 최고점을 기점으로 좌, 우 비대칭 형태를 나타낸.. 2024. 10. 7. 단일 이상치 (Single Outlier) 확인 방법 비교 단일 이상치 (Single Outlier)를 확인하는 다양한 방법들을 비교하고 차이를 알아보자. 동일한 실험 조건에서 측정된 결과에서 이상치 확인 방법들을 이전 블로그 내용에서 소개하였다. Z-score test, Modified Z-score testDixon's Q-testGrubbs' testTietjen-Moore testGeneralized ESD (Extreme Studentized Deviate) test위에 소개한 이상치 확인 방법들은 단일 이상치 확인에 주로 사용되는 방법들과 다수의 이상치를 확인하는 방법으로 구분해서 설명하였다.하지만, 그 구분이 분명하지 않기 때문에 혼용되어 사용되기도 한다. 나에게 적합한 이상치 확인 방법이 무엇인지를 선택하기 위해서는 각각의 방법이 나타내는 결과 및.. 2024. 6. 10. [Excel] 이상치 (Outlier) 확인: Generalized ESD test 한 개부터 여러 개의 이상치 (Outlier)를 확인할 수 있는 Generalized ESD (Extreme Studentized Deviate) test를 알아보자. Generalized ESD는 단일 이상치부터 다수의 이상치를 확인하는 방법으로 알려져 있다.이상치를 구분하는 기준은 동일 조건의 다수의 데이터가 정규분포를 나타내는 것을 기반으로 이상치를 구분한다. 평가 방법의 내용은 아래 참고문헌을 인용해서 작성하였다. 참고문헌 : NIST. EXTREME STUDENTIZED DEVIATE TEST. (2010). Retrieved from https://www.itl.nist.gov/div898/software/dataplot/refman1/auxillar/esd.htm. Generalized .. 2024. 5. 20. [Excel] 이상치 (Outlier) 확인: Tietjen-Moore test 다수 (Multiple) 이상치 (Outlier) 확인을 위한 Tietjen-Moore test를 알아보자. 단일 이상치를 확인하는 Grubbs' test는 다수 이상치의 확인에는 적절한 방법이 아니다. 다수의 이상치를 확인하기 위해서 개선된 Grubbs' test가 Tietjen-Moore test이다.Tietjen-Moore test는 동일한 조건의 데이터에서 정규 분포를 벗어난 다수의 이상치를 확인하는 방법이다.Tietjen-Moore test는 이상치에 대한 명확한 개수가 정해져야 평가 결과가 정확해지는 단점이 있다. 해당 방법은 다른 이상치 평가 방법에서 잠재적 이상치가 1개 이상 확인된다면,다수의 이상치를 재검증하는 방법으로 사용하는 것이 적절하다.Tietjen-Moore test 이전에 적합.. 2024. 5. 6. [Excel] 이상치 (Outlier) 확인: Grubbs' test 단일 이상치 (Single Outlier) 확인을 위한 Grubbs' test를 알아보자. Grubbs' test는 1950에 Frank E. Grubbs에 의해서 발표된 내용으로정규분포에서 벗어난 이상치를 확인하기 위한 방법으로 소개되었다. 현재까지 동일한 데이터 집합에서 단일 이상치를 확인하는 방법으로 소개되고 있다. 적은 수의 데이터 집합부터 단일 이상치를 확인할 수 있는 방법으로이상치를 확인하는 방법은 Z-score 방법과 비슷하지만, 명확한 평가 기준이 부족한 Z-score 방법의 단점을 보완하고 있다. Grubbs' test 계산 및 평가 방법Grubbs' test는 이상치로 예상되는 데이터의 "G" 값을 계산하고, 데이터 수와 유의 수준에 부합하는 평가 기준 $(G_{crit})$을 초과.. 2024. 4. 22. [Excel] 이상치 (Outlier) 확인: Dixon's Q-test 단일 (Single) 이상치 (Outlier) 확인을 위한 Q-test를 알아보자! Q-test는 1951년 Dixon에 의해서 만들어진 이상치 확인 방법으로 데이터에 개수에 적합한 이상치 판정 임계값 (critical value)을 제시하였고, 임계값은 Q 값으로 정해져 있어서 데이터의 Q 값을 확인해서 이상치를 구분할 수 있다. Q-test의 판정 기준치들이 데이터 개수에 따라서 제시되고 있어서 적은 수의 데이터에서 이상치 판별하는데 적합한 것으로 알려져 있다. 처음에는 다수의 이상치를 확인하는 방법으로 제시되었지만, 최근에는 단일 이상치 확인에 더 적합하다고 설명하고 있다. 아래 그림은 6개의 데이터와 관련 간단한 기술통계 내용이 작성되어 있다. 모든 데이터 (n=6)를 이용해서 평균, 표준편차, .. 2024. 4. 15. [Excel] 이상치 (Outlier) 확인: 표준 점수 (Z-score) 표준 점수 (Z-score)를 이용해서 이상치 (Outlier)를 확인해 보자! 표준 점수 (Z-score)를 알아보자. Z-score는 한글 명칭과 같이 모든 데이터를 표준화해서 동일한 값으로 변환하는 것이다. 예를 들면, 평균 (mean)이 10이고 표준편차 (SD)가 1인 정규 분포 데이터를 "0" 값을 기준으로 데이터의 ± 편차를 정규화된 Z-score로 변환할 수 있다. Z-score 수식은 다음과 같다. Z-score = (측정값 - 평균) / 표준편차 다양한 범위 값들이 데이터의 평균과 표준편차를 사용하여 공통적인 값인 Z-score로 변환되는 것이다. 아래 히스토그램은 정규분포 데이터 300개로 작성된 것으로 데이터는 측정 농도 값으로 평균은 10.007, 표준편차는 0.979를 나타낸다... 2024. 4. 8. [Excel] 이상치 (Outlier) 확인: 상자 수염 (Box-Plot) 이상치 (Outlier) 확인을 위한 상자 수염 (Box-Plot)을 엑셀로 작성하기 ※ 엑셀로 상자 수염 (Box-Plot) 만들기 엑셀로 상자 수염을 작성하는 방법은 간단하다. 하지만, 2016 이전 버전에서는 차트에서 진원하지 않는다. 이런 경우라면 대체 방법이 복잡하기 때문에 다른 프로그램을 사용하기를 권장한다. [방법] 차트로 만들기 데이터 영역을 선택하고, 아래 메뉴를 선택하면 그래프가 만들어진다. "삽입 > 차트 > 상자 수염" * 세로로 나열된 데이터는 "열(column)" 마다 다른 그룹으로 설정된다. ※ 상자 수염으로 이상치 (Outlier) 확인 방법 먼저 상자 수염의 구성을 이해하는 것이 필요하다. 그래프에 표시된 박스 (Box)는 사분위수 (Quartile)를 표현한 것으로 사분.. 2024. 4. 1. [Excel] 이상치 (Outlier) 확인: 히스토그램 (Histogram) 이상치 (Outlier) 확인을 위한 히스토그램 (Histogram)을 엑셀로 작성하기 ※ 엑셀로 히스토그램 (Histogram) 만들기 엑셀로 히스토그램을 작성하는 방법은 총 3가지가 있다. 3가지 방법의 엑셀 메뉴의 내용은 다음과 같다. 삽입 > 차트 > 히스토그램 삽입 > 피벗 차트 데이터 > 데이터 분석 [1번 방법] 차트로 만들기 - 장점: 자동으로 그래프가 작성되고, 사용법이 간단함. - 단점: Bin (x축 계급구간) 설정이 제한됨. → 계급구간의 너비, 개수 조정이 가능하지만, 시작과 끝 설정이 변경 불가 [2번 방법] 피벗 차트로 만들기 - 장점: 계급구간의 시작과 끝 설정과 너비의 조정이 가능함. - 단점: 그래프 작성에 필요한 단계별 설정이 필요함. 데이터가 없는 계급구간은 그래프에서.. 2024. 3. 25. 이전 1 2 다음 728x90 반응형