본문 바로가기
반응형

이상치8

[Excel] 이상치 (Outlier) 확인: Generalized ESD test 한 개부터 여러 개의 이상치 (Outlier)를 확인할 수 있는 Generalized ESD (Extreme Studentized Deviate) test를 알아보자. Generalized ESD는 단일 이상치부터 다수의 이상치를 확인하는 방법으로 알려져 있다.이상치를 구분하는 기준은 동일 조건의 다수의 데이터가 정규분포를 나타내는 것을 기반으로 이상치를 구분한다. 평가 방법의 내용은 아래 참고문헌을 인용해서 작성하였다.  참고문헌 : NIST. EXTREME STUDENTIZED DEVIATE TEST. (2010). Retrieved from  https://www.itl.nist.gov/div898/software/dataplot/refman1/auxillar/esd.htm. Generalized .. 2024. 5. 20.
[Excel] 이상치 (Outlier) 확인: Tietjen-Moore test 다수 (Multiple) 이상치 (Outlier) 확인을 위한 Tietjen-Moore test를 알아보자. 단일 이상치를 확인하는 Grubbs' test는 다수 이상치의 확인에는 적절한 방법이 아니다. 다수의 이상치를 확인하기 위해서 개선된 Grubbs' test가 Tietjen-Moore test이다.Tietjen-Moore test는 동일한 조건의 데이터에서 정규 분포를 벗어난 다수의 이상치를 확인하는 방법이다.Tietjen-Moore test는 이상치에 대한 명확한 개수가 정해져야 평가 결과가 정확해지는 단점이 있다. 해당 방법은 다른 이상치 평가 방법에서 잠재적 이상치가 1개 이상 확인된다면,다수의 이상치를 재검증하는 방법으로 사용하는 것이 적절하다.Tietjen-Moore test 이전에 적합.. 2024. 5. 6.
[Excel] 이상치 (Outlier) 확인: Grubbs' test 단일 (Single) 이상치 (Outlier) 확인을 위한 Grubbs' test를 알아보자. Grubbs' test는 1950에  Frank E. Grubbs에 의해서 발표된 내용으로정규분포에서 벗어난 이상치를 확인하기 위한 방법으로 소개되었다. 현재까지 동일한 데이터 집합에서 단일 이상치를 확인하는 방법으로 소개되고 있다. 적은 수의 데이터 집합부터 단일 이상치를 확인할 수 있는 방법으로이상치를 확인하는 방법은 Z-score 방법과 비슷하지만, 명확한 평가 기준이 부족한 Z-score 방법의 단점을 보완하고 있다.  Grubbs' test 계산 및 평가 방법Grubbs' test는 이상치로 예상되는 데이터의 "G" 값을 계산하고, 데이터 수와 유의 수준에 부합하는 평가 기준 $(G_{crit})$을 .. 2024. 4. 22.
[Excel] 이상치 (Outlier) 확인: Dixon's Q-test 단일 (Single) 이상치 (Outlier) 확인을 위한 Q-test를 알아보자! Q-test는 1951년 Dixon에 의해서 만들어진 이상치 확인 방법으로 데이터에 개수에 적합한 이상치 판정 임계값 (critical value)을 제시하였고, 임계값은 Q 값으로 정해져 있어서 데이터의 Q 값을 확인해서 이상치를 구분할 수 있다. Q-test의 판정 기준치들이 데이터 개수에 따라서 제시되고 있어서 적은 수의 데이터에서 이상치 판별하는데 적합한 것으로 알려져 있다. 처음에는 다수의 이상치를 확인하는 방법으로 제시되었지만, 최근에는 단일 이상치 확인에 더 적합하다고 설명하고 있다. 아래 그림은 6개의 데이터와 관련 간단한 기술통계 내용이 작성되어 있다. 모든 데이터 (n=6)를 이용해서 평균, 표준편차, .. 2024. 4. 15.
[Excel] 이상치 (Outlier) 확인: 표준 점수 (Z-score) 표준 점수 (Z-score)를 이용해서 이상치 (Outlier)를 확인해 보자! 표준 점수 (Z-score)를 알아보자. Z-score는 한글 명칭과 같이 모든 데이터를 표준화해서 동일한 값으로 변환하는 것이다. 예를 들면, 평균 (mean)이 10이고 표준편차 (SD)가 1인 정규 분포 데이터를 "0" 값을 기준으로 데이터의 ± 편차를 정규화된 Z-score로 변환할 수 있다. Z-score 수식은 다음과 같다. Z-score = (측정값 - 평균) / 표준편차 다양한 범위 값들이 데이터의 평균과 표준편차를 사용하여 공통적인 값인 Z-score로 변환되는 것이다. 아래 히스토그램은 정규분포 데이터 300개로 작성된 것으로 데이터는 측정 농도 값으로 평균은 10.007, 표준편차는 0.979를 나타낸다... 2024. 4. 8.
[Excel] 이상치 (Outlier) 확인: 상자 수염 (Box-Plot) 이상치 (Outlier) 확인을 위한 상자 수염 (Box-Plot)을 엑셀로 작성하기 ※ 엑셀로 상자 수염 (Box-Plot) 만들기 엑셀로 상자 수염을 작성하는 방법은 간단하다. 하지만, 2016 이전 버전에서는 차트에서 진원하지 않는다. 이런 경우라면 대체 방법이 복잡하기 때문에 다른 프로그램을 사용하기를 권장한다. [방법] 차트로 만들기 데이터 영역을 선택하고, 아래 메뉴를 선택하면 그래프가 만들어진다. "삽입 > 차트 > 상자 수염" * 세로로 나열된 데이터는 "열(column)" 마다 다른 그룹으로 설정된다. ※ 상자 수염으로 이상치 (Outlier) 확인 방법 먼저 상자 수염의 구성을 이해하는 것이 필요하다. 그래프에 표시된 박스 (Box)는 사분위수 (Quartile)를 표현한 것으로 사분.. 2024. 4. 1.
[Excel] 이상치 (Outlier) 확인: 히스토그램 (Histogram) 이상치 (Outlier) 확인을 위한 히스토그램 (Histogram)을 엑셀로 작성하기 ※ 엑셀로 히스토그램 (Histogram) 만들기 엑셀로 히스토그램을 작성하는 방법은 총 3가지가 있다. 3가지 방법의 엑셀 메뉴의 내용은 다음과 같다. 삽입 > 차트 > 히스토그램 삽입 > 피벗 차트 데이터 > 데이터 분석 [1번 방법] 차트로 만들기 - 장점: 자동으로 그래프가 작성되고, 사용법이 간단함. - 단점: Bin (x축 계급구간) 설정이 제한됨. → 계급구간의 너비, 개수 조정이 가능하지만, 시작과 끝 설정이 변경 불가 [2번 방법] 피벗 차트로 만들기 - 장점: 계급구간의 시작과 끝 설정과 너비의 조정이 가능함. - 단점: 그래프 작성에 필요한 단계별 설정이 필요함. 데이터가 없는 계급구간은 그래프에서.. 2024. 3. 25.
이상치 (Outlier) 확인 방법 이상치 (outlier) 확인 방법들과 처리 과정을 알아보자!이상치 (outlier) 또는 이상값은 표본 시료에서 측정된 값들 중에 현저하게 벗어난 값을 의미한다.다르게 설명하면, 원인을 알 수 없는 오류로 측정된 결과 값이다. 동일한 조건에서 측정된 값들은 중앙값을 기준으로 일정 범위에서 벗어나는 오차를 나타낸다.측정값은 중앙을 기준으로 많이 측정되고, 중앙에서 멀어지면 측정된 값의 빈도가 감소한다. 이런 분포는 자연계에서 나타나는 정규분포 형태로 나타난다. 이상치는 정규분포를 벗어 측정값으로 규정된다.  이상치를 식별하고, 적절히 처리하는 것이측정된 결과를 외곡시키지 않으므로 중요하다.예를 들면, A (흑색)와 B (녹색) 그룹의 측정값을 비교하는 과정에서첫번째 테스트에서 A 그룹의 평균값이 11.3.. 2024. 3. 18.
반응형