본문 바로가기

outlier7

단일 이상치 (Single Outlier) 확인 방법 비교 단일 이상치 (Single Outlier)를 확인하는 다양한 방법들을 비교하고 차이를 알아보자. 동일한 실험 조건에서 측정된 결과에서 이상치 확인 방법들을 이전 블로그 내용에서 소개하였다. Z-score test, Modified Z-score testDixon's Q-testGrubbs' testTietjen-Moore testGeneralized ESD (Extreme Studentized Deviate) test위에 소개한 이상치 확인 방법들은 단일 이상치 확인에 주로 사용되는 방법들과 다수의 이상치를 확인하는 방법으로 구분해서 설명하였다.하지만, 그 구분이 분명하지 않기 때문에 혼용되어 사용되기도 한다. 나에게 적합한 이상치 확인 방법이 무엇인지를 선택하기 위해서는 각각의 방법이 나타내는 결과 및.. 2024. 6. 10.
[Excel] 이상치 (Outlier) 확인: Tietjen-Moore test 다수 (Multiple) 이상치 (Outlier) 확인을 위한 Tietjen-Moore test를 알아보자. 단일 이상치를 확인하는 Grubbs' test는 다수 이상치의 확인에는 적절한 방법이 아니다. 다수의 이상치를 확인하기 위해서 개선된 Grubbs' test가 Tietjen-Moore test이다.Tietjen-Moore test는 동일한 조건의 데이터에서 정규 분포를 벗어난 다수의 이상치를 확인하는 방법이다.Tietjen-Moore test는 이상치에 대한 명확한 개수가 정해져야 평가 결과가 정확해지는 단점이 있다. 해당 방법은 다른 이상치 평가 방법에서 잠재적 이상치가 1개 이상 확인된다면,다수의 이상치를 재검증하는 방법으로 사용하는 것이 적절하다.Tietjen-Moore test 이전에 적합.. 2024. 5. 6.
[Excel] 이상치 (Outlier) 확인: Grubbs' test 단일 이상치 (Single Outlier) 확인을 위한 Grubbs' test를 알아보자. Grubbs' test는 1950에  Frank E. Grubbs에 의해서 발표된 내용으로정규분포에서 벗어난 이상치를 확인하기 위한 방법으로 소개되었다. 현재까지 동일한 데이터 집합에서 단일 이상치를 확인하는 방법으로 소개되고 있다. 적은 수의 데이터 집합부터 단일 이상치를 확인할 수 있는 방법으로이상치를 확인하는 방법은 Z-score 방법과 비슷하지만, 명확한 평가 기준이 부족한 Z-score 방법의 단점을 보완하고 있다.  Grubbs' test 계산 및 평가 방법Grubbs' test는 이상치로 예상되는 데이터의 "G" 값을 계산하고, 데이터 수와 유의 수준에 부합하는 평가 기준 $(G_{crit})$을 초과.. 2024. 4. 22.
[Excel] 이상치 (Outlier) 확인: 표준 점수 (Z-score) 표준 점수 (Z-score)를 이용해서 이상치 (Outlier)를 확인해 보자! 표준 점수 (Z-score)를 알아보자. Z-score는 한글 명칭과 같이 모든 데이터를 표준화해서 동일한 값으로 변환하는 것이다. 예를 들면, 평균 (mean)이 10이고 표준편차 (SD)가 1인 정규 분포 데이터를 "0" 값을 기준으로 데이터의 ± 편차를 정규화된 Z-score로 변환할 수 있다. Z-score 수식은 다음과 같다. Z-score = (측정값 - 평균) / 표준편차 다양한 범위 값들이 데이터의 평균과 표준편차를 사용하여 공통적인 값인 Z-score로 변환되는 것이다. 아래 히스토그램은 정규분포 데이터 300개로 작성된 것으로 데이터는 측정 농도 값으로 평균은 10.007, 표준편차는 0.979를 나타낸다... 2024. 4. 8.
[Excel] 이상치 (Outlier) 확인: 상자 수염 (Box-Plot) 이상치 (Outlier) 확인을 위한 상자 수염 (Box-Plot)을 엑셀로 작성하기 ※ 엑셀로 상자 수염 (Box-Plot) 만들기 엑셀로 상자 수염을 작성하는 방법은 간단하다. 하지만, 2016 이전 버전에서는 차트에서 진원하지 않는다. 이런 경우라면 대체 방법이 복잡하기 때문에 다른 프로그램을 사용하기를 권장한다. [방법] 차트로 만들기 데이터 영역을 선택하고, 아래 메뉴를 선택하면 그래프가 만들어진다. "삽입 > 차트 > 상자 수염" * 세로로 나열된 데이터는 "열(column)" 마다 다른 그룹으로 설정된다. ※ 상자 수염으로 이상치 (Outlier) 확인 방법 먼저 상자 수염의 구성을 이해하는 것이 필요하다. 그래프에 표시된 박스 (Box)는 사분위수 (Quartile)를 표현한 것으로 사분.. 2024. 4. 1.
[Excel] 이상치 (Outlier) 확인: 히스토그램 (Histogram) 이상치 (Outlier) 확인을 위한 히스토그램 (Histogram)을 엑셀로 작성하기 ※ 엑셀로 히스토그램 (Histogram) 만들기 엑셀로 히스토그램을 작성하는 방법은 총 3가지가 있다. 3가지 방법의 엑셀 메뉴의 내용은 다음과 같다. 삽입 > 차트 > 히스토그램 삽입 > 피벗 차트 데이터 > 데이터 분석 [1번 방법] 차트로 만들기 - 장점: 자동으로 그래프가 작성되고, 사용법이 간단함. - 단점: Bin (x축 계급구간) 설정이 제한됨. → 계급구간의 너비, 개수 조정이 가능하지만, 시작과 끝 설정이 변경 불가 [2번 방법] 피벗 차트로 만들기 - 장점: 계급구간의 시작과 끝 설정과 너비의 조정이 가능함. - 단점: 그래프 작성에 필요한 단계별 설정이 필요함. 데이터가 없는 계급구간은 그래프에서.. 2024. 3. 25.
이상치 (Outlier) 확인 방법 이상치 (outlier) 확인 방법들과 처리 과정을 알아보자!이상치 (outlier) 또는 이상값은 표본 시료에서 측정된 값들 중에 현저하게 벗어난 값을 의미한다.다르게 설명하면, 원인을 알 수 없는 오류로 측정된 결과 값이다. 동일한 조건에서 측정된 값들은 중앙값을 기준으로 일정 범위에서 벗어나는 오차를 나타낸다.측정값은 중앙을 기준으로 많이 측정되고, 중앙에서 멀어지면 측정된 값의 빈도가 감소한다. 이런 분포는 자연계에서 나타나는 정규분포 형태로 나타난다. 이상치는 정규분포를 벗어 측정값으로 규정된다.  이상치를 식별하고, 적절히 처리하는 것이측정된 결과를 외곡시키지 않으므로 중요하다.예를 들면, A (흑색)와 B (녹색) 그룹의 측정값을 비교하는 과정에서첫번째 테스트에서 A 그룹의 평균값이 11.3.. 2024. 3. 18.
728x90
반응형