본문 바로가기
반응형

데이터 처리 방법16

[Excel] 단순 선형 회귀분석 (Simple Linear Regression) : 검정곡선 (Calibration Curve) 검증 단순 선형 회귀분석 (Simple Linear Regression) 결과를 이해하고,검정 곡선 (Calibration Curve) 검증에 필요한 내용을 알아보자.표준물질 측정결과를 바탕으로 농도와 장비의 상관성 수식을 회귀분석을 통해서 확인할 수 있다.많은 실험 결과에서 직선의 상관성이 나타나며 일차 방정식 (y = ax + b) 수식이 회귀분석으로 확인된다. 회귀분석으로 확인된 검정곡선의 수식은 시료의 농도를 계산할 때 사용되므로 시료 농도 계산에 오류가 발생되지 않도록 검증이 꼭 필요하다. 엑셀에는 단순 선형 회귀분석 결과를 쉽게 얻을 수 있다.  "데이터 > 분석 > 데이터 분석" 을 선택하면 다음과 같은 창이 나타나고, 해당 메뉴에는 회귀분석이 포함되어 있다.회귀분석을 선택하면 새창이 나타나고, .. 2024. 8. 19.
이상치 (Outlier) 확인 방법 비교 : 단일 이상치 단일 이상치 (Outlier)를 확인하는 다양한 방법들을 비교하고 차이를 알아보자. 동일한 실험 조건에서 측정된 결과에서 이상치 확인 방법들을 이전 블로그 내용에서 소개하였다. Z-score test, Modified Z-score testDixon's Q-testGrubbs' testTietjen-Moore testGeneralized ESD (Extreme Studentized Deviate) test위에 소개한 이상치 확인 방법들은 단일 이상치 확인에 주로 사용되는 방법들과 다수의 이상치를 확인하는 방법으로 구분해서 설명하였다. 하지만, 그 구분이 분명하지 않기 때문에 혼용되어 사용되기도 한다. 나에게 적합한 이상치 확인 방법이 무엇인지를 선택하기 위해서는 각각의 방법이 나타내는 결과 및 방법 간의.. 2024. 6. 10.
[Excel] 이상치 (Outlier) 확인: Generalized ESD test 한 개부터 여러 개의 이상치 (Outlier)를 확인할 수 있는 Generalized ESD (Extreme Studentized Deviate) test를 알아보자. Generalized ESD는 단일 이상치부터 다수의 이상치를 확인하는 방법으로 알려져 있다.이상치를 구분하는 기준은 동일 조건의 다수의 데이터가 정규분포를 나타내는 것을 기반으로 이상치를 구분한다. 평가 방법의 내용은 아래 참고문헌을 인용해서 작성하였다.  참고문헌 : NIST. EXTREME STUDENTIZED DEVIATE TEST. (2010). Retrieved from  https://www.itl.nist.gov/div898/software/dataplot/refman1/auxillar/esd.htm. Generalized .. 2024. 5. 20.
[Excel] 이상치 (Outlier) 확인: Tietjen-Moore test 다수 (Multiple) 이상치 (Outlier) 확인을 위한 Tietjen-Moore test를 알아보자. 단일 이상치를 확인하는 Grubbs' test는 다수 이상치의 확인에는 적절한 방법이 아니다. 다수의 이상치를 확인하기 위해서 개선된 Grubbs' test가 Tietjen-Moore test이다.Tietjen-Moore test는 동일한 조건의 데이터에서 정규 분포를 벗어난 다수의 이상치를 확인하는 방법이다.Tietjen-Moore test는 이상치에 대한 명확한 개수가 정해져야 평가 결과가 정확해지는 단점이 있다. 해당 방법은 다른 이상치 평가 방법에서 잠재적 이상치가 1개 이상 확인된다면,다수의 이상치를 재검증하는 방법으로 사용하는 것이 적절하다.Tietjen-Moore test 이전에 적합.. 2024. 5. 6.
[Excel] 이상치 (Outlier) 확인: Grubbs' test 단일 (Single) 이상치 (Outlier) 확인을 위한 Grubbs' test를 알아보자. Grubbs' test는 1950에  Frank E. Grubbs에 의해서 발표된 내용으로정규분포에서 벗어난 이상치를 확인하기 위한 방법으로 소개되었다. 현재까지 동일한 데이터 집합에서 단일 이상치를 확인하는 방법으로 소개되고 있다. 적은 수의 데이터 집합부터 단일 이상치를 확인할 수 있는 방법으로이상치를 확인하는 방법은 Z-score 방법과 비슷하지만, 명확한 평가 기준이 부족한 Z-score 방법의 단점을 보완하고 있다.  Grubbs' test 계산 및 평가 방법Grubbs' test는 이상치로 예상되는 데이터의 "G" 값을 계산하고, 데이터 수와 유의 수준에 부합하는 평가 기준 $(G_{crit})$을 .. 2024. 4. 22.
[Excel] 이상치 (Outlier) 확인: Dixon's Q-test 단일 (Single) 이상치 (Outlier) 확인을 위한 Q-test를 알아보자! Q-test는 1951년 Dixon에 의해서 만들어진 이상치 확인 방법으로 데이터에 개수에 적합한 이상치 판정 임계값 (critical value)을 제시하였고, 임계값은 Q 값으로 정해져 있어서 데이터의 Q 값을 확인해서 이상치를 구분할 수 있다. Q-test의 판정 기준치들이 데이터 개수에 따라서 제시되고 있어서 적은 수의 데이터에서 이상치 판별하는데 적합한 것으로 알려져 있다. 처음에는 다수의 이상치를 확인하는 방법으로 제시되었지만, 최근에는 단일 이상치 확인에 더 적합하다고 설명하고 있다. 아래 그림은 6개의 데이터와 관련 간단한 기술통계 내용이 작성되어 있다. 모든 데이터 (n=6)를 이용해서 평균, 표준편차, .. 2024. 4. 15.
[Excel] 이상치 (Outlier) 확인: 표준 점수 (Z-score) 표준 점수 (Z-score)를 이용해서 이상치 (Outlier)를 확인해 보자! 표준 점수 (Z-score)를 알아보자. Z-score는 한글 명칭과 같이 모든 데이터를 표준화해서 동일한 값으로 변환하는 것이다. 예를 들면, 평균 (mean)이 10이고 표준편차 (SD)가 1인 정규 분포 데이터를 "0" 값을 기준으로 데이터의 ± 편차를 정규화된 Z-score로 변환할 수 있다. Z-score 수식은 다음과 같다. Z-score = (측정값 - 평균) / 표준편차 다양한 범위 값들이 데이터의 평균과 표준편차를 사용하여 공통적인 값인 Z-score로 변환되는 것이다. 아래 히스토그램은 정규분포 데이터 300개로 작성된 것으로 데이터는 측정 농도 값으로 평균은 10.007, 표준편차는 0.979를 나타낸다... 2024. 4. 8.
[Excel] 이상치 (Outlier) 확인: 상자 수염 (Box-Plot) 이상치 (Outlier) 확인을 위한 상자 수염 (Box-Plot)을 엑셀로 작성하기 ※ 엑셀로 상자 수염 (Box-Plot) 만들기 엑셀로 상자 수염을 작성하는 방법은 간단하다. 하지만, 2016 이전 버전에서는 차트에서 진원하지 않는다. 이런 경우라면 대체 방법이 복잡하기 때문에 다른 프로그램을 사용하기를 권장한다. [방법] 차트로 만들기 데이터 영역을 선택하고, 아래 메뉴를 선택하면 그래프가 만들어진다. "삽입 > 차트 > 상자 수염" * 세로로 나열된 데이터는 "열(column)" 마다 다른 그룹으로 설정된다. ※ 상자 수염으로 이상치 (Outlier) 확인 방법 먼저 상자 수염의 구성을 이해하는 것이 필요하다. 그래프에 표시된 박스 (Box)는 사분위수 (Quartile)를 표현한 것으로 사분.. 2024. 4. 1.
[Excel] 이상치 (Outlier) 확인: 히스토그램 (Histogram) 이상치 (Outlier) 확인을 위한 히스토그램 (Histogram)을 엑셀로 작성하기 ※ 엑셀로 히스토그램 (Histogram) 만들기 엑셀로 히스토그램을 작성하는 방법은 총 3가지가 있다. 3가지 방법의 엑셀 메뉴의 내용은 다음과 같다. 삽입 > 차트 > 히스토그램 삽입 > 피벗 차트 데이터 > 데이터 분석 [1번 방법] 차트로 만들기 - 장점: 자동으로 그래프가 작성되고, 사용법이 간단함. - 단점: Bin (x축 계급구간) 설정이 제한됨. → 계급구간의 너비, 개수 조정이 가능하지만, 시작과 끝 설정이 변경 불가 [2번 방법] 피벗 차트로 만들기 - 장점: 계급구간의 시작과 끝 설정과 너비의 조정이 가능함. - 단점: 그래프 작성에 필요한 단계별 설정이 필요함. 데이터가 없는 계급구간은 그래프에서.. 2024. 3. 25.
이상치 (Outlier) 확인 방법 이상치 (outlier) 확인 방법들과 처리 과정을 알아보자!이상치 (outlier) 또는 이상값은 표본 시료에서 측정된 값들 중에 현저하게 벗어난 값을 의미한다.다르게 설명하면, 원인을 알 수 없는 오류로 측정된 결과 값이다. 동일한 조건에서 측정된 값들은 중앙값을 기준으로 일정 범위에서 벗어나는 오차를 나타낸다.측정값은 중앙을 기준으로 많이 측정되고, 중앙에서 멀어지면 측정된 값의 빈도가 감소한다. 이런 분포는 자연계에서 나타나는 정규분포 형태로 나타난다. 이상치는 정규분포를 벗어 측정값으로 규정된다.  이상치를 식별하고, 적절히 처리하는 것이측정된 결과를 외곡시키지 않으므로 중요하다.예를 들면, A (흑색)와 B (녹색) 그룹의 측정값을 비교하는 과정에서첫번째 테스트에서 A 그룹의 평균값이 11.3.. 2024. 3. 18.
반응형