검정곡선 (Calibration Curve)의 이상치 값을 확인하는 방법
"표준화 잔차" 계산과 평가 방법을 알아보자.
동일한 실험 방법으로 같은 검정곡선을 여러 차례 작성되는 동안에 원인을 알 수 없는 이상치 (Outlier)가 발생된다.
그래프에서 육안으로 구분가능한 이상치인 경우에는 쉽게 파악되지만,
육안으로 쉽게 구분이 불가능한 이상치도 발생된다.
이런 경우에는 검정곡선 수식이 오차 허용 범위를 벗어나게 되고, 측정 농도의 오차를 더 크게 발생시킨다.
검정곡선의 이상치를 확인하고 수정하는 것이 농도 계산에 중요한 요소이기도 하다.
검정곡선에서 이상치를 확인하는 방법은 여러 가지가 있지만,
그중에서 일반적으로 많이 사용되는 표준화 잔차 방법을 알아보려고 한다.
표준화 잔차는 영문으로 standardized residual, studentized residual으로 번역된다.
하지만, 각각의 단어 정의와 계산 방법에 차이가 있기 때문에
영문 명칭을 기준으로 계산하는 방법과 평가 내용을 알아보려고 한다.
Standardized Residual $(SRs)$
$SRs$는 개별 잔차 값 $(residual_{i})$이 잔차 평균 $(\overline{residual_{i}})$에서 얼마나 떨어져 있는지를
표준편차 단위로 나타낸 표준 점수입니다.
계산은 각각의 잔차 값을 평균으로 빼고, 표준편차로 나눈 값이 $SRs_i$으로 수식은 아래와 같다.
$$SRs_i=\dfrac{residual_{i} - \overline{residual_{i}}}{SD_{residual}}$$
계산 방법은 엑셀 도구분석 메뉴의 회귀분석 결과에서 동일한 결과를 확인할 수 있다.
2024.08.14 - [기기분석 데이터] - [Excel] 단순 선형 회귀분석 (Simple Linear Regression) 계산 및 이해
[Excel] 단순 선형 회귀분석 (Simple Linear Regression) 계산 및 이해
검정 곡선 (Calibration Curve) 검증에 필요한 단순 선형 회귀분석 (Simple Linear Regression) 계산과 의미를 알아보자.표준물질 측정결과를 바탕으로 농도와 장비의 상관성 수식을 회귀분석을 통해서 확인
analchem.tistory.com
개별 잔차 값의 $SRs_i$는 표준 점수로 변환된 값으로
2 이상은 정규분포 95.4% 범위를 벗어난 값으로,
3 이상은 정규분포 99.7% 범위를 벗어난 값으로 확인된다.
$SRs_i$가 2.5 이상이 되면 이상치로 평가한다는 내용이 확인된다.
참고 문헌: Chen, H. Y., & Chen, C. (2022). Evaluation of calibration equations by using regression analysis: An example of chemical analysis. Sensors, 22(2), 447.
하지만, 다른 자료에서 $SRs_i$가 2 또는 3을 이상치 평가 기준으로 사용된 것이 확인된다.
평가 기준 차이는 검정 곡선의 데이터 수에 따라서 다르게 설정되는 것으로 추정된다.
적합한 이상치 기준을 확인하기 위해서
일반적인 검정곡선 예시로 $SRs_i$ 값과 이상치를 평가해 보았다.
Example 1) 검정곡선 설정 농도 : 8 개, 농도 범위 : 10 ~ 350, 반복측정 없음.

왼쪽 검정곡선과 잔차도는 이상치가 없는 결과이고, 오른쪽 검정곡선과 잔차도는 이상치가 포함된 결과이다.
이상치가 없는 검정곡선의 $SRs$는 2 이하의 값으로 계산되었지만,
이상치가 포함된 검정곡선의 경우 이상치는 2 이상의 값으로 나머지는 2 이하의 값으로 확인되었다.
데이터의 개수가 적은 단일 검정곡선 실험 결과에서는 $SRs$의 이상치 평가기준은 2 이상이 적합한 것으로 확인된다.
Example 2) 검정곡선 설정 농도 : 5 개, 농도 범위 : 10 ~ 350, 반복측정 없음.

Example 1과 모든 설정이 동일하고, 농도 설정이 5개로 축소된 결과이다.
이상치 설정은 동일하지만, 이상치의 $SRs$ 값은 1.78로 나타났다.
잔차값의 개수가 감소하면서 잔차의 표준편차가 증가해서 나타난 현상이다.
이상치의 값을 더 증가시켜도 잔차의 표준편차가 증가해서
$SRs$ 값은 2 이상 나타나지 않았다.
$SRs$은 표준점수 (Z-score)와 같은 계산 공식을 사용하고 있기 때문에 표준점수의 한계점이 동일하게 나타났다.
그 한계점은 데이터가 적어지면 정규분포의 표준편차 보다 큰 표준편차가 계산되어
정규분포에서 벗어난 데이터가 있어도 그 값의 표준점수는 특정값 이상 증가되지 않았다.
2024.04.01 - [데이터 처리 방법] - [Excel] 이상치 (Outlier) 확인: 표준 점수 (Z-score)
[Excel] 이상치 (Outlier) 확인: 표준 점수 (Z-score)
표준 점수 (Z-score)를 이용해서 이상치 (Outlier)를 확인해 보자! 표준 점수 (Z-score)를 알아보자. Z-score는 한글 명칭과 같이 모든 데이터를 표준화해서 동일한 값으로 변환하는 것이다. 예를 들면, 평
analchem.tistory.com
이전 자료에서 확인한 계산식으로 데이터 개수와 표준점수의 최댓값은 다음과 같이 확인된다.
| n | Z-score |
| 5 | 1.79 |
| 6 | 2.04 |
| 7 | 2.27 |
| 8 | 2.47 |
| 9 | 2.67 |
| 10 | 2.85 |
| 20 | 4.25 |
Example 자료에서 보여준 이상치의 $SRs$ 값과 유사한 것이 확인된다.
(n=8, Outlier $SRs$=2.46, n=5, Outlier $SRs$=1.78)
추가로, 이상치가 발생되는 농도마다 $SRs$에 차이가 있는 확인해 보았다.
Example 1에서 단일 이상치를 각 농도마다 발생시키고, $SRs$를 계산해 보았다.
잔차의 오차 크기는 모든 농도에서 동일하게 적용하였다.
| Concentration | $SRs$ |
| 10 | -1.89 |
| 50 | 2.13 |
| 100 | -2.24 |
| 150 | 2.33 |
| 200 | -2.33 |
| 250 | 2.25 |
| 300 | -2.14 |
| 350 | 1.84 |
동일한 크기의 잔차 오차가 발생되었지만,
절댓값의 $SRs$는 중앙에서 가장 큰 값을 나타내고, 범위 끝에 있는 농도는 가장 낮은 값을 보인다.
이런 현상이 나타나는 이유는
범위 끝에 있는 데이터가 일차방정식 수식을 점과 가까이 위치하도록 변형시키기 때문이다.
범위 중앙 데이터는 수식 변형에 영향이 낮기 때문에 잔차가 크게 발생된 것이다.
이와 같은 현상을 지렛대 효과 (leverage effect)라고 부른다.
지렛대 효과에 대한 자세한 내용은 이전 글에서 확인할 수 있다.
2025.07.04 - [기기분석 데이터] - [Excel] 검정곡선에서 농도 설정의 오류 확인 방법
[Excel] 검정곡선에서 농도 설정의 오류 확인 방법
검정곡선 (Calibration Curve) 농도 설정의 차이로 발생되는 원인과 결과를 알아보자. 정량분석에서 검정곡선 (Calibration curve)은 꼭 필요한 항목이다. 검정곡선은 정량 범위에서 5개 이상의 표준물질
analchem.tistory.com
이상치 평가 방법의 $SRs$는 농도별 결과 차이과 부정확한 평가 기준이라는 문제점을 가지고 있기 때문에
해당 문제점을 보완하기 위해서 다음과 같은 Studentized Residual 방법이 제시되었다.
Studentized Residual $(SRt)$
Studentized residual ($SRt$) 평가 방법은 두 가지로 구분된다.
Internally studentized residual ( $_{int}SRt$ )과 Externally studentized residual ( $_{ext}SRt$ ) 방법의 계산식은 다음과 같다.
- Internally studentized residual ( $_{int}SRt$ )
$$_{int}SRt_i=\dfrac{Residual_{i}}{\sqrt{MSE*(1-h_i)}}$$
- Externally studentized residual ( $_{ext}SRt$ )
$$_{ext}SRt_i=\dfrac{Residual_{i}}{\sqrt{MSE_{(-i)}*(1-h_i)}}$$
Internally - , Externally - 두 계산식 차이는 MSE (Mean Squared Error)의 계산 방법에 있다.
$$MSE=\dfrac{1}{n-p}\sum_{i=1}^{n}(Residual_{i})^2$$
$$MSE_{(-i)}=\dfrac{1}{n-p-1}\sum_{i\ne j,\ j=1}^{n}(Residual_{i})^2$$
$MSE$는 잔차 제곱합을 "데이터 수 (n) - 수식의 상수 개수 (p)"로 나눈 값이다.
$MSE_{(-i)}$는 $i$ 번째 데이터를 제외한 일차방적식으로 얻어진
잔차 제곱합을 "데이터 수 (n) - 수식의 상수 개수 (p) - 1"로 나눈 값이다.
이상치가 제외된 일차방정식의 모든 잔차 값은 감소되어 $MSE_{(-i)}$는 $MSE$ 보다 낮은 값으로 계산되고
$_{ext}SRt$는 $_{int}SRt$ 보다 더 큰 값으로 나타난다.
$SRs, SRt$의 값의 차이를 확인하기 위해서 이전에 확인한 Example 1, 2로 비교해 보았다.

$SRs$에서 보여주었던 데이터 개수가 낮아지면 상한치가 제한되는 문제점은
$_{int}SRt$에서도 나타나는 것이 확인되었지만,
$_{ext}SRt$에서는 그 부분이 개선된 것을 확인할 수 있었다.
$SRt$의 계산은 $SRs$와 다르게 $h_i$ 레버리지 (leverage) 값이 계산에 추가된 것을 확인할 수 있다.
레버지리 값이 계산에 반영되기 때문에 농도마다 다르게 계산되었던 $SRs$의 문제점이 개선될 수 있다.
내용을 확인하기 위해서 앞서 확인한 농도마다 다르게 나타난 $SRs$의 같은 데이터로 $SRt$ 값을 비교해 보았다.
| Concentration | $SRs$ | $_{int}SRt$ | $_{ext}SRt$ |
| 10 | -1.89 | -2.25 | -5.18 |
| 50 | 2.13 | 2.33 | 6.77 |
| 100 | -2.24 | -2.30 | -6.01 |
| 150 | 2.33 | 2.32 | 6.50 |
| 200 | -2.33 | -2.32 | -6.49 |
| 250 | 2.25 | 2.30 | 6.02 |
| 300 | -2.14 | -2.33 | -6.76 |
| 350 | 1.84 | 2.24 | 5.09 |
각 농도 마다 동일한 잔차의 오차가 발생했을 때
계산된 $_{int}SRt$, $_{ext}SRt$은 농도에 따라 차이나는 현상이 사라지고, 일정한 값이 나타나는 것을 확인하였다.
이상치 평가 기준은 계산된 방법에 따라 다르게 설정되는 것이 필요하다.
$_{int}SRt$은 2 값을 기준으로 평가되는 것이 적절하다고 보이지만,
데이터 개수가 낮아진 상태에서는 적합한 평가는 어렵다고 확인된다.
$_{ext}SRt$은 값이 증가된 형태로 나타나기 때문에 평가 기준은 3이 적합하다고 보인다.
다른 자료에서도 기준 3으로 이상치를 평가된 사례들이 확인된다.
$_{ext}SRt$으로 계산된 결과와 평가 방법은 데이터와 무관하기 적용될 수 있기 때문에
적은 수의 데이터로 평가할 때 유용하다.
이 방법은 특정 데이터를 제거하고 잔차를 얻어야 하는 복잡한 계산방식 때문에 어려움이 있다.
검정곡선을 작성하면서 이상치를 확인하고 검증할 때
다양한 표준화 잔차 값을 이용해서 확인하는 내용을 알아보았다.
하지만, 계산 방법마다 장점과 단점이 존재하기 때문에
상황에 맞게 사용하는 것이 필요하다.
적은 수의 데이터로 검정곡선을 작성하는 경우라면
Externally studentized residual ( $_{ext}SRt$ ) 방법이 가장 이상적으로 확인된다.
자세한 계산 내용은 첨부파일을 통해서 확인할 수 있다.
'데이터 통계 분석' 카테고리의 다른 글
| [Excel] 다수 이상치 (Multiple outliers) 확인 : Grubbs' test (0) | 2025.09.28 |
|---|---|
| [Excel] 분산분석에서 이상치 (Outlier) 확인 : Cochran's C test (0) | 2025.09.27 |
| [Excel] t-분포 (t -distribution) 및 t-검정 (t-test) 이해 (0) | 2024.11.04 |
| [Excel] F-검증 (F-test) | 분산분석 (ANOVA) : "F-통계량" 차이점 (0) | 2024.10.07 |
| 단일 이상치 (Single Outlier) 확인 방법 비교 (0) | 2024.06.10 |