두 개의 분석법에서 측정된 동일 샘플의 반복 측정 결과로,
"Bland-Altman plot" 을 엑셀 (Excel)로 작성해 보자!
두 분석법의 비교 검증 자료로 Bland-Altman plot이 사용된다.
다양한 범위 농도에서 선택된 샘플을 두 분석법으로 측정해서
분석법의 결과 차이를 비교 분석할 때 사용된다.
같은 샘플을 두 개의 분석법으로 측정한 결과 값이 단일 결과인 경우에는
두 결과의 차이와 평균 값을 이용해서 Bland-Altman plot을 작성한다.
자세한 내용은 아래 링크를 통해서 확인할 수 있다.
2024.02.05 - [데이터 처리 방법] - [Excel] 분석법 비교 방법 : Bland-Altman Plot (단일 측정 결과)
동일한 샘플을 각각의 분석법으로 반복 측정해서 결과를 얻는 경우라면
단순히 각 분석법의 반복 측정 결과를 평균해서 1개의 값으로 변환해서 평가할 수 있다.
위와 같은 방법으로 계산한다면, 허용 기준에 오류가 발생할 수 있다.
그래프는 개별 분석법의 반복 측정 결과를 평균으로 계산해서 작성해도 무관하지만,
개별 분석법에서 얻은 측정 결과의 분산이 다른 경우에는
허용 기준 설정에 측정 결과 분산이 적용되어 산출되어야 한다.
계산 수식은 Bland-Altman plot 을 제시한 저자들의 논문에서 확인했다.
참고문헌: Bland, J. M., & Altman, D. G. (1999). Measuring agreement in method comparison studies. Statistical methods in medical research, 8(2), 135-160.
엑셀로 작성한 결과물에 오류가 있는지 검증하기 위해서
논문 데이터를 사용하였고, 계산된 값들도 비교해서 확인했다.
단일 측정과 반복 측정에서 차이나는 부분은
개별 분석법의 반복 측정 결과 값이 추가되어
각각의 표준편차와 반복 측정 횟수가 수식에 추가된다.
Bland-Altman plot 작성에 필요한 x, y 축의 데이터로
x 축은 개별 샘플의 측정 결과 평균이 사용되고,
y 축은 각 분석법의 측정 결과 차이가 사용된다.
예를 들어, 개별 분석법의 3회 반복 측정 결과로 그래프를 작성한다면
단일 샘플의 측정 결과는 총 6개 (3회 × 2 분석법)로 평균을 계산해서 x 축으로 사용한다.
분석법의 차이는 개별 분석법의 3회 반복 측정 결과를 평균해서
각 분석법의 평균 값의 차이를 y 축으로 사용한다.
평균 값의 차이를 계산할 때 다음과 같은 방법을 사용한다.
" 분석법 평균 차이 = 평가 대상의 분석법 평균 값 − 기존 분석법 평균 값 "
허용 기준을 계산하려면 개별 분석법의 표준편차 또는 분산이 필요하다.
논문 데이터는 총 85개 샘플의 분석법 마다 3회 반복 측정한 결과를 사용했다.
측정 결과가 상이한 샘플들을 이용해서 단일 분석법의 표준편차 (SD)를 계산할 때는
다음과 같은 수식으로 계산한다.
$ SD_{method} = \sqrt{ \dfrac{SD^2_1+ SD^2_2 + \dots + SD^2_n }{n} }$
엑셀에서는 3회 반복 측정 (m)의 표준편차를 STDEV.S 함수로 계산하고,
샘플 표준편차×표준편차의 전체 합을 계산할 때는 SUMPRODUCT 함수를 사용했다.
이렇게 계산된 개별 분석법의 표준편차 값은
$SD_A = 6.12$ (분산 37.4), $SD_B$ = 9.12 (분산 83.1) 로 계산되었고,
논문 결과와 비교해서 차이가 없었다.
분석법 간의 차이를 y 축으로 사용하기 때문에 허용 기준은 차이 값을 이용해서 설정한다.
계산된 분석법 차이의 표준편차 값은 여러가지 변수들이 적용되어 있다.
논문에서는 분석법 차이의 전체 표준편차를
차이 값의 표준편차, 개별 분석법의 표준편차를 적용해서 다음과 같이 정리하였다.
$ SD_{Total} = \sqrt{ SD^2_{difference} + (1-\dfrac{1}{m_A}) \times SD^2_A + (1-\dfrac{1}{m_B}) \times SD^2_B }$
$SD_{difference}$ 는 개별 분석법의 평균 결과 차이 값에서 나타나는 표준편차로
표본의 표준편차를 계산하는 엑셀 함수 STDEV.S 를 사용하였다.
$SD_A, SD_B$ 는 Method A와 Method B의 반복 측정에 대한 표준편차로
개별 분석법의 표준편차를 계산한 위 수식을 사용하였다.
$m_A, m_B$ 은 개별 분석법의 반복 측정 횟수를 나타낸다.
위 수식에 데이터 값을 대입해서 계산하면 다음과 같다.
$ SD_{\text{Total}} = \sqrt{ 18.93^2 + (1-\dfrac{1}{3}) \times 6.12^2 + (1-\dfrac{1}{3}) \times 9.12^2 } = 20.95 $
허용 구간은 정규분포의 95% 신뢰구간으로 설정되므로,
차이 값들의 평균 ($\overline{d}$) -15.62 을 기준으로
z-분포 상수 1.96와 차이의 전체 표준편차 값을 적용해서 계산한다.
수식은 $ \overline{d} ± 1.96 × SD_{\text{Total}}$ 로 정의되며,
허용 구간의 범위는 다음과 같다.
$-15.62 - 1.96 \times 20.95 ~ -15.62 + 1.96 \times 20.95 $
$(\text{Upper limit} = 25.44, \text{Lower limit} = -56.68 )$
계산된 차이의 평균과 허용 구간 값은 측정 오차로 인한 오차 범위가 존재한다.
오차 범위 (Error Range)는 설정 값을 기준으로 95% 신뢰구간 범위로 설정되며,
표준오차 (SE) 에 측정 수의 따라 다르게 적용되는 t 상수를 사용해서
설정 값 (D)을 기준으로 범위를 설정하게 된다.
$ Error Range = D ± t \times SE$
차이의 평균 값 ($\overline{d}$)에 대한 표준오차 ($SE_{\overline{d}}$)는 아래 수식으로 계산된다.
$SE_{\overline{d}} = SD_{Total} / \sqrt{n}$
차이의 평균 값의 오차 범위는 다음과 같이 계산된다.
$\overline{d} ± t \times SE_{\overline{d}} = -15.62 ± 1.96 \times 20.95 / \sqrt{85}$
허용 구간의 설정 값에 표준오차 $\left(SE_{(\overline{d} ± 1.96SD)}\right)$는 아래 수식으로 계산된다.
$SE_{(\overline{d} ± 1.96SD)}= \dfrac{SD_{Total}^2}{n} + \dfrac{1.96^2}{2SD_{Total}^2} \times \left( \frac{SD_{difference}^4}{n-1} + \frac{(m_A - 1)SD_A^4}{nm_A^2} + \frac{(m_B - 1)SD_B^4}{nm_B^2} \right)$
위 수식을 이용해서 계산하면 다음과 같이 정리할 수 있다.
$SE_{(\overline{d} ± 1.96SD)}$ = $\frac{20.95^2}{85}$ + $\frac{1.96^2}{2 \times 20.95^2} \times$ $\left(\frac{18.93^4}{85-1} + \frac{(3-1)\times6.12^4}{85\times3^2} + \frac{(3-1)\times9.12^4}{85\times3^2} \right) = 3.46$
허용 구간의 설정 값의 오차 범위는 다음과 같이 계산된다.
$\text{Upper limit} ± t \times SE_{(\overline{d}±1.96SD)}=25.44±1.96 \times 3.46$
$\text{Lower limit} ± t \times SE_{(\overline{d}±1.96SD)}=-56.68±1.96 \times 3.46$
논문에서는 오참 범위 값을 계산할 때 t 값을 1.96을 사용했다.
데이터 수가 많을 때 정규 분포의 t 값이 1.96이다.
첨부파일에 작성된 엑셀 내용에는 측정 수 85에 해당하는 t 값이 적용되어 있다.
측정 수 85는 데이터가 많은 편에 속하기 때문에
t 값은 1.96에 가까운 값으로 확인된다.
계산된 내용을 정리해서 Bland-Altman plot을 작성하면 다음과 같다.
허용 구간은 적색으로 표현되어 있으며, 오차 범위는 보라색으로 표현되어 있다.
측정된 결과 값이 차이가 허용 구간을 벗어나는 값이 일부 나타나며,
오차 범위를 초과하고 있어서 측정 오류 또는 이상치 (outlier)로 추정할 수 있다.
대다수 데이터 값들이 허용 구간에 포함되어 있어서
벗어난 3개의 데이터는 이상치로 평가된다.
반복 측정 없는 결과는 3회 반복 측정한 결과와 차이가 있을까 궁금했다.
그래서 3회 반복 측정 결과 중 1회 데이터를 사용해서
동일한 계산 방법으로 작성한 Bland-Altman plot 은 아래와 같다.
그래프를 비교해 보면 3회 반복 측정 데이터는 1회 측정 데이터 보다 평균 값에 더 근접한 것으로 나타났다.
허용 범위는 반복 측정에 따라서 차이가 크지 않는 것으로 확인되었다.
반복 측정의 결과는 개별 분석법의 측정값에 정확성을 높여 주는 것은 가능하지만,
비교 테스트 평가에서는 다양한 농도의 샘플 테스트 결과가 많은 것이 더 도움이 될 것으로 생각된다.
하지만, 개별 분석법의 재현성이 낮아 1회 측정 값의 오차 큰 경우라면 반복 측정이 필요하다.
개별 분석법의 3회 측정 결과의 Bland-Altman plot 결과와 1회 측정 결과를 엑셀로 작성해서 첨부파일로 업로드합니다.
엑셀로 자세한 계산 방법 및 그래프 작성 내용은 첨부파일을 확인해 주세요.
끝까지 내용 읽어 주셔서 감사합니다.
*개별 분석법의 1회 측정 결과 만으로 비교한 설명과 엑셀 파일은 아래 링크에서 확인할 수 있다.
2024.02.05 - [데이터 처리 방법] - [Excel] 분석법 비교 방법 : Bland-Altman Plot (단일 측정 결과)
'데이터 처리 방법' 카테고리의 다른 글
이상치 (Outlier) 확인 방법 (0) | 2024.03.18 |
---|---|
[Excel+Python] 정규성 검증: Shapiro-Wilk test (0) | 2024.02.19 |
[Excel] 분석법 비교 방법 : Bland-Altman Plot (단일 측정 결과) (0) | 2024.02.05 |
[Excel] 재현성 (Precision) 평가 방법 : 분산 분석 (ANOVA) (0) | 2024.01.15 |
[Excel] 측정 방법의 비교 분석 : Deming Regression (0) | 2023.11.19 |