본문 바로가기
데이터 통계 분석

[Excel] 실험실 간 비교 - 재현성 (Reproducibility)

by 어날켐 2026. 1. 18.
728x90
반응형

 

 

 

 

실험실 간 비교 결과로 사용되는 재현성의 계산 내용을 알아보자.

실험실 비교 결과는 정확성과 정밀성의 결과로 평가된다.
정밀성 세부 항목에 실험실 비교 결과는 재현성(Reproducibility)으로 구분된다.
재현성의 필수 계산항목은 표준편차(SD: Standard Deviation)인데
계산 방식에 차이로 표준편차 결과가 다른 게 나타난다.
예를 들어, 모든 데이터의 표준편차, 실험실 평균의 표준편차, 실험실 표준편차의 평균의 값들이 모두 다르다.
재현성 결과에 적합한 표준편차는 어떻게 계산하는지 ISO 가이드라인에서 계산 내용을 확인할 수 있었다. 

재현성(Reproducibility)의 표준편차 계산

실험실 간 비교는 동일한 샘플을 반복 측정한 결과로 재현성이 평가된다.
재현성은 각 실험실에서 측정된 평균과 재현성 결과를 바탕으로 계산되며,
재현성의 표준편차($SD_R$)는 ISO 5725-2 문서에 다음과 같이 정의되고 있다.
$$SD_{R}^2 = SD_{r}^2 + SD_{L}^2$$

  • $SD_R^2$: 재현성 분산(Reproducibility variance)
  • $SD_L^2$: 실험실 간 분산(Between-laboratory variance)
  • $SD_r^2$: 반복성 분산(Repeatability variance)

재현성의 분산($SD_R^2$)은 실험실 간 분산($SD_L^2$)과 반복성 분산($SD_r^2$)의 합으로 정의되고 있다.
실험실 간 분산은 각 실험실 평균들이 차이나는 정도를 나타낸다.
반복성의 분산은 각 실험실 표준편차들이 차이나는 정도를 나타낸다.
표준편차는 단순 더하기로 더하면 값이 왜곡되기 때문에 표준편차를 제곱해서 분산으로 변형한 다음
더하고 다시 제곱근을 적용해서 계산돼야 하기 때문에 분산으로 표현되었다.

재현성 분산은 시료 농도가 다르면 각 농도마다 계산되므로 농도(j)를 구분해서 계산되도록 다음과 같이 표현된다.
$$SD_{Rj}^2 = SD_{rj}^2 + SD_{Lj}^2$$
재현성은 실험실 내부의 오차($SD_r^2$)와 실험실 사이의 오차($SD_L^2$)를 더한 것으로
이 결과는 동일한 분석법이 실험실이라는 환경 변화에 얼마나 오차가 발생하는지 확인할 수 있습니다.

실험실 반복성 분산 ($SD_{r}^{2}$) 계산

동일 실험실, 동일 연산자, 동일 장비 등 제한된 조건에서 각 실험실 반복성 분산들의 평균이다.
실험실과 농도마다 반복 측정 횟수($n$)를 고려해서 농도($j$)에서의 반복성 분산은 아래 수식으로 계산된다.
$$SD_{rj}^2 = \frac{\sum_{i=1}^{p_j} (n_{ij} - 1)SD_{ij}^2}{\sum_{i=1}^{p_j} (n_{ij} - 1)}$$

  • $SD_{rj}^2$: 농도 $j$ 에서의 반복성 분산
  • $SD_{ij}^2$: 농도 $j$ 에서 실험실 $i$ 의 분산 (실험실의 반복성 결과)
    $SD_{ij}^2 = \dfrac{\sum_{1}^{n_{ij}} (x_{ij} - \bar{x}_{ij})^2}{(n_{ij} - 1)}$
  • $n_{ij}$: 실험실 $i$, 농도 $j$ 의 반복 측정 횟수
  • $p_j$: 농도 $j$ 의 실험실 수

하지만, 각 실험실 반복 측정이 n=2인 경우에는 실험실 분산이 아래와 같이 계산된다.
$$SD_{ij}^2 = \dfrac{\sum_{1}^{n_{ij}} (x_{ij} - \bar{x}_{ij})^2}{n_{ij}}$$

2회 반복 측정에서 자유도 $n-1$ 을 적용하면 분산값이 과도하게 증가되는 현상이 발생하기 때문에 $n$ 을 적용해서 계산한다.
모든 실험실의 반복 측정($n$)이 2번이라면, 반복성 분산은 아래 수식으로 간소화된다.
$$SD_{rj}^2 = \frac{1}{2p_j} \sum_{i=1}^{p_j} (x_{ij1} - x_{ij2})^2$$

만약, 일부 실험실의 데이터만 반복 측정이 2번이라면, 각 실험실의 반복 측정 횟수에 맞게 계산이 필요하다.
엑셀 LET 함수는 여러 단계의 계산된 데이터를 함수 내에서 다시 계산할 수 있도록 지원하고 있다.
반복 측정($n$) 조건으로 달라지는 계산을 간편하게 함수로 작성할 수 있었다.
자세한 엑셀 수식 내용은 첨부된 엑셀 파일을 통해서 확인할 수 있다.

실험실 간 분산 ($SD_{L}^{2}$) 계산

실험실 간 분산은 실험실마다 차이나는 환경, 장비 성능, 실험자의 숙련도와 같은
개별 실험실 조건에서 발생되는 추가적인 변동을 나타낸다.
실험실 간 분산($SD_{L}^2$)은 실험실 평균들의 분산($SD_d^2$)에서 실험실 반복성 분산($SD_r^2$)의 영향을 제외하고 계산하기 때문에 아래 수식으로 계산된다.
$$SD_{Lj}^2 = \frac{SD_{dj}^2 - SD_{rj}^2}{\hat{n}_j}$$

  • $SD_{Lj}^2$: 농도 $j$ 에서 실험실 간 분산
  • $SD_{dj}^2$: 농도 $j$ 에서 실험실 평균들의 분산
  • $SD_{rj}^2$: 농도 $j$ 에서 반복성 분산
  • $\hat{n}_j$: 농도 $j$ 에서 각 실험실의 반복 측정 횟수가 적용된 가중 평균

가중 평균 $\hat{n}_j$ 은 각 농도 $j$ 에서 다음과 같은 수식을 계산된다.
$$\hat{n}_j = \frac{1}{p_j-1} \left[ \sum_{i=1}^{p_j} n_{ij} - \frac{\sum_{i=1}^{p_j} n_{ij}^2}{\sum_{i=1}^{p_j} n_{ij}} \right]$$
모든 실험실의 반복 측정 $n$이 동일하면 $\hat{n}_j = n_j$ 관계가 나타나고,
실험실 반복 측정 $n$이 다르면 반복 측정 횟수에 가중치가 적용되어 $\hat{n}_j \neq n_j$ 관계가 나타난다.

실험실 평균들의 분산($SD_{dj}^2$)은 농도 $j$ 에서 실험실 평균($\bar{x}_i$)들이 전체 평균($\overline{\overline{x}}$)으로 부터 얼마나 떨어져 있는지 나타내는 값으로 아래 수식과 같이 계산된다.
$$SD_{dj}^2 = \frac{1}{p_j-1} \sum_{i=1}^{p_j} n_{ij}(\bar{x}_{ij} - \overline{\overline{x}}_j)^2$$

농도 $j$ 의 전체 평균($\overline{\overline{x}}$)은 모든 측정값으로 평균을 계산해도 되고, 아래 수식과 같이 실험실 평균에서 계산할 수 있다.
$$\overline{\overline{x}}_j = \dfrac{\sum_{i=1}^{p_j} n_{ij} \bar{x}_{ij}}{\sum_{i=1}^{p_j} n_{ij}}$$

계산으로 확인된 분산 값들은 추정값으로 데이터 패턴에 따라서 오류가 발생될 수 있는데
실험실 평균들의 분산($SD_{dj}^2$)이 음수 값으로 계산되는 오류가 계산되기도 한다.
음수 값은 실험실 평균 차이가 작거나, 반복 측정 오차가 상대적으로 큰 경우에 발생될 수 있다.
실험실 평균들의 분산($SD_{dj}^2$)이 0 이하인 경우에는 $SD_{Lj}^2$ 계산에서 0 값으로 변환한다고 가이드라인에 표기되어 있다.
분산은 음수 값을 나타내지 않기 때문에 추정된 계산 결과에서 음수 값이 발생되면 적용하지 않는 것이 해석된다.

계산 방법 차이의 결과 비교 

단일 실험실에서 정밀도를 다른 조건에서 동일한 시료를 반복측정할 때 모든 결과로 상대표준편차로 계산해서 정밀성을 평가한다. 
동일한 개념으로 재현성도 실험실의 모든 결과를 상대표준편차 계산해서 정밀성을 평가하는 것도 문제없을 것으로 생각된다. 
위 공식으로 계산된 표준편차 결과와 전체 결과를 이용해서 표준편차를 계산한 값의 차이가 있는지 확인해 보았다. 

동일한 데이터를 사용해서 계산 차이를 확인하였다. 
아래 테이블의 결과는 모든 데이터를 이용해서 표준편차와 상대표준편차를 계산한 결과이다. 

Result of raw data L1 L2 L3 L4 L5
Mean 0.998 5.088 20.144 50.396 99.945
SD 0.122 0.301 1.048 1.695 2.500
RSD 12.2% 5.9% 5.2% 3.4% 2.5%

아래 테이블은 재현성 공식으로 계산한 표준편차와 상대표준편차를 계산한 결과이다. 

Result of reproducibility equation L1 L2 L3 L4 L5
General mean 1.00 5.09 20.14 50.40 99.95
Variance (Repeatability) 0.014 0.105 1.201 3.230 5.995
Variance (Between-Lab) 0.002 -0.020 -0.145 -0.501 0.359
Variance (Reproducibility) 0.015 0.105 1.201 3.230 6.354
SD (Reproducibility) 0.124 0.324 1.096 1.797 2.521
RSD (Reproducibility) 12.4% 6.4% 5.4% 3.6% 2.5%

재현성 공식으로 계산된 결과에서 모든 표준편차 값이 증가된 내용을 확인할 수 있었지만, 큰 차이를 보여주지는 않았다.  

아래 그래프는 상대표준편차로 변환해서 두 방법 차이를 비교한 내용이다.

표준편차 결과와 동일하게 수식으로 계산된 값이 모두 증가되어 나타나지만, 큰 차이를 보이지는 않았다. 
특정 실험실 값이 벗어난 결과가 포함되도 비슷한 결과를 보이는 것으로 확인되었다. 

간편하게 모든 실험실 결과로 표준편차를 계산해도 재현성을 평가를 위한 표준편차가 계산되지만,
적합한 절차와 보고를 위해서는 인정되는 계산 과정도 필요하기 때문에 앞서 소개한 계산하는 방법도 필요하다.

자세한 계산 내용은 첨부된 파일에서 내용을 확인할 수 있다.

실험실 간 비교_Reproducibility_V1.xlsx
0.03MB

 

728x90
반응형