본문 바로가기
데이터 처리 방법

[Excel] 이상치 (Outlier) 확인: 히스토그램 (Histogram)

by 어날켐 2024. 3. 25.
728x90

이상치 (Outlier) 확인을 위한 히스토그램 (Histogram)을 엑셀로 작성하기

※ 엑셀로 히스토그램 (Histogram) 만들기

엑셀로 히스토그램을 작성하는 방법은 총 3가지가 있다. 
3가지 방법의 엑셀 메뉴의 내용은 다음과 같다. 

  1. 삽입 > 차트 > 히스토그램 
  2. 삽입 > 피벗 차트 
  3. 데이터 > 데이터 분석 
  • [1번 방법] 차트로 만들기
    - 장점: 자동으로 그래프가 작성되고, 사용법이 간단함.
    - 단점: Bin (x축 계급구간) 설정이 제한됨.
    → 계급구간의 너비, 개수 조정이 가능하지만, 시작과 끝 설정이 변경 불가

히스토그램 작성 방법

  • [2번 방법] 피벗 차트로 만들기
    - 장점: 계급구간의 시작과 끝 설정과 너비의 조정이 가능함.
    - 단점: 그래프 작성에 필요한 단계별 설정이 필요함. 데이터가 없는 계급구간은 그래프에서 보이지 않음. 
    → 피벗 테이블 필드 > 행 필드 설정에서 "데이터가 없는 항목 표시"를 설정하면 나타남.

히스토그램 작성 방법 2

  • [3번 방법] 통계 데이터 분석 도구로 만들기
    - 장점: 자동으로 그래프가 작성되고, 계급구간의 시작과 끝 설정과 너비의 조정이 가능함.
    - 단점: 계급구간의 변경은 구간 값을 작성해서, 분석 도구에 입력해야 가능함.  

히스토그램 작성 방법 3


※ 히스토그램으로 이상치 (Outlier) 확인 방법

히스토그램에서는 데이터의 정규분포 형태를 확인할 수 있다. 
정규분포에 포함되지 않는 데이터를 확인해서 이상치를 확인할 수 있다. 

아래 그림은 300개의 데이터로 히스토그램을 작성한 결과이다. 

데이터 분포를 확인해서 정규분포에서 벗어난 값들을 확인하면, 이상치를 확인할 수 있다.
평가 방법의 기준이 있기보다는 이상치 존재 유무를 1차적으로 확인하기 위한 용도로 사용된다. 

히스토그램을 적용해서 확인할 수 있는 상황이 제한적이다.
데이터의 개수가 충분히 많지 않다면, 정규분포 형태를 확인할 수 없기 때문에
적은 수의 데이터에서는 활용이 불가하다. 

적은 수의 내용이 어느 정도인지 확인해 보았다.
확인 방법은 정규분포 데이터와 이상치가 포함된 데이터에서 히스토그램을 작성해서 비교했다.  
정규분포 데이터는 무작위로 선정하였고, 
이상치는 정규분포 끝자락에 위치한 값 1개와  
정규분포를 벗어난 값 1개를 모든 그래프에 포함시켰다.

정규분포의 데이터 300개 값들은 평균이 10이고, 표준편차(SD)는 1로 확인된다. 
이상치는 1개는 값이 7로 - 3 ×SD에 해당하고, 
다른 1개의 이상치 값은 15로 + 5 ×SD에 해당한다.   

데이터가 감소하는 히스토그램을 순차적으로 나열해서 비교한 결과에서
10개 데이터로 작성된 히스토그램에서는 정규분포 내용을 확인하기 불가했고, 
20개 데이터에서 정규분포 형태가 나타나기 시작하면서
30개부터는 정규분포 형태가 확인되며, 데이터가 많을수록 그 형태가 명확해지는 것이 확인된다.
데이터의 분포에 따라 위 결과는 다르게 나타날 수 있지만, 
30~50 개 이상 데이터에서는 거의 동일한 히스토그램 결과를 나타난다.

모든 그래프에서 이상치는 정규분포에서 많이 벗어난 값 1개만 확인되었고,
정규분포에 가까운 값은 확인되지 않았다.  

이상치를 확인하기 위한 방법으로 히스토그램을 사용한다면,
데이터의 개수가 30개 이상이 되는 경우 확인이 명확했다.
하지만, 데이터가 많은 경우라도
정규분포에 가까운 이상치는 확인이 불가했고,
많이 벗어난 이상치를 찾는 것이 가능했다.   

728x90