본문 바로가기
업무 보조 프로그램

[Tabula] PDF 테이블 자료 추출 프로그램

by 어날켐 2024. 2. 26.
728x90
반응형

PDF 파일의 테이블 자료를 인식하고, 추출하는 프로그램 Tabula 알아보자.

PDF 파일에서 테이블 자료를 추출하는 방법을 이전에 알아보았다.
자세한 내용은 아래 링크를 통해서 확인 바랍니다.  

2024.01.24 - [업무 보조 프로그램] - PDF 테이블을 엑셀 데이터로 변환 [Mac 버전]

2024.01.22 - [업무 보조 프로그램] - PDF 테이블을 엑셀 데이터로 변환 [Windows 버전]

이전에 알려드린 방법을 사용해서 테이블 데이터를 추출하는 과정에서 문제가 발생할 수 있다. 
PDF 문서에서 화면을 캡처해서 자료로 변환하는 방법은 
캡처 화면이 정확하지 않는 경우에 데이터가 손실 또는 변형이 나타나는 것으로 확인된다.
테이블 내용이 많거나 모니터 화면이 작다면 
캡처된 이미지의 해상도가 낮아서 오류 발생이 많이 발생하는 것으로 추정된다. 

이런 부분을 해소하기 위해서 데이터를 확대해서 이미지를 캡처하면 
문제점이 없어지기는 했지만, 여러번의 반복적인 작업이 필요하게 된다.

PDF 테이블 자료를 오류 없이 자료를 한번에 추출하는 방법으로 
여러가지 내용들이 존재하지만, 추가 비용 없이 사용할 수 있는 방법을 소개하려고 한다. 

"Tabula" 프로그램을 사용하면 PDF 테이블 자료를 좀 더 정확하게 추출하는 것이 가능했다.
이전에 파이썬 패키지 프로그램으로 사용되었지만, 
아래 홈페이지 내용을 보면
윈도우, 맥 OS에서 프로그램을 다운받아 실행파일을 열면 사용이 가능하다.  

Tabula 홈페이지 화면 [link] https://tabula.technology/


[Windows 실행] 

처음 실행할 때 Java 프로그램을 추가 설치가 필요하다고 설명하면서 바로 설치가 가능하다.
실행 가능한 보조 프로그램이 모두 설치된 이후에 Tabula 프로그램 실행 파일이 작동된다.
"tabula.exe" 을 더블 클릭하면 검은색 화면의 명령 프롬프트 화면이 실행되고 기다리면
웹브라우저에 새창이 열리면서 Tabula 프로그램이 나타난다.


[Mac 실행] 

처음 "tabula.exe" 실행할 때 추가 설치에 대한 안내가 나타나지는 않지만, 
사파리 웹브라우저가 열리면서 화면에 접속 오류가 나타난다. 
이런 경우 주소창에 링크를 크롬 웹브라우저에서 실행시키면 Tabula 프로그램이 나타난다.
Tabula 웹브라우저 화면은 윈도우와 차이가 없다. 


Tabula 프로그램 웹페이지 화면 (Windows 버전)

표 데이터를 추출할 PDF 파일을 "Browse" 버튼을 클릭해서 파일을 선택한다. 

선택된 파일이 불러와서 목록에 표기되면, " Import " 버튼을 눌러 자료를 불러온다. 

불러온 PDF 자료는 다른 화면에서 나타나고, 
원하는 페이지의 테이블을 확인한 뒤에 영역을 마우스로 드래그하면 빨간색 영역으로 지정된다.
지정된 영역의 자료를 추출하려면, " Preview & Export Extracted Data " 버튼을 클릭하면 
추출된 자료가 다른 화면에서 나타나고, Export 버튼을 누르면 다른 이름으로 저장된다.
저장하는 기본 형식은 CSV 파일이고, 다른 형식 (TSV, JSON)으로도 저장이 가능하다. 
아래 영상은 위 내용의 일련의 과정을 보여주는 내용이다.   

이전에 사용된 엑셀이나 이미지 텍스트 추출 방법 보다는 
추출된 자료의 값들에 오류가 적은 것이 확인되었다. 


[단점]

PDF 화질이 낮은 경우 또는 표의 배열이 명확하지 않는 경우에 표 배열에 오류가 발생하였고,
기타 수식이나 특이한 문자는 추출이 않되거나 오류가 나타나는 것이 확인되었다.  

 

 

728x90
반응형