닫기
배너

‘파이뮤PDF 프로’ 다운로드 5배 증가...AI·RAG 활용 확산이 성장 견인

URL복사

 

이파피루스는 자사의 문서 데이터 추출 라이브러리 ‘파이뮤PDF 프로(PyMuPDF Pro)’의 2025년 다운로드 수가 2024년 연간 대비 5배 이상 증가했다고 밝혔다.

 

‘파이뮤PDF 프로’는 인공지능 및 빅데이터 구축, 업무 자동화, 이미지 렌더링 등 다양한 문서 작업을 파이썬 환경에서 빠르고 정확하게 구현할 수 있는 문서 데이터 추출 라이브러리다. 파이썬 개발자들을 위한 패키지 저장소인 PyPI에서 올해 1월부터 11월까지 총 2억2천만 회 이상 다운로드됐다.

 

이는 작년 1월부터 12월까지의 다운로드 합계인 4400만 건을 크게 상회하는 수치다. 매년 꾸준히 상승세를 이어 온 가운데 특히 올해 9월을 기점으로 폭발적으로 증가했으며, 10월부터 11월까지의 다운로드 수만 1억2000만 회에 이른다.

 

이파피루스 김정아 부사장은 이 같은 성장의 배경으로 AI 서비스 시장 확대를 꼽았다. 그는 “파이뮤PDF 프로는 문서 내 페이지와 위치 등의 메타 데이터를 포함한 청크를 생성할 수 있으며, 추출한 문서 데이터를 LLM 및 RAG 친화적인 제이슨과 마크다운, 라마인덱스 리더 파일로 출력할 수 있어 AI 학습용 데이터 추출이나 문서 기반 대화형 서비스 개발에 매우 유리하다”고 소개했다.

 

최근 있었던 레이아웃 분석 성능 업그레이드 또한 급성장의 요인으로 주목받고 있다. 현재 AI 전처리를 위해 사용되는 시중의 문서 데이터 추출 솔루션 대부분은 문서를 고해상도 이미지로 인식한 뒤 데이터를 추출하는 VLM 방식을 기반으로 한다.

 

새로워진 ‘파이뮤PDF 프로’는 이와 달리 자체 개발한 머신러닝 기반 레이아웃 분석기를 통해 문서 구조 자체를 파악하여 데이터로 추출해 VLM 방식을 사용하는 글로벌 유사 제품 대비 약 10배 빠른 속도로 정확한 데이터 처리가 가능하다.

 

특히 테두리가 없거나 병합 셀 등을 포함한 표 문서, 스캔 이미지와 디지털 데이터가 혼합된 복잡한 문서 추출에 있어서 독보적인 정확도와 속도를 자랑한다. GPU가 필요한 VLM 방식과 달리 CPU만으로도 동작해 비용 부담이 적은 것도 강점이다. 추출 대상 문서로 PDF, MS오피스, 한글 문서, 이미지 외 다양한 포맷을 지원한다.

 

‘파이뮤PDF 프로’는 오픈AI, 오라클, 보쉬, DHL, 도큐싸인, 슈나이더일렉트릭 등 글로벌 기업으로부터 성능을 인정받고 있다. 테스트가 필요한 고객들을 위해 홈페이지 내 데모 페이지와 60일 무료 체험 라이선스를 제공한다.

 

헬로티 이창현 기자 |














배너


배너


주요파트너/추천기업