이파피루스는 자사의 문서 데이터 추출 라이브러리 ‘파이뮤PDF 프로(PyMuPDF Pro)’의 2025년 다운로드 수가 2024년 연간 대비 5배 이상 증가했다고 밝혔다. ‘파이뮤PDF 프로’는 인공지능 및 빅데이터 구축, 업무 자동화, 이미지 렌더링 등 다양한 문서 작업을 파이썬 환경에서 빠르고 정확하게 구현할 수 있는 문서 데이터 추출 라이브러리다. 파이썬 개발자들을 위한 패키지 저장소인 PyPI에서 올해 1월부터 11월까지 총 2억2천만 회 이상 다운로드됐다. 이는 작년 1월부터 12월까지의 다운로드 합계인 4400만 건을 크게 상회하는 수치다. 매년 꾸준히 상승세를 이어 온 가운데 특히 올해 9월을 기점으로 폭발적으로 증가했으며, 10월부터 11월까지의 다운로드 수만 1억2000만 회에 이른다. 이파피루스 김정아 부사장은 이 같은 성장의 배경으로 AI 서비스 시장 확대를 꼽았다. 그는 “파이뮤PDF 프로는 문서 내 페이지와 위치 등의 메타 데이터를 포함한 청크를 생성할 수 있으며, 추출한 문서 데이터를 LLM 및 RAG 친화적인 제이슨과 마크다운, 라마인덱스 리더 파일로 출력할 수 있어 AI 학습용 데이터 추출이나 문서 기반 대화형 서비스 개발에 매우
비정형 데이터 전처리 과정에서 발생하는 효율성 문제 해결하기 위해 개발 인공지능(AI) 기술이 기업 문서 처리의 효율성을 좌우하는 시대, 문서의 구조적 복잡도를 자동으로 분석해 전처리 전략을 결정하는 기술이 등장했다. 크라우드웍스는 자사의 데이터 전처리 솔루션 '알피 널리지 컴파일러(Alpy Knowledge Compiler)'에 적용된 문서 복잡도 분석 기반 자동화 기술에 대해 특허를 출원했다고 22일 밝혔다. 이 기술은 최근 RAG(Retrieval-Augmented Generation) 기반 AI 에이전트 개발에 필수로 자리잡은 비정형 데이터 전처리 과정에서 발생하는 효율성 문제를 해결하기 위한 것이다. 특히 문서의 구조가 복잡한 경우, 단순 자동화만으로는 전처리 품질이 크게 떨어진다는 점에 착안해 개발됐다. 크라우드웍스에 따르면, 이번 기술은 수십만 페이지에 이르는 대규모 문서 처리 환경에서도 문서별 복잡도를 사전에 분석해 자동화 여부를 결정할 수 있도록 설계됐다. 정량적 기준에 따라 문서를 네 단계(Class 1~4)로 분류한 뒤, 단순 문서는 자동처리를 우선 적용하고 복잡한 문서는 전문가 검토를 병행하는 방식이다. 이를 통해 오류 가능성을 예측하고