문서 AI 전문 기업 ㈜이파피루스(대표 김정희)는 오픈소스 PDF 라이브러리 ‘MuPDF(뮤피디에프)’의 웹사이트 ‘MuPDF.com(뮤피디에프닷컴)’을 리뉴얼했다고 지난 20일 밝혔다.
MuPDF는 이파피루스의 자회사인 미국 아티펙스 사(Artifex Inc.,)가 보유한 C언어 기반 오픈소스 라이브러리로 PDF, XPS 및 EPUB 문서 이미지 렌더링을 비롯해 PDF 변환, 처리 및 추출 등 다양한 문서 작업에 폭넓게 사용된다. 특히 MuPDF의 파이썬 바인딩인 ‘PyMuPDF(파이뮤피디에프)’는 2016년 첫 출시 이래 전 세계에서 6천만 번 이상 다운로드되었으며, 2023년에는 미국 오픈AI 사의 인공지능 챗봇 ‘챗GPT’의 학습 및 문서 처리용으로 공급되어 인공지능 업계의 주목을 한 몸에 받았다.
새롭게 단장한 ‘MuPDF.com’은 그동안 여러 채널에 흩어져 있던 MuPDF 제품군을 한 자리에 모아 정리, 글로벌 개발자들이 보다 손쉽게 이용할 수 있는 통합 원스톱 플랫폼으로 거듭났다. 2005년 첫 출시 이래 여러 번 업데이트와 세분화를 거친 MuPDF 시리즈의 다양한 기능과 특성을 직관적인 디자인과 상세한 안내 자료를 통해 알기 쉽게 소개한다. 커뮤니케이션 기능 또한 강화됐다. 개발자 및 사용자들의 활발한 의견 공유를 위해 사이트 내에 깃허브(GitHub)를 도입했으며, 제품 및 서비스 이용자 피드백을 받기 위한 디스코드 채널을 개설했다.
이와 더불어 이파피루스는 신제품도 꾸준히 개발해 나갈 예정이다. 기존 보유하고 있던 MuPDF 자바 바인딩 라이브러리 외에 도 Node.js 서버 애플리케이션에 초점을 맞춘 ‘MuPDF.js(뮤피디에프JS)’, C#과 .NET(닷넷) 프레임워크를 사용하는 기업을 타겟으로 한 ‘MuPDF.NET(뮤피디에프닷넷)’ 등을 추후 출시하여 제품 라인업을 확장해 나갈 계획이다.
LLM(대규모 언어 모델, Large Language Models) 특화 제품도 출시했다. LLM이 그럴듯한 오류나 거짓말을 결과로 도출하는 ‘AI 환각’ 현상을 완화해주는 등 ‘팩트체킹’에 활용할 수 있는 효과적인 기술로서 PyMuPDF의 텍스트 추출 기능이 최근 LLM 및 RAG(검색 증강 생성, Retrieval Augmented Generation) 개발자들 사이에서 인기를 끌고 있다. 이러한 수요에 부응하기 위해 이파피루스는 신제품 ‘PyMuPDF4LLM(파이뮤피디에프 포 엘엘엠)’을 출시했다. PDF 문서 내용을 인공지능이 이해할 수 있도록 텍스트 데이터로 정확하고 안정적으로 추출하며, 간단한 몇 줄의 Python 코드로 복잡한 PDF 문서를 손쉽게 마크다운 랭귀지(JSON 포맷)으로 변환한다. LLM 학습에 필요한 마크다운 랭귀지 포맷을 효과적으로 생성하는 데 특화된 제품이며, 개발자 입장에서도 LLM 모델에 적용하기 수월하다는 이점이 있다.
김정희 이파피루스 대표는 “MuPDF(뮤피디에프)를 사용하는데 필요한 모든 정보를 총망라하면서도 이용하기 쉽고 직관적이며, 무엇보다도 전 세계 개발자들과 언제든지 소통할 수 있는 젊고 활기찬 플랫폼을 목표로 했다”며 “어떤 개발 환경에서든 자유자재로 MuPDF(뮤피디에프)를 활용할 수 있도록 지속적으로 제품 강화와 확장에 나설 것”이라고 말했다.
헬로티 김재황 기자 |