문의 65%가 문서 AI 기술 관련 내용..전년 대비 2배 이상 증가
이파피루스가 AI 특화 문서 데이터 추출 기술을 앞세워 시장 확대를 위한 전략을 밝혔다.
이파피루스는 올해 1분기 글로벌 고객 문의 중 65%가 문서 AI 기술에 관련된 내용으로, 전년 동기 대비 2배 이상 증가했다고 발표했다. 특히 지난 연말 오픈AI의 ‘챗GPT’에 학습 및 문서 처리 서비스를 위한 PDF 기술을 공급하면서 오픈AI의 기업 고객까지 해당 기술을 사용하게 되는 등 AI 업계에서의 영향력을 한층 강화했다.
이파피루스 김정희 대표는 “텍스트 데이터를 AI가 이해하는 형태로 추출하는 기술은 대규모언어모델(LLM)이나 RAG(Retrieval Augmented Generation)와 같은 자연어 처리 모델의 훈련 및 활용에 필수적”이라며 “과거엔 텍스트 추출 기술이 소수의 LLM 훈련 기업에만 수요가 있었다면 최근엔 LLM을 직접 활용하고자 하는 일반 기업까지 시장이 크게 확대됐다. 이에 LLM 학습을 위한 텍스트 추출 기술 수요도 함께 증가했다”고 전했다.
LLM에 대한 수요 증가는 LLM과 RAG의 결합으로 이뤄졌다. LLM을 활용한 AI 솔루션은 그럴듯한 오류나 거짓말을 결과로 도출하는 AI 환각 문제를 가지고 있었다. 그러나 학습 데이터에 없는 새로운 지식을 활용할 수 있는 RAG와의 결합을 통해 AI 환각 현상을 보완하게 됐고, 이러한 기술의 발전이 LLM 사용 대중화로 이어졌다. 이파피루스는 이러한 수요의 증가에 맞게 핵심 기술인 ‘LLM특화 텍스트 추출’로 사업을 확장할 전망이다.
LLM 특화 텍스트 추출은 PDF 문서에서 안정적으로 텍스트를 추출하는 이파피루스의 기술로, 추출 내용의 정확도는 물론 문서를 학습할 때 소모되는 LLM 토큰 사용도 최소화한다. LLM 학습에 필요한 메타 데이터를 효과적으로 생성하는 기술로 알려져 있다. 이파피루스는 PDF 처리 기술 ‘파이뮤PDF(PyMuPDF)’를 기반으로 텍스트 추출 기술력을 바탕으로 AI 기술의 발전과 활용에 있어 중추적인 역할을 수행하고 있다.
헬로티 서재창 기자 |