문서 분석 플랫폼 ‘도큐먼트.AI API(Document.AI API)’ 공식 출시
수식·표·차트·섹션 등 문서 구조 정밀 분석·보존 기능 탑재
거대언어모델(LLM)·검색증강생성(RAG) 기반 시스템 핵심 전처리 기술 제공해
인터엑스가 제조·공공·연구기관을 타깃으로 한 문서 구조화 전처리 서비스 ‘도큐먼트.AI API(Document.AI API)’를 시장에 내놨다.
현시점 각종 기업 데이터의 상당 부분은 PDF, 스캔 이미지, 보고서 등 형식·구조가 제각각인 비정형 문서 형태로 내부 시스템에 저장돼 있다. 이는 기업 디지털 전환(DX) 프로젝트에서 가장 많은 자원이 투입되는 상황을 야기한다.
이 서비스는 수식(Formula), 중첩 표(Table), 차트(Image) 등이 혼재된 복잡한 기술 문서를 정밀하게 분석·구조화하는 기술이다. 이 핵심 전처리 기능을 응용 프로그램 인터페이스(API) 형태로 제공한다. 이로써 챗봇, 문서 검색, 사내 포털 등 시스템 구축에 필수적인 거대언어모델(LLM)·검색증강생성(RAG) 기술 기반 데이터 변환 과정을 지원한다. 해당 서비스를 활용함으로써 기업 내 다양한 문서를 이해 가능한 구조화 데이터로 변환할 수 있다.
사측은 이를 ‘문서 구조화 전처리’로 규정하고 이번 API 서비스를 서비스형 소프트웨어(SaaS) 형태로 외부에 개방했다. 이는 텍스트 추출, 표, 수식, 차트, 섹션 구조를 그대로 보존하도록 유도한다. 이를 통해 검색이나 내부 시스템 연계가 가능한 JSON·HTML·Markdown 등 형태로 변환하도록 돕는다. 이들 형식은 데이터를 구조화하거나 문서를 정의하는 데 사용되는 핵심이다.
이 가운데 도큐먼트.AI API는 제조·엔지니어링 분야 문서에 특화된 정밀 분석 성능을 탑재했다. 설비 점검표, 품질 성적서, 시험 성적서, 연구개발(R&D) 보고서 등 형태가 혼재된 복잡한 문서를 정밀하게 분석·보존한다.
특히 인터엑스는 페이지 경계에 걸쳐 분리된 표(Multi-page Table)의 의미를 통합해 단일 표로 자동 병합하는 기능을 강조한다. 이러한 기술 역량은 기술 보고서, 품질 문서 처리 문서 등의 정확도를 높인다. 또한 회사 측은 엔지니어·연구자 등 이해관계자가 대규모 데이터를 정밀하게 구문 분석(Parsing)하는 역할에 집중했다고 설명했다.
이번 도큐먼트.AI 서비스는 제조 산업 현장 조직, LLM·RAG 솔루션 기술 업체, 시스템통합(SI) 프로젝트 담당자, 정부·공공·연구기관 DX 조직 등을 주요 타깃으로 한다. 이들은 복잡한 파싱 엔진을 자체 개발할 필요 없이, 각 분야 문서에 특화된 전처리 엔진을 API 형태로 바로 차용해 활용할 수 있다.
서비스는 가입 즉시 100 크레딧(Credit) 제공 혜택을 제공하며, 인터엑스 홈페이지와 아마존웹서비스(AWS) 마켓플레이스를 통해 이용 가능하다.
인터엑스 관계자는 “이 서비스는 문서 때문에 정체된 프로젝트를 재가동하게 하는 문서 구조화 전처리 SaaS 솔루션”이라며 “현장에서 축적한 문서 이해 기술을 개방함으로써 복잡한 문서를 다루는 현장 인력이 가장 먼저 효율을 체감하는 서비스로 지속 고도화할 것”이라고 전했다.
헬로티 최재규 기자 |













































