일반뉴스 한컴, 데이터 로더로 PDF 문서에서 AI 필요한 데이터 추출
PDF에서 텍스트를 추출, AI가 학습하기 쉬운 여러 포맷으로 변환 가능 한글과컴퓨터(이하 한컴)가 PDF 문서에서 AI 데이터를 추출하는 소프트웨어 개발 키트(SDK) ‘한컴 데이터 로더’를 출시하고 본격적인 글로벌 B2B 세일즈에 나선다. 최근 세계 AI 업계에서는 LLM(대규모 언어모델)의 단점인 ‘환각 현상’을 최소화하는 해결책으로 ‘검색 증강 생성(RAG)’ 기술이 떠오르고 있다. RAG는 특정 데이터베이스나 문서 집합으로부터 관련 정보를 검색한 뒤 그 정보를 LLM에 적용해 적절한 답변으로 텍스트를 생성하므로 실시간으로 정보가 업데이트되며 정보의 정확도가 높은 것이 특징이다. 그 때문에 많은 글로벌 기업과 기관이 RAG의 도입을 원하지만, 구조화되지 않은 문서에서는 데이터 추출이 어려운 실정이다. 따라서 기업의 방대한 문서를 AI가 학습하기 좋은 형태로 데이터화하는 전처리 기술이 중요해졌다. 한컴은 지난 35년간 축적한 문서 기술을 바탕으로 문서의 AI 데이터화를 위한 전처리 기술을 모듈화해 ‘한컴 데이터 로더’라는 SDK 제품을 내놓았다. 대표적인 전자문서 형식인 PDF에서 텍스트를 추출, AI가 학습하기 쉬운 여러 포맷(JSON·CSV·TXT·