생성형 AI의 성능을 가르는 핵심 요소로 ‘데이터 품질’이 부상하면서 데이터 전처리 기술의 중요성이 더욱 커지고 있다. 글로벌 시장조사기관 마켓앤마켓에 따르면 AI 학습 데이터 세트 시장은 연평균 27.7% 성장해 2029년 95억 8천만 달러 규모에 이를 전망이다. 시장 확대와 함께 AI의 신뢰도와 정확성은 LLM 자체보다 학습 데이터의 품질에 달려 있다는 점이 부각되고 있다. 잘못된 데이터는 AI의 ‘환각 현상(Hallucination)’을 유발해 결과물의 신뢰도를 떨어뜨리기 때문이다. 이러한 흐름 속에서 사이냅소프트는 AI 문서 구조 분석 솔루션 ‘사이냅 도큐애널라이저’를 효율적으로 공급하고 있다. 이 솔루션은 원본 문서의 구조와 맥락을 분석해 AI가 이해하기 가장 적합한 형태로 데이터를 변환·정제하는 역할을 한다. 단순 텍스트 추출을 넘어 문서의 제목·표·이미지·단락 등 시각적 구성과 논리적 순서를 식별하는 정교한 시각적 구조 분석(VSA) 기술을 갖췄다. 분석된 데이터는 마크다운(MD), JSON 등 정형 데이터로 변환되어 맥락을 보존하면서 LLM 학습 효율을 극대화한다. 사이냅 도큐애널라이저는 이미 다양한 산업 현장에서 활용되고 있다. 최근 한국주
테스트웍스는 30일인 오늘 구축된 데이터 셋의 오류를 검증 및 분석하는 인공지능 데이터 품질 검증 전문 도구인 ‘ADQ’ 베타버전을 발표했다. 인공지능의 서비스 상용화 및 성능 향상을 위한 품질 좋은 데이터 확보를 위해서는 데이터 구축 시점부터 품질에 대한 지속적인 관리가 필요하지만, 국내 인공지능 데이터 품질 검증은 초기 단계며 표준화된 방법이 없는 상황이다. 인공지능 데이터 셋 구축 업체들이 자체 개발한 다양한 라벨링 도구가 있지만 대부분의 도구는 데이터 라벨링과 라벨링 자동화 그리고 라벨러의 작업 관리에 초점이 맞춰져 있다. 데이터 품질에 대한 검증 및 지속적인 관리를 위해서는 구축 시점부터 데이터 검증을 위한 프로세스 수립을 시작으로 검증 작업 관리, 검증 후 결과 분석 보고서를 제공하는 전문 도구가 필요하다. 테스트웍스의 ADQ는 인공지능 데이터 품질 검증에 최적화된 도구로 구축된 데이터 셋의 오류 여부를 검증하고 관련 분석 정보를 제공한다. 이를 통해 인공지능 모델의 고품질 학습 데이터 셋 구축 및 관리에 필요한 시간 및 비용 절감에 기여할 것으로 보인다. ADQ는 인공지능 데이터 품질 검증을 수행해야 하는 기업 및 기관의 현업에서 겪는 어려움을