미소정보기술이 VLM(Vision Language Model) 기반 3세대 OCR(광학 문자 인식) ‘ViiX(빅스)’를 출시한다고 17일 밝혔다.
이번에 출시하는 ‘빅스'는 병원 의료기록, 제조, 건설 문서등 산업 현장에서 생성되는 다양한 문서를 LLM을 통해 이해하고 데이터로 변환하는 도메인 특화 최신 OCR(광학 문자 인식)솔루션이다.
최근 기업 데이터의 대부분이 문서·이미지·도면 등 비정형 데이터 형태로 생성되면서 이를 자동으로 이해하고 활용하는 도큐먼트(Document)AI 시장이 빠르게 성장하고 있다. 특히 생성형 AI와 VLM 기술 발전으로 OCR 기술은 단순 문자 인식을 넘어 문서 구조와 의미까지 이해하는 지능형 문서 AI 단계로 진화하고 있다.
빅스는 이러한 변화에 대응해 문서의 레이아웃, 서체, 공간적 구조, 문맥(Context)까지 분석하는 기술을 적용했다. 이를 통해 단순 텍스트 인식을 넘어 문서를 데이터로 구조화하고 검색, 분석, 업무 자동화까지 연결하는 AI 기반 문서 처리 환경을 제공한다.
기존 1세대 OCR은 문자 인식 중심, 2세대 OCR은 딥러닝 기반 표 영역 인식 및 필드 추출 등을 지원했으나 신규 문서 양식이 추가될 때마다 재학습이 필요하고, 예외 케이스 처리 비용이 증가하는 한계가 있었다. 특히 의료 기록이나 제조, 건설 문서과 같은 전문 문서에서는 문맥 정보와 구조 이해 부족으로 정확도 문제가 발생하는 경우가 많았다.
3세대 OCR 빅스는 문서의 문맥과 구조를 함께 분석하는 방식으로 키-정보(Key-Value) 추출 정확도를 높였다. 또한 HITL(Human in The Loop) 기반 학습 구조를 적용해 AI가 확신하지 못하는 데이터만 선별적으로 검수 요청을 수행하고 이를 통해 지속적으로 모델 성능을 개선하는 자가 진화(Self-learning) 구조를 구현했다.
미소정보기술은 여기에 20년간 의료·제조·건설 산업 현장에서 축적한 도메인 데이터를 기반으로 전문 학습 레이어를 적용한 도메인 특화 AI 모델을 구축했다. 또한 자체 개발한 자연어 처리(NLP)기술 ‘Smart TA(Text Analysis)’와 AI 모델 개발 및 운영 자동화 플랫폼 ‘액틱(ACTIC)’을 연계해 문서 인식 이후 데이터 분석 및 업무 자동화까지 확장 가능한 구조를 제공한다.
빅스는 제로샷(Zero-Shot) 기반 문서 이해 기술을 적용해 별도의 라벨링 없이도 다양한 문서 양식에 대응할 수 있도록 개발됐다. 이를 통해 작업지시서, 진료기록, 보험청구서, 계약서 등 산업 현장에서 생성되는 문서를 자동으로 분석하고 필요한 정보를 추출해 문서 처리 자동화를 지원하며, 제조, 의료, 건설 등 다양한 산업 분야에서 활용될 수 있다.
미소정보기술은 정부로부터 ‘스마트팩토리 전문기업’ 인증과 기술사업성 평가 ‘AAA’ 최고 등급을 획득했으며, 현대제철, 에코프로, 롯데건설 등 제조 기업과 식약처 GMP인증, 연세의료원, 강북삼성병원, 전남대병원 등 의료기관을 대상으로 데이터 플랫폼 구축 경험을 축적해 왔다.
미소정보기술 남상도 대표이사는 “빅스는 미소정보기술이 지난 20년간 산업 현장에서 축적한 도메인 지식을 AI 기술로 체계화한 결과물”이라며 “문서를 단순히 읽는 수준을 넘어 문서에 담긴 비즈니스 맥락을 이해하고 현장에서 업무 자동화를 구현하는 문서 AI 시대를 열어가겠다”고 말했다.
한편, 글로벌 시장조사 기관 모더 인텔리전스에 따르면 글로벌 OCR 시장은 약 170억 달러(약25조) 규모에서 올해 약 200억 달러까지 확대될 것으로 전망되며, 국내 시장 역시 약 1조9000억 원에서 2조2000억 원 규모로 성장할 것으로 예상된다.
특히 반도체·제조 공정, 의료 보험 청구 심사, 건설 프로젝트 문서 관리 등 산업 전반에서 문서 데이터 처리와 자동화 수요가 빠르게 증가하고 있어 OCR 기술의 활용 범위가 확대되고 있다. 이러한 흐름 속에서 의료·제조·건설 등 데이터 기반 산업에서 강점을 보유한 미소정보기술의 OCR 시장 진출은 새로운 성장 동력 확보로 이어질 것으로 기대된다.
헬로티 이동재 기자 |
















































