노타는 비전 언어 모델(Vision-Language Models, VLM)의 고해상도 이미지 처리 효율을 크게 높인 연구 성과가 세계 최고 권위의 인공지능 학회인 ICLR 2026에 채택됐다고 밝혔다.
ICLR은 구글과 메타 등 글로벌 빅테크 기업들이 주력 연구 성과를 발표하는 AI 분야 최정상급 학회로, 올해는 논문 채택률이 약 28%에 그칠 만큼 엄격한 심사가 이뤄졌다. 노타는 이번 채택을 통해 자사의 AI 경량화 및 최적화 연구 역량이 글로벌 표준 수준에서 검증됐다고 설명했다.
이번 연구의 핵심인 ERGO(Efficient Reasoning & Guided Observation) 모델은 고해상도 이미지 처리 과정에서 발생하는 막대한 연산 비용 문제를 해결하는 데 초점을 맞췄다. 기존 VLM이 전체 이미지를 일괄적으로 처리하는 방식에 의존해 연산 부담이 컸던 반면, ERGO는 멀티모달 문맥을 활용해 분석이 필요한 영역을 선별적으로 판단하는 ‘추론 기반 지각(Reasoning-driven Perception)’ 방식을 적용했다.
ERGO는 2단계 Coarse-to-Fine 파이프라인 구조로 동작한다. 먼저 저해상도 이미지로 전체 맥락을 파악한 뒤, 시각적 불확실성이 있거나 정밀 분석이 요구되는 영역만을 선택해 원본 해상도로 확대 분석한다. 이 과정에는 강화학습 기반 보상 시스템이 적용돼, 질문에 답하는 데 가장 적합한 시각 영역을 모델이 스스로 선택하도록 설계됐다.
벤치마크 테스트 결과, ERGO는 최신 AI 모델 대비 시각 토큰 사용량을 23% 수준으로 줄이면서도 높은 정확도를 유지했다. 연산 효율을 크게 개선해 기존 대비 약 3배 빠른 추론 속도를 달성했으며, 이는 VLM 상용화의 주요 과제로 지적돼 온 속도와 비용 문제를 동시에 완화한 성과로 평가된다.
이번 연구 성과는 노타의 VLM 기반 실시간 영상 관제 솔루션인 노타 비전 에이전트의 경쟁력을 강화하는 요소로 작용할 전망이다. 노타 비전 에이전트는 즉각적인 판단이 요구되는 피지컬 AI 환경에 적용되는 솔루션으로, 이번 ERGO 기술을 통해 산업 안전 분야에서의 이상 징후 탐지, 지능형 교통 시스템(ITS)의 실시간 교통 분석 등 다양한 영역에서 활용 범위를 넓힐 수 있을 것으로 기대된다. 고가의 서버 없이도 저사양 엣지 기기에서 고해상도 수준의 정밀 추론을 구현할 수 있다는 점도 특징이다.
노타는 ERGO 기술을 현재 추진 중인 UAE 지능형 교통 시스템 사업을 비롯한 글로벌 프로젝트에 적용해, 실제 물리적 환경에서 안전성과 운영 효율을 높이는 피지컬 AI 구현을 가속화할 계획이다.
채명수 노타 대표는 “이번 ICLR 채택은 노타의 AI 경량화 및 최적화 기술이 단순히 모델 크기를 줄이는 단계를 넘어, AI의 사고 방식을 효율화하는 수준으로 발전했음을 보여준다”며 “ERGO 기술을 노타 비전 에이전트에 적용해 다양한 산업 현장에서 비용 효율성과 정확성을 동시에 갖춘 시각 지능을 제공하겠다”고 말했다.
헬로티 이창현 기자 |





