AI 영상 속 핵심 장면 자동 탐지...KAIST AI 기술, 글로벌 챌린지 석권
KAIST 전산학부 윤성의 교수 연구팀과 이화여대 노준혁 교수 연구팀이 영상 속에서 정답을 위해 꼭 필요한 핵심 장면, 즉 ‘Trigger moment’를 스스로 찾아내는 AI 기술을 개발해 국제 대회에서 우수성을 입증했다. KAIST는 두 연구팀이 ICCV 2025에서 열린 Perception Test Challenge의 영상 근거 기반 질의응답(Grounded Video Question Answering) 트랙에서 1위를 차지했다고 28일 밝혔다. 이번 대회는 구글 딥마인드가 주관한 인지 테스트 챌린지로 총 상금 5만유로가 걸려 있으며, 영상·음성·텍스트를 종합적으로 이해하는 멀티모달 AI의 실제 근거 기반 판단 능력을 평가한다. 언어 패턴에 의존해 ‘그럴듯한 답’을 만드는 기존 AI의 한계를 극복하는 것이 핵심 과제로 제시됐다. 연구팀은 영상을 처음부터 끝까지 단순 분석하는 방식 대신, 질문에 답하기 위해 꼭 필요한 장면을 먼저 추출하는 새로운 프레임워크를 설계했다. 연구팀은 이를 CORTEX(Chain-of-Reasoning for Trigger Moment Extraction)라고 명명했다. CORTEX는 세 모델이 순차적으로 협업하는 구조를 갖춘다