KAIST 전산학부 윤성의 교수 연구팀과 이화여대 노준혁 교수 연구팀이 영상 속에서 정답을 위해 꼭 필요한 핵심 장면, 즉 ‘Trigger moment’를 스스로 찾아내는 AI 기술을 개발해 국제 대회에서 우수성을 입증했다. KAIST는 두 연구팀이 ICCV 2025에서 열린 Perception Test Challenge의 영상 근거 기반 질의응답(Grounded Video Question Answering) 트랙에서 1위를 차지했다고 28일 밝혔다.
이번 대회는 구글 딥마인드가 주관한 인지 테스트 챌린지로 총 상금 5만유로가 걸려 있으며, 영상·음성·텍스트를 종합적으로 이해하는 멀티모달 AI의 실제 근거 기반 판단 능력을 평가한다. 언어 패턴에 의존해 ‘그럴듯한 답’을 만드는 기존 AI의 한계를 극복하는 것이 핵심 과제로 제시됐다.
연구팀은 영상을 처음부터 끝까지 단순 분석하는 방식 대신, 질문에 답하기 위해 꼭 필요한 장면을 먼저 추출하는 새로운 프레임워크를 설계했다. 연구팀은 이를 CORTEX(Chain-of-Reasoning for Trigger Moment Extraction)라고 명명했다.
CORTEX는 세 모델이 순차적으로 협업하는 구조를 갖춘다. 먼저 Gemini 2.5 Pro가 질문을 분석해 어떤 순간을 봐야 하는지 사고하고 Trigger moment 후보를 찾는다. 이어 Molmo-7B 기반 Grounding 모델이 해당 장면 속 사람·차량·사물의 위치를 정확하게 파악한다. 마지막으로 SAM2 기반 Tracking 모델이 특정 장면을 기준으로 앞뒤 시간대의 객체 움직임을 정밀 추적해 오차를 줄인다.
즉, ‘핵심 장면을 먼저 정확히 찍고, 이후 해당 장면을 중심으로 정답 근거를 추적하는 방식’으로 영상 내 가려짐이나 초반 오판 문제를 최소화했다. 그 결과 KAIST SGVR Lab은 HOTA(Higher Order Tracking Accuracy) 지표에서 0.4968점을 기록해 2위 콜럼비아대(0.4304점)를 큰 격차로 앞섰다. 이는 지난해 우승 기록 0.2704점을 두 배 가까이 상회하는 성과다.
이 기술은 자율주행, 로봇, 보안·감시, 미디어 분석 등에서 실질적 활용 가능성이 크다. 사고 위험 순간을 정확히 감지하거나, 시간 순서에 따른 객체 행동을 정밀하게 추적하는 등 실제 현장 적용 범위를 넓힐 수 있는 기반 기술이기 때문이다.
이번 성과는 ICCV 2025, the 3rd Perception Test Challenge에서 10월 19일 발표됐다. 연구는 과학기술정보통신부 기초연구사업 중견연구, SW스타랩 사업 ‘오픈 월드 로봇 서비스를 위한 불특정 환경 인지·행동·상호작용 알고리즘 개발’, AGI 사업 ‘체화형 AGI를 위한 현실 세계 구축과 인지 에이전트 기반 이원 역량 접근법’의 지원을 받아 수행됐다.
헬로티 이창현 기자 |















































