아무리 많은 데이터를 학습해도 인공지능(AI)은 사람의 의도를 정확히 이해하지 못하는 경우가 많다. 사람의 선호를 반영하기 위해 활용되는 비교 학습 방식 역시 판단이 모호한 상황에서는 오히려 AI를 혼란스럽게 만드는 한계가 있었다.
KAIST는 전기및전자공학부 김준모 교수 연구팀이 인간의 선호를 효과적으로 반영하면서도 데이터 효율성과 학습 안정성을 크게 높인 강화학습 프레임워크 ‘TVKD(Teacher Value-based Knowledge Distillation)’를 개발했다고 17일 밝혔다.
기존 AI 학습 방식은 ‘A가 B보다 낫다’는 식의 선호 비교 데이터를 대량으로 수집해 모델을 학습시키는 구조였다. 이 과정에서 많은 데이터가 필요하고, 선호 판단이 불명확한 경우 학습 안정성이 떨어진다는 문제가 지속적으로 제기돼 왔다.
연구팀은 이러한 한계를 극복하기 위해, 사람의 선호를 먼저 충분히 학습한 ‘교사(Teacher) 모델’이 핵심 정보를 ‘학생(Student) 모델’에 전달하는 방식을 제안했다. 이는 복잡한 내용을 정리해 설명해 주는 가정교사와 유사한 개념으로, 연구팀은 이를 ‘선호 증류(Preference Distillation)’라고 명명했다.
TVKD의 핵심은 단순히 선택의 결과만을 모방하는 것이 아니라, 각 상황이 지니는 가치를 수치적으로 판단하는 ‘가치 함수(Value Function)’를 교사 모델이 학습한 뒤 이를 학생 모델에 전달하는 구조다. 이를 통해 학생 모델은 단편적인 비교 결과가 아닌, 선택의 맥락과 이유를 종합적으로 고려하며 학습할 수 있다.
이번 기술은 두 가지 측면에서 기존 방식과 차별화된다. 먼저 문맥 전체를 고려한 가치 판단을 학생 모델에 반영함으로써, 개별 응답이 아닌 전체 흐름을 이해하는 학습이 가능해졌다. 또한 선호 데이터의 신뢰도에 따라 학습 중요도를 조절하는 기법을 도입해, 명확한 데이터는 크게 반영하고 모호하거나 잡음이 포함된 데이터는 영향력을 줄이도록 설계했다. 이를 통해 현실적인 환경에서도 안정적인 학습이 가능해졌다.
연구팀이 해당 기술을 다양한 AI 모델에 적용해 성능을 평가한 결과, 기존에 가장 우수하다고 알려진 방법들보다 정확성과 안정성 측면에서 모두 개선된 성과를 보였다. 특히 엠티-벤치(MT-Bench), 알파카-이밸(AlpacaEval) 등 주요 평가 지표에서 기존 최고 성능 기법을 안정적으로 상회하는 결과를 기록했다.
김준모 교수는 “현실 환경에서는 사람의 선호 데이터가 항상 충분하거나 완벽하지 않다”며 “이번 기술은 이러한 제약 속에서도 AI가 일관되게 사람의 의도를 학습할 수 있도록 해 다양한 분야에서 활용 가능성이 높다”고 말했다.
이번 연구에는 KAIST 전기및전자공학부 권민찬 박사과정이 제1저자로 참여했으며, 연구 성과는 국제 인공지능 분야 최고 권위 학회인 신경정보처리시스템학회(NeurIPS) 2025에 채택됐다.
헬로티 이창현 기자 |












































