닫기
배너

KAIST, 제미나이 등 전문가 혼합 AI의 구조적 보안 리스크 규명

URL복사

 

구글 제미나이(Gemini)를 비롯한 주요 상용 거대언어모델(LLM)이 효율성 향상을 위해 채택하고 있는 ‘전문가 혼합(Mixture-of-Experts, MoE)’ 구조가 새로운 보안 위협이 될 수 있다는 사실이 국내 연구진에 의해 세계 최초로 규명됐다.

 

KAIST는 전기및전자공학부 신승원 교수와 전산학부 손수엘 교수 공동연구팀이 전문가 혼합 구조의 근본적인 보안 취약성을 악용한 공격 기법을 처음으로 제시하고, 해당 연구로 정보보안 분야 최고 권위 국제 학회인 ACSAC 2025에서 최우수논문상(Distinguished Paper Award)을 수상했다고 26일 밝혔다.

 

MoE 구조는 하나의 대형 AI 모델 대신 여러 개의 ‘작은 전문가 AI 모델’을 두고, 입력 상황에 따라 일부 전문가만 선택적으로 호출하는 방식이다. 구글의 제미나이를 포함해 다수의 최신 LLM이 이 구조를 활용하고 있다.

 

연구팀은 이번 연구에서 공격자가 상용 LLM의 내부 구조에 직접 접근하지 않더라도, 단 하나의 악의적으로 조작된 ‘전문가 모델’이 오픈소스로 유통돼 혼합 구조에 포함될 경우, 전체 거대언어모델의 안전성이 심각하게 훼손될 수 있음을 실증적으로 입증했다. 정상적인 전문가들 사이에 단 하나의 악성 전문가가 존재하기만 해도, 특정 조건에서 해당 전문가가 반복적으로 선택되며 위험한 응답이 생성될 수 있다는 것이다.

 

특히 이러한 공격은 모델의 전반적인 성능 저하를 거의 유발하지 않아 사전에 이상 징후를 탐지하기 어렵다는 점에서 위험성이 크다. 실험 결과, 연구팀이 제안한 공격 기법을 적용했을 때 유해 응답 발생률은 기존 0%에서 최대 80%까지 증가했으며, 다수의 전문가 가운데 하나만 감염돼도 전체 모델의 안전성이 크게 저하되는 것으로 확인됐다.

 

이번 성과는 오픈소스 기반 거대언어모델 개발이 확산되는 글로벌 환경에서, 기존에 주목받지 않았던 구조적 보안 리스크를 최초로 제시했다는 점에서 의미가 크다. 동시에 향후 AI 모델 개발 과정에서 성능 최적화뿐 아니라, 개별 전문가 모델의 출처 검증과 보안성 평가가 필수 요소로 고려돼야 함을 시사한다.

 

 

신승원 교수는 “효율성을 이유로 빠르게 확산 중인 전문가 혼합 구조가 새로운 공격 표면이 될 수 있음을 실증적으로 확인했다”며 “이번 연구와 수상은 인공지능 보안의 중요성이 국제적으로 인정받았다는 점에서 의미가 크다”고 밝혔다.

 

이번 연구에는 KAIST 전기및전자공학부 김재한·송민규 박사과정, 나승호 박사, 신승원 교수, KAIST 전산학부 손수엘 교수가 참여했으며, 연구 결과는 2025년 12월 12일 미국 하와이에서 열린 ACSAC 2025에서 발표됐다. 연구는 과학기술정보통신부의 한국인터넷진흥원(KISA)과 정보통신기획평가원(IITP)의 지원을 받아 수행됐다.

 

헬로티 이창현 기자 |
















배너


주요파트너/추천기업