AI 성능을 오랫동안 제약해온 '메모리 병목' 문제가 차세대 알고리즘으로 돌파구를 찾았다.
KAIST(총장 이광형) 전기및전자공학부 한인수 교수가 참여한 구글 리서치(Google Research)·딥마인드(DeepMind)·뉴욕대(New York University) 공동 연구팀이 AI 모델의 메모리를 최대 6배까지 줄이면서도 성능 저하를 거의 없앤 차세대 양자화 알고리즘 '터보퀀트(TurboQuant)'를 공개했다.
AI 모델은 입력 데이터를 벡터 형태로 변환한 뒤 벡터 간 유사도를 계산하는 방식으로 작동하는데, 이 과정에서 고정밀(high-precision) 데이터를 사용하기 때문에 막대한 메모리 자원이 소모된다는 점이 고질적인 한계로 지적돼 왔다. 터보퀀트는 이러한 고정밀 데이터를 더 적은 비트로 압축하는 '양자화(quantization)' 기술을 핵심으로 한다. 소수점 데이터를 정수로 근사하는 방식으로 핵심 정보는 유지하면서 저장 용량과 연산 부담을 동시에 줄이는 원리다.
터보퀀트의 기술적 핵심은 두 단계로 나뉜다. 1단계에서는 입력 데이터를 무작위로 회전(Random Rotation)시킨 뒤 각 요소를 개별적으로 양자화해 데이터 내 극단값(outlier)을 줄이고 압축 효율을 높인다. 이 방식은 한인수 교수가 참여한 선행 연구 '폴라퀀트(PolarQuant)'에서도 활용된 기법이다. 2단계에서는 1단계에서 발생한 오차(residual)를 다시 양자화하는데, 이때 적용되는 QJL(Quantized Johnson-Lindenstrauss) 기법이 데이터를 {-1, 1} 값만으로 표현하는 초경량 1비트 방식으로 정보 손실을 최소화하면서도 연산 효율을 극대화한다.
이번 성과의 파장은 AI 알고리즘 연구에 그치지 않는다. 전문가들은 낮아진 메모리 문턱이 스마트폰·가전 등 온디바이스 AI 기기부터 대규모 데이터센터에 이르기까지 AI 적용 범위를 비약적으로 넓히는 'AI 대중화의 기폭제'가 될 것으로 보고 있다. 단기적으로는 동일한 AI 모델 구동에 필요한 메모리 용량이 줄어드는 것처럼 보이지만, AI 서비스가 일상으로 광범위하게 확산되면서 훨씬 더 큰 규모의 새로운 메모리 수요가 창출되는 '수요의 질적 고도화'와 '양적 팽창'이 동시에 일어날 것이라는 전망이다. 특히 국내 연구진인 한인수 교수가 구글·딥마인드 등 글로벌 빅테크의 핵심 AI 알고리즘 개발에 직접 기여했다는 점에서 의미가 크다.
한인수 교수는 "AI 모델의 성능이 커질수록 메모리 사용량이 급격히 증가하는 것이 가장 큰 한계였는데, 이번 연구는 그 병목을 효과적으로 줄이면서도 정확도를 유지할 수 있는 새로운 방향을 제시했다"며 "대규모 AI 모델을 보다 효율적으로 운영할 수 있는 핵심 기반 기술로 활용될 것으로 기대한다"고 밝혔다.
한편 선행 연구인 폴라퀀트는 오는 5월 머신러닝 이론 분야 국제 최상위 학회 AISTATS 2026에서 발표될 예정이다.
헬로티 김재황 기자 |





