테크노트 KAIST·하이퍼엑셀, 생성형 AI에 특화된 NPU 기술 개발
한국과학기술원(KAIST)은 전산학부 박종세 교수팀과 하이퍼엑셀(전기·전자공학부 김주영 교수 창업기업)이 챗GPT와 같은 생성형 AI에 특화된 고성능·저전력의 신경망처리장치(NPU) 핵심기술을 개발했다고 4일 밝혔다. 챗GPT4나 제미나이 2.5 등 최신 생성형 AI 모델들은 메모리 용량을 많이 필요로 하기 때문에 마이크로소프트나 구글 등 생성형 AI 클라우드 운영기업들은 엔비디아의 그래픽처리장치(GPU)를 수십만장씩 구매하고 있다. NPU는 인공신경망을 이용해 AI 연산에 특화된 반도체로 GPU 대비 저전력으로도 높은 효율을 낼 수 있어 GPU를 대체할 기술로 주목받고 있다. 연구팀은 메모리 사용의 대부분을 차지하는 ‘KV 캐시’(생성형 AI 모델을 작동할 때 성능을 높이기 위해 사용하는 임시 저장 공간)의 양자화를 통해 적은 수의 NPU 디바이스만으로 동일 수준의 AI 인프라를 구성, 생성형 AI 클라우드 구축 비용을 절감할 수 있는 기술을 개발했다. AI 처리 시스템은 보다 뛰어난 추론 서비스를 제공하기 위해 처리해야 하는 요청의 수와 길이가 증가하고, 이 때문에 생성형 AI 모델의 추론 과정에서 생성되는 KV캐시가 커지면서 메모리 병목으로 이어지게 된