AI 카카오, ‘카나나-o’로 멀티모달 AI 진입...주요 모델과 정면 승부
카카오가 국내 최초로 텍스트, 음성, 이미지 등 다양한 정보를 동시에 이해하고 처리할 수 있는 통합 멀티모달 언어모델 ‘카나나(Kanana)-o’를 공개했다. 1일 자사 테크 블로그를 통해 성능과 개발 후기까지 상세히 공개하며 기술적 진화를 강조했다. 카나나-o는 기존의 텍스트 기반 언어모델을 넘어, 음성과 이미지를 동시에 입력받아 의미를 분석하고 이에 맞는 텍스트나 음성으로 응답을 생성할 수 있는 모델이다. 카카오는 이미지에 특화된 모델 ‘카나나-v’와 오디오 처리에 특화된 ‘카나나-a’를 병합하는 방식으로 멀티모달 통합 모델을 단기간 내 구축했다. 특히 이번 모델은 한국어에 특화된 데이터셋을 기반으로 지역 방언, 억양, 어미 변화를 정밀하게 반영했다. 이를 통해 제주도, 경상도 등 지역 방언을 표준어로 자연스럽게 변환하는 능력을 갖췄으며, 해당 방언으로도 정확한 감정 인식이 가능하다. 카카오는 카나나-o가 한국어 및 영어 벤치마크에서 글로벌 최고 수준의 성능을 기록했으며, 특히 한국어 기반 벤치마크에서는 높은 우위를 보였다고 설명했다. 감정 인식 부문에서는 양 언어 모두에서 높은 정확도를 보이며, 단순 응답을 넘어 감정 기반 소통이 가능한 AI의 가능성을