카카오가 국내 최초로 텍스트, 음성, 이미지 등 다양한 정보를 동시에 이해하고 처리할 수 있는 통합 멀티모달 언어모델 ‘카나나(Kanana)-o’를 공개했다. 1일 자사 테크 블로그를 통해 성능과 개발 후기까지 상세히 공개하며 기술적 진화를 강조했다. 카나나-o는 기존의 텍스트 기반 언어모델을 넘어, 음성과 이미지를 동시에 입력받아 의미를 분석하고 이에 맞는 텍스트나 음성으로 응답을 생성할 수 있는 모델이다. 카카오는 이미지에 특화된 모델 ‘카나나-v’와 오디오 처리에 특화된 ‘카나나-a’를 병합하는 방식으로 멀티모달 통합 모델을 단기간 내 구축했다. 특히 이번 모델은 한국어에 특화된 데이터셋을 기반으로 지역 방언, 억양, 어미 변화를 정밀하게 반영했다. 이를 통해 제주도, 경상도 등 지역 방언을 표준어로 자연스럽게 변환하는 능력을 갖췄으며, 해당 방언으로도 정확한 감정 인식이 가능하다. 카카오는 카나나-o가 한국어 및 영어 벤치마크에서 글로벌 최고 수준의 성능을 기록했으며, 특히 한국어 기반 벤치마크에서는 높은 우위를 보였다고 설명했다. 감정 인식 부문에서는 양 언어 모두에서 높은 정확도를 보이며, 단순 응답을 넘어 감정 기반 소통이 가능한 AI의 가능성을
서울 AI 허브(센터장 박찬진)가 AI Seoul Fellow 사업을 통해 스타트업의 AI 연구 지속성과 후속 지원을 강화할 계획이라고 27일 밝혔다. AI Seoul Fellow 사업은 스타트업이 직면한 AI 기술적 난제를 해결하기 위해 최적의 연구자를 매칭하고 공동 연구를 지원하는 프로그램이다. 최근 종료된 2차 연도 사업에서는 10개 스타트업과 연구자가 협력해 논문 출판, 특허 출원, 기술 고도화, 투자 유치 등 다양한 성과를 거뒀다. 서울 AI 허브는 이를 바탕으로 연구자 네트워크를 확장하고 기업 맞춤형 연구자 매칭을 강화할 계획이다. 이번 AI Seoul Fellow 사업에는 △스튜디오 프리윌루전(서울대 장병탁 교수) △플래닝고(서울대 차지욱 교수) △지식과사업(KAIST 양은호 교수) △펫나우(연세대 박태영 교수) △왓섭(이화여대 주원영 교수) △로민(한양대 백성용 교수) △맞추다(중앙대 김준영 교수) △인졀미(충북대 정지훈 교수) △아티피셜 소사이어티(한국전자기술연구원 박전규 박사) △브이다임(한국전자기술연구원 박민규 박사) 등 10개 기업이 참여했다. 참여 기업들은 연구자 협력을 통해 AI 기술을 개선하고 연구 성과를 제품 개발과 사업화로 연결