카카오가 지식 기반의 일반 대화와 추론 모드를 모두 지원하는 하이브리드 멀티모달 언어모델을 통해 자체 AI 기술의 우수성을 지속 입증했다. 카카오(대표이사 정신아)는 지난 5일 가벼운 일상 대화부터 논리적 사고가 필요한 복잡한 문제 해결까지 하나의 모델로 처리할 수 있는 자체 개발 신규 AI 모델 'Kanana-v-4b-hybrid'의 성능을 공개했다고 밝혔다. 새로운 모델은 지난해 7월 허깅페이스를 통해 오픈소스로 공개한 'Kanana-1.5-v-3b'를 토대로 개발됐다. 단순히 이미지를 텍스트로 변환하거나 이를 설명하는 수준을 넘어 사람처럼 정보를 종합하고 계산하며 스스로 검산하는 자기 점검 과정을 거치는 것이 특징이다. 이를 통해 인공 지능 모델이 가진 환각 현상을 최소화할 수 있으며, 이 밖에도 복잡한 형태의 표나 영수증, 수학 문제 등 까다롭고 복합적인 문제나 상황에서 발생하기 쉬운 계산 실수나 조건 누락을 획기적으로 줄이고 정확도를 한층 높였다. Kanana-v-4b-hybrid 모델의 높은 성능을 위해 카카오는 단계별로 정교하게 설계된 학습 과정을 적용했다. ▲기초 학습 ▲장문 사고 사슬(Long CoT) ▲오프라인 강화학습 ▲온라인 강화학습으로
플리토가 과학기술정보통신부 주관 ‘독자 AI 파운데이션 모델 프로젝트 1차 발표회’에 공식 참석해 고품질 데이터 기술 역량을 입증했다. 이번 발표회는 서울 강남구 코엑스 오디토리움에서 열렸으며 국가대표 AI 개발을 추진 중인 컨소시엄의 중간 성과를 대외에 공개하는 자리로 마련됐다. 행사에는 업스테이지, 네이버클라우드, SK텔레콤, NC AI, LG AI연구원 등 5개 컨소시엄 주관사가 참여했으며, 정부 관계자와 업계 전문가 200여 명이 참석해 기술 성과와 향후 방향성을 공유했다. 플리토는 업스테이지 컨소시엄 멤버사 가운데 유일하게 1차 발표회에 공식 참가했다. 현장에서는 업스테이지 컨소시엄이 개발 중인 대형언어모델 ‘Solar open 100B’를 플리토의 AI 통번역 솔루션 ‘챗 트랜스레이션(Chat Translation)’에 접목해 직접 시연을 진행했다. 이를 통해 Solar open 100B 모델이 실제 서비스 환경에서 응용 솔루션으로 구현되는 과정을 공개했다. 시연 결과 Solar open 100B는 한국어 특화 성능에서 글로벌 빅테크 모델과 비교해 경쟁력을 보였다는 평가를 받았다. 업스테이지는 산업별 응용 서비스를 통한 확산 전략과 국내 AI 생태
오픈AI가 차세대 플래그십 모델 ‘GPT-5’를 출시했다. 이번 모델은 전작 대비 정확성, 속도, 활용성을 모두 끌어올린 통합형 프런티어 AI로, 별도의 모델 선택 없이 최적의 답변을 제공하도록 설계됐다. GPT-5는 추론 과정에서의 오류(환각)를 줄여 신뢰성과 정확성을 높였으며, 새로운 안전 응답 기능을 도입했다. 이를 통해 사용자의 질문이 민감하거나 제한적인 경우에도 단순 거부 대신 가능한 범위 내에서 도움을 제공하고, 지원이 어려운 경우 그 이유를 명확히 설명한다. 코딩 분야에서는 지금까지 공개된 모델 중 최고 성능을 보이며, 프론트엔드 디자인에도 강점을 갖췄다. 코딩 경험이 없는 사용자도 웹사이트, 앱, 게임을 손쉽게 제작할 수 있다. 글쓰기 기능 역시 문맥 적응력과 표현력을 개선해 실제 업무 환경에서의 활용도가 높아졌다. 헬스케어 영역에서는 건강 관련 질문에 대한 이해도와 설명 능력이 향상됐다. 검사 결과 해석, 진료 전 질문 준비, 치료 옵션 비교 등 의료 의사결정 지원 기능이 강화됐다. 다만 OpenAI는 GPT-5가 의료 전문가를 대체하지 않는다는 점을 분명히 했다. GPT-5는 모든 사용자 계층에 배포된다. 무료 사용자도 GPT-5와 경량 버
SK텔레콤(SKT)이 자체 개발한 LLM ‘A.X(에이닷 엑스)’를 기반으로 한 시각-언어모델(VLM)과 대규모 문서 해석 기술을 29일 공개하며 멀티모달 AI 경쟁력 강화에 나섰다. 이번 발표는 기업용 인공지능 활용도를 높이기 위한 기술 확장의 일환으로, 오픈소스 커뮤니티인 허깅페이스(Hugging Face)를 통해 두 가지 모델을 누구나 활용할 수 있도록 공개했다. 공개된 모델은 시각-언어모델 ‘A.X 4.0 VL Light’와 문서 해석용 인코더 ‘A.X Encoder’다. SKT는 이 두 기술을 통해 자체 LLM 생태계 확장은 물론 산업 전반에서 LLM 활용의 실용성과 범용성을 끌어올릴 계획이다. ‘A.X Encoder’는 LLM 학습과 실전 문서 처리에 특화된 고성능 인코더로, 문맥 파악과 정보 해석에 핵심적인 역할을 수행한다. 총 1억 4천9백만 개의 매개변수를 탑재한 이 모델은 한국어 자연어 처리 벤치마크 KLUE에서 평균 85.47점을 기록해, 글로벌 오픈소스 기준 성능지표를 상회했다. 특히 KLUE의 RoBERTa-base(80.19점)를 능가하는 수준으로, 한국어 해석 능력에서 세계 최고 수준의 성능을 입증했다. A.X Encoder는 최대
SK텔레콤이 독자 개발한 대규모 언어모델(LLM) ‘A.X 3.1’을 글로벌 오픈소스 플랫폼인 허깅페이스(Hugging Face)에 공개하며, 국내 AI 생태계의 기술 자립에 속도를 내고 있다. A.X 3.1은 SK텔레콤이 처음부터 직접 모델 아키텍처를 설계하고 데이터 학습까지 자체 수행한 프롬 스크래치(From Scratch) 방식으로 개발됐다. 총 340억 개 매개변수(34B)를 갖춘 이 모델은 전작인 A.X 3.0에서 한국어 대화 성능을 강조했던 방향에서 한 단계 진화해, 코드 이해와 수학 처리 능력을 강화해 추론 모델로의 확장 가능성을 높인 것이 특징이다. 이번에 공개된 A.X 3.1은 표준형과 경량형 두 가지 버전으로 제공되며, 앞서 공개된 A.X 4.0(72B) 시리즈와 함께 총 네 개 모델이 오픈소스로 활용 가능해졌다. 특히 A.X 3.1은 매개변수 수에서는 절반 수준이지만, 동일한 한국어 서비스 환경에서 약 90%에 달하는 성능을 보이는 것으로 평가됐다. 실제로 한국어 언어이해 평가 지표인 KMMLU에서는 A.X 3.1이 69.2점을 기록해 A.X 4.0의 78.3점 대비 88% 성능을 보였으며, 문화·언어 맥락 이해를 측정하는 CLIcK 평가
이달 중 340억 매개변수 규모의 A.X 3.1 대형 모델도 추가 발표 예정 SK텔레콤(이하 SKT)이 오픈소스 플랫폼 허깅페이스에 독자 구축한 한국형 LLM(대규모 언어모델) ‘A.X 3.1 라이트’를 공개하며, 경량 모델 중심의 AI 기술 생태계 확장에 본격 시동을 걸었다. 이번 모델은 SKT가 설계부터 학습까지 전 과정을 ‘프롬 스크래치(From Scratch)’ 방식으로 자체 개발한 70억 매개변수(7B) 규모의 경량화 LLM이다. A.X 3.1 라이트는 기존에 에이닷 통화 요약 기능에 적용됐던 A.X 3.0 라이트의 성능을 한층 업그레이드한 버전이다. 모바일 기기 등 사양이 다양한 환경에서도 낮은 전력 소비와 높은 처리 효율을 유지하며 작동할 수 있도록 설계돼, 국내외 다양한 기업 환경에서 AI 기술의 실질적 도입을 지원할 것으로 기대된다. 특히 동일한 파라미터 규모의 자매 모델인 ‘A.X 4.0 라이트’와 비교해도 손색없는 성능을 보여줬다. 한국어 멀티태스크 평가 지표인 KMMLU에서 61.70점을 기록해 64.15점을 기록한 A.X 4.0 라이트 대비 96% 수준의 성능을 보였고, 한국어 문화 이해를 평가하는 CLIcK 벤치마크에서는 오히려 10
텍스트·이미지 동시 이해 및 정보를 종합적으로 추론하는 멀티모달 기능 보유 네이버가 고도화한 추론형 멀티모달 인공지능(AI) 모델 ‘하이퍼클로바X 씽크(HyperCLOVA X Think)’를 공개하며, 초거대 AI 기술 경쟁에 다시 한 번 시동을 걸었다. 이 모델은 언어뿐 아니라 시각 정보를 기반으로 사고하고 추론할 수 있는 능력을 갖춘 차세대 생성형 AI로, 국내외 주요 벤치마크에서 뛰어난 성과를 거두며 기술력을 입증했다. 네이버는 6월 30일 하이퍼클로바X 씽크의 개발을 완료하고, 모델 설계 및 성능에 대한 세부 내용을 담은 테크니컬 리포트를 발표했다. 특히 한국어 자연어처리(NLP) 벤치마크인 ‘KoBALT-700’ 기준으로 측정한 결과, 동일 규모의 국내외 추론 모델과 오픈소스 LLM을 모두 상회하는 성능을 보였다고 밝혔다. 이번에 공개된 모델은 단순한 언어 처리 능력에 머무르지 않는다. 텍스트와 이미지를 동시에 이해하고, 주어진 정보를 종합적으로 추론하는 멀티모달 기능을 갖췄다. 실제로 과학·기술·공학·수학(STEM) 유형의 문제를 이미지 형태로 입력하자, 이를 인식해 분석한 뒤 정답을 도출하는 과정을 성공적으로 수행한 사례도 소개됐다. 네이버는 해
카카오가 국내 최초로 텍스트, 음성, 이미지 등 다양한 정보를 동시에 이해하고 처리할 수 있는 통합 멀티모달 언어모델 ‘카나나(Kanana)-o’를 공개했다. 1일 자사 테크 블로그를 통해 성능과 개발 후기까지 상세히 공개하며 기술적 진화를 강조했다. 카나나-o는 기존의 텍스트 기반 언어모델을 넘어, 음성과 이미지를 동시에 입력받아 의미를 분석하고 이에 맞는 텍스트나 음성으로 응답을 생성할 수 있는 모델이다. 카카오는 이미지에 특화된 모델 ‘카나나-v’와 오디오 처리에 특화된 ‘카나나-a’를 병합하는 방식으로 멀티모달 통합 모델을 단기간 내 구축했다. 특히 이번 모델은 한국어에 특화된 데이터셋을 기반으로 지역 방언, 억양, 어미 변화를 정밀하게 반영했다. 이를 통해 제주도, 경상도 등 지역 방언을 표준어로 자연스럽게 변환하는 능력을 갖췄으며, 해당 방언으로도 정확한 감정 인식이 가능하다. 카카오는 카나나-o가 한국어 및 영어 벤치마크에서 글로벌 최고 수준의 성능을 기록했으며, 특히 한국어 기반 벤치마크에서는 높은 우위를 보였다고 설명했다. 감정 인식 부문에서는 양 언어 모두에서 높은 정확도를 보이며, 단순 응답을 넘어 감정 기반 소통이 가능한 AI의 가능성을