헬로티 –매일 만나는 첨단 산업, 경제, IT 소식

주메뉴 바로가기
본문 바로가기

2025.10.10(금)

동두천 25.8℃맑음
강릉 27.3℃구름조금
서울 26.6℃맑음
대전 25.0℃구름많음
대구 22.6℃흐림
울산 23.8℃흐림
광주 24.8℃구름많음
부산 27.2℃흐림
고창 25.2℃구름조금
제주 24.5℃비
강화 25.7℃맑음
보은 24.4℃구름많음
금산 25.9℃구름많음
강진군 26.3℃구름많음
경주시 22.1℃흐림
거제 25.3℃구름많음

기상청 제공

#음성AI

AI NC AI, 인터스피치서 차세대 음색 변환 기술 발표한다

NC AI가 음성·언어 기술 학회인 ‘INTERSPEECH 2025’에서 새로운 몬스터 사운드 생성·변환 AI 기술을 공개한다. 인터스피치는 국제 음성커뮤니케이션협회(ISCA)가 주관하는 세계 최대 규모의 음성·언어 기술 학회로, 오는 8월 17일부터 21일까지 네덜란드 로테르담에서 열리며, 올해 주제는 ‘공정하고 포용적인 음성 과학과 기술(Fair and Inclusive Speech Science and Technology)’이다. NC AI는 이번 학회에서 몬스터 사운드에 특화한 고품질 음색 변환 모델 구조와 학습 기법을 다룬 논문, 그리고 이를 웹 기반 실시간 변환 시스템으로 구현한 사례 논문 등 총 2편을 발표한다. 현장 부스에서는 관람객이 직접 목소리나 사운드를 입력하면 특정 몬스터의 울음이나 포효로 즉시 변환되는 체험형 데모도 제공한다. 현장 참석이 어려운 이들을 위해 온라인 체험 페이지도 함께 운영될 예정이다. 이번 기술은 MMORPG 게임을 비롯한 대규모 콘텐츠 제작 환경에서 몬스터 사운드 제작 방식을 획기적으로 개선할 수 있다는 평가를 받는다. CD 수준의 고해상도(44.1kHz) 분석을 통해 거친 숨소리, 포효, 웃음 등 몬스터 특유의 비
- 서재창 기자
- 2025-08-18 14:59
AI 투플랫폼, 초고품질 다국어 AI 음성 모델 ‘수트라 하이파이’ 출시

투플랫폼이 초고품질 다국어 음성 생성 모델 ‘수트라 하이파이(SUTRA HiFi)’를 공식 출시했다고 29일 밝혔다. 이 모델은 실시간 음성 생성 기능을 기반으로 자연스러운 대화, 감정 표현, 억양, 발화 리듬까지 구현하며 기존 음성합성(TTS) 기술과는 차별화된 사용자 경험을 제공한다. 수트라 하이파이는 한국어, 영어, 힌디어, 베트남어, 아랍어 등 30개 이상 언어를 지원하며, 초저지연 음성 합성을 통해 실시간 대응이 필요한 고객 상담, 교육, 미디어 콘텐츠 제작 등 다양한 산업에서 활용 가능하다. 특히 기업의 브랜드 성격에 맞춘 맞춤형 음성 제공이 가능해 브랜드 일관성을 높이고 사용자 몰입도를 향상시킨다는 점에서 주목받고 있다. 이 모델은 투플랫폼의 자연어 처리 AI 모델 ‘수트라(SUTRA)’의 기술을 음성 영역까지 확장한 결과로, 텍스트 이해와 음성 생성이 하나의 통합 생태계에서 유기적으로 작동한다. 텍스트 기반 질의응답, 요약, 다국어 번역 등에서 검증된 언어 처리 기술을 음성 응용으로 확장하면서, 풀스택 언어 AI 솔루션으로 진화하고 있다. 투플랫폼은 수트라 하이파이를 기반으로 한 AI 고객 상담 솔루션도 함께 제공 중이다. 해당 솔루션은 단순
- 서재창 기자
- 2025-07-29 10:26
AI 카카오, ‘카나나-o’로 멀티모달 AI 진입...주요 모델과 정면 승부

카카오가 국내 최초로 텍스트, 음성, 이미지 등 다양한 정보를 동시에 이해하고 처리할 수 있는 통합 멀티모달 언어모델 ‘카나나(Kanana)-o’를 공개했다. 1일 자사 테크 블로그를 통해 성능과 개발 후기까지 상세히 공개하며 기술적 진화를 강조했다. 카나나-o는 기존의 텍스트 기반 언어모델을 넘어, 음성과 이미지를 동시에 입력받아 의미를 분석하고 이에 맞는 텍스트나 음성으로 응답을 생성할 수 있는 모델이다. 카카오는 이미지에 특화된 모델 ‘카나나-v’와 오디오 처리에 특화된 ‘카나나-a’를 병합하는 방식으로 멀티모달 통합 모델을 단기간 내 구축했다. 특히 이번 모델은 한국어에 특화된 데이터셋을 기반으로 지역 방언, 억양, 어미 변화를 정밀하게 반영했다. 이를 통해 제주도, 경상도 등 지역 방언을 표준어로 자연스럽게 변환하는 능력을 갖췄으며, 해당 방언으로도 정확한 감정 인식이 가능하다. 카카오는 카나나-o가 한국어 및 영어 벤치마크에서 글로벌 최고 수준의 성능을 기록했으며, 특히 한국어 기반 벤치마크에서는 높은 우위를 보였다고 설명했다. 감정 인식 부문에서는 양 언어 모두에서 높은 정확도를 보이며, 단순 응답을 넘어 감정 기반 소통이 가능한 AI의 가능성을
- 서재창 기자
- 2025-05-01 22:46
AI 알리바바, 멀티모달 AI 모델 ‘Qwen2.5-Omni-7B’ 발표

알리바바 클라우드가 새로운 엔드투엔드 멀티모달 AI 모델 ‘Qwen2.5-Omni-7B’를 공개했다. Qwen2.5-Omni-7B는 텍스트, 이미지, 음성, 영상 등 다양한 입력 정보를 실시간으로 처리하며, 자연스러운 텍스트 응답과 음성 출력을 동시에 지원하는 이 모델은 모바일 기기와 노트북 등 엣지 디바이스에 최적화된 멀티모달 AI의 새로운 기준을 제시한다. 이번에 공개된 Qwen2.5-Omni-7B는 70억 개 파라미터 규모의 컴팩트한 구조에도 불구하고, 고성능 멀티모달 처리 능력을 제공한다. 실시간 음성 상호작용, 음성 기반 명령 수행, 시청각 데이터 통합 해석 등에서 우수한 성능을 발휘하며, 시각 장애인을 위한 실시간 음성 안내, 동영상 기반 요리 가이드, 지능형 고객 응대 시스템 등 다양한 실용적 활용이 가능하다. 알리바바 클라우드는 해당 모델을 허깅페이스(Hugging Face), 깃허브(GitHub), 모델스코프(ModelScope) 등 주요 오픈소스 플랫폼을 통해 공개했으며, 자사의 멀티모달 챗봇 서비스 ‘큐원 챗(Qwen Chat)’에서도 활용할 수 있도록 했다. 알리바바 클라우드는 현재까지 총 200개 이상의 생성형 AI 모델을 오픈소스로
- 서재창 기자
- 2025-04-01 23:47
AI 시어스랩, AI 웨어러블 ‘에이아이눈’ 공개…실시간 시각 인식

시각 정보 실시간 인식 후 음성 기반 AI 서비스 제공 시어스랩이 AI 기반 웨어러블 디바이스 ‘에이아이눈(AInoon)’의 사전 예약 판매를 3월 31일부터 시작한다. 국내를 시작으로 3개월간 예약 접수를 받고, 오는 7월부터 전 세계로 제품 발송을 시작할 계획이다. 에이아이눈은 일반 안경 형태의 디자인에 AI 기능을 결합한 스마트 안경으로, 착용자 주변의 시각 정보를 실시간으로 인식하고 이를 바탕으로 음성 기반 AI 서비스를 제공하는 것이 가장 큰 특징이다. 예를 들어, 운동기구를 바라보며 사용법을 물으면 해당 기기의 종류를 인식하고 AI가 사용법을 음성으로 안내해주는 방식이다. 외국어 간판이나 메뉴도 실시간으로 번역해 음성으로 알려주는 기능도 포함돼 있다. 제품은 45g의 가벼운 무게와 일반 안경과 유사한 디자인으로 착용감을 높였고, 1600만 화소 카메라를 내장해 Full HD 사진과 영상 촬영이 가능하다. 오픈이어 스피커를 통해 음악 감상과 전화 통화도 지원한다. 이처럼 여가, 업무, 여행, 요리, 운동 등 다양한 일상 속에서 ‘손과 눈이 되어주는’ AI 어시스턴트 역할을 한다는 점에서 주목된다. 시어스랩은 “PC나 스마트폰에 국한됐던 AI 활용 경
- 서재창 기자
- 2025-03-31 09:19
최신뉴스 AI3, 오픈AI 동향 분석 '생성형 AI 트렌드 컨퍼런스' 성료

OpenAI 12 Days 발표 분석 및 AI 모델 개발 동향 총망라… AI 트렌드 및 인사이트 제공해 AI3가 지난 27일 서울시 강남구 코엑스 스타트업브랜치에서 ‘Generative AI Trend Conference 2025(이하 생성형 AI 트렌드 컨퍼런스 2025)’를 개최했다. 생성형 AI 트렌드 컨퍼런스 2025는 OpenAI가 발표한 새 기능을 집중 리뷰하고 생성형 AI 전문가들이 분석한 생성형 AI 동향과 전망을 다뤘다. 현재 생성형 AI를 활발히 활용하고 있는 현업인 뿐 아니라 AI 트렌드에 관심을 두는 누구나에게 열린 교육의 장으로 온·오프라인을 포함해 무료로 이번 행사를 마련했다. OpenAI는 지난 12월 5일부터 '12 Days of OpenAI'라는 이름으로 새로운 이벤트와 기술업데이트 사항을 실시간 라이브 형태로 연달아 발표해 AI 기술의 현재와 미래를 제시했다. 이에 표철민 AI3 대표이사는 지난 2주간 OpenAI가 발표한 내용을 번역하고 분석한 내용을 전달하면서 OpenAI의 동향과 전망을 밝혔다. 이번 발표는 생성형 AI, 자연어 처리, 음성 AI, 그리고 새로운 업무 환경 구축 등 다양한 주제를 포괄하며 업계 주목을 받았
- 구서경 기자
- 2024-12-31 11:04

이전

1

포토이슈

랭킹뉴스

상호명(명칭) : (주)첨단 | 등록번호 : 서울,자00420 | 등록일자 : 2013년05월15일 | 제호 :헬로티(helloT) | 발행인 : 이종춘 | 편집인 : 김진희 |
본점 : 서울시 마포구 양화로 127, 3층, 지점 : 경기도 파주시 심학산로 10, 3층 | 발행일자 : 2012년 4월1일 | 청소년보호책임자 : 김유활 | 대표이사 : 이준원 | 사업자등록번호 : 118-81-03520 | 전화 : 02-3142-4151 | 팩스 : 02-338-3453 | 통신판매번호 : 제 2013-서울마포-1032호
copyright(c) HelloT all right reserved

UPDATE: 2025년 10월 09일 23시 09분