텍스트-오디오 조합으로 프롬프트에 설명된 음악·음성·사운드의 모든 조합을 생성 및 변형 엔비디아가 텍스트만으로 오디오 출력을 제어할 수 있는 생성형 AI 모델 ‘푸가토’를 개발했다고 밝혔다. 엔비디아 생성형 AI 연구팀이 개발한 푸가토는 노래를 작곡하거나 음성을 수정할 수 있는 일부 AI 모델보다 뛰어난 정교함을 자랑한다. 푸가토는 텍스트와 오디오 파일의 조합을 사용해 프롬프트에 설명된 음악, 음성, 사운드의 모든 조합을 생성하거나 변형할 수 있다. 예를 들어, 텍스트 프롬프트에 따라 음악 스니펫(snippet)을 생성하고, 기존 노래에서 악기를 제거하거나 추가하고, 목소리의 억양이나 감정을 바꿀 수 있다. 심지어 이전에 들어본 적 없는 소리를 만들어낼 수도 있다. 멀티 플래티넘 프로듀서이자 작곡가인 이도 즈미슬라니(Ido Zmishlany)는 최첨단 스타트업을 위한 엔비디아 인셉션 프로그램의 회원사인 원 테이크 오디오의 공동 설립자다. 그는 “이 기술은 정말 대단하다. 사운드는 내 영감의 원천이다. 그것이 내가 음악을 만들게 하는 원동력이다. 스튜디오에서 즉석으로 완전히 새로운 사운드를 만들 수 있다는 생각은 정말 놀라운 일이다”고 말했다. 라파엘 발레(R
'삼성 가우스'의 학습 데이터 및 차세대 통신 분야 기술 연구에 활용 삼성전자가 지난 14일 삼성전자 서울R&D캠퍼스에서 한국통신학회와 논문 데이터베이스(DB) 제공을 위한 업무 협약을 체결했다. 이날 협약식에는 과학기술정보통신부 이은규 인공지능확산팀장(과장), 한국통신학회 홍인기 회장, 삼성전자 전경훈 삼성리서치장(사장) 등이 참석했다. 이번 업무 협약을 통해 삼성전자는 한국통신학회로부터 논문 2만 편을 제공받아 생성형 AI 모델 '삼성 가우스'의 학습 데이터로 활용하는 것은 물론, 삼성전자의 차세대 통신 분야 기술 연구에도 활용할 계획이다. 한국통신학회는 1974년에 창립한 대한민국 정보통신기술의 국내 최대 학회로 국내 통신 사업 경쟁력 강화에 기여하며, 생성형 AI 기술 발전과 국가 경쟁력 강화를 위해 이번 협약을 체결하게 됐다. 한국통신학회가 보유한 논문들은 사실에 근거한 텍스트, 수식, 테이블, 그래프, 그림 등을 포함하며 신뢰성이 검증돼 AI 모델 학습 데이터로 효용 가치가 클 것으로 기대된다. 삼성리서치는 지난 11월 ‘삼성 AI 포럼’에서 자체 개발한 생성형 AI 모델인 삼성 가우스의 언어, 코드, 이미지 모델을 처음 공개했다. 삼성전자