최신뉴스 엔비디아, 텍스트로 오디오 출력 제어하는 생성 AI 모델 발표
텍스트-오디오 조합으로 프롬프트에 설명된 음악·음성·사운드의 모든 조합을 생성 및 변형 엔비디아가 텍스트만으로 오디오 출력을 제어할 수 있는 생성형 AI 모델 ‘푸가토’를 개발했다고 밝혔다. 엔비디아 생성형 AI 연구팀이 개발한 푸가토는 노래를 작곡하거나 음성을 수정할 수 있는 일부 AI 모델보다 뛰어난 정교함을 자랑한다. 푸가토는 텍스트와 오디오 파일의 조합을 사용해 프롬프트에 설명된 음악, 음성, 사운드의 모든 조합을 생성하거나 변형할 수 있다. 예를 들어, 텍스트 프롬프트에 따라 음악 스니펫(snippet)을 생성하고, 기존 노래에서 악기를 제거하거나 추가하고, 목소리의 억양이나 감정을 바꿀 수 있다. 심지어 이전에 들어본 적 없는 소리를 만들어낼 수도 있다. 멀티 플래티넘 프로듀서이자 작곡가인 이도 즈미슬라니(Ido Zmishlany)는 최첨단 스타트업을 위한 엔비디아 인셉션 프로그램의 회원사인 원 테이크 오디오의 공동 설립자다. 그는 “이 기술은 정말 대단하다. 사운드는 내 영감의 원천이다. 그것이 내가 음악을 만들게 하는 원동력이다. 스튜디오에서 즉석으로 완전히 새로운 사운드를 만들 수 있다는 생각은 정말 놀라운 일이다”고 말했다. 라파엘 발레(R