엔비디아, 텍스트로 오디오 출력 제어하는 생성 AI 모델 발표

URL복사

텍스트-오디오 조합으로 프롬프트에 설명된 음악·음성·사운드의 모든 조합을 생성 및 변형

엔비디아가 텍스트만으로 오디오 출력을 제어할 수 있는 생성형 AI 모델 ‘푸가토’를 개발했다고 밝혔다.

엔비디아 생성형 AI 연구팀이 개발한 푸가토는 노래를 작곡하거나 음성을 수정할 수 있는 일부 AI 모델보다 뛰어난 정교함을 자랑한다. 푸가토는 텍스트와 오디오 파일의 조합을 사용해 프롬프트에 설명된 음악, 음성, 사운드의 모든 조합을 생성하거나 변형할 수 있다.

예를 들어, 텍스트 프롬프트에 따라 음악 스니펫(snippet)을 생성하고, 기존 노래에서 악기를 제거하거나 추가하고, 목소리의 억양이나 감정을 바꿀 수 있다. 심지어 이전에 들어본 적 없는 소리를 만들어낼 수도 있다.

멀티 플래티넘 프로듀서이자 작곡가인 이도 즈미슬라니(Ido Zmishlany)는 최첨단 스타트업을 위한 엔비디아 인셉션 프로그램의 회원사인 원 테이크 오디오의 공동 설립자다. 그는 “이 기술은 정말 대단하다. 사운드는 내 영감의 원천이다. 그것이 내가 음악을 만들게 하는 원동력이다. 스튜디오에서 즉석으로 완전히 새로운 사운드를 만들 수 있다는 생각은 정말 놀라운 일이다”고 말했다.

라파엘 발레(Rafael Valle)는 엔비디아의 응용 오디오 연구 관리자이자 푸가토를 개발한 12명 이상의 개발자 중 한 명으로, 오케스트라에서 지휘와 작곡도 맡고 있다. 그는 “우리는 사람처럼 소리를 이해하고 생성하는 모델을 만들고 싶었다”고 말했다.

다양한 오디오 생성과 변형 작업을 지원하는 푸가토는 여러 훈련된 능력의 상호 작용에서 나타나는 창발성(emergent property)을 보여주는 최초의 기초 생성형 AI 모델이다. 또한 자유 형식의 지시를 결합할 수 있는 능력도 가지고 있다. 라파엘 발레는 “푸가토는 데이터와 모델 규모에 따라 오디오 합성과 변형에서 비지도 멀티태스크 학습이 가능한 미래를 향한 첫걸음”이라고 말했다.

음악 프로듀서들은 푸가토를 사용해 노래에 대한 아이디어를 빠르게 프로토타입으로 만들거나 편집할 수 있으며, 다양한 스타일, 목소리, 악기를 시도해 볼 수 있다. 또한 효과를 추가하고 기존 트랙의 전체 오디오 품질을 향상시킬 수도 있다. 이도 즈미슬라니는 “음악의 역사는 곧 기술의 역사이기도 하다. 일렉트릭 기타는 로큰롤을 탄생시켰고, 샘플러가 등장하면서 힙합이 태어났다. AI와 함께 우리는 음악의 다음 장을 쓰고 있다. 음악을 만들기 위한 새로운 도구와 새로운 악기가 생겼고, 이는 흥미로운 일이다”라고 말했다.

광고 대행사는 푸가토를 적용해 기존 캠페인을 여러 지역이나 상황에 맞게 빠르게 조정하고, 음성 해설에 다양한 억양과 감정을 적용할 수 있다. 언어 학습 도구는 사용자가 선택한 목소리를 사용하도록 개인화할 수 있다. 가령, 가족이나 친구의 목소리로 온라인 강의를 들을 수 있다.

비디오 게임 개발자들은 이 모델을 사용해 게임을 플레이하면서 변화하는 동작에 맞게 타이틀에 미리 녹음된 애셋을 수정할 수 있다. 또한, 텍스트 지침과 선택적 오디오 입력을 기반으로 즉석에서 새로운 애셋을 생성할 수도 있다.

라파엘 발레는 “우리가 특히 자랑스럽게 여기는 모델 기능 중 하나는 ‘아보카도 의자’라고 부르는 것”이라고 말하며, 이미지용 생성형 AI 모델이 만든 독특한 비주얼을 언급했다. 예를 들어, 푸가토는 트럼펫에서 강아지 소리를 내게 하거나, 색소폰에서 고양이 소리를 내도록 할 수 있다. 사용자가 묘사할 수 있는 것은 무엇이든 모델이 생성할 수 있다. 연구팀은 미세 조정과 소량의 노래 데이터를 통해 텍스트 프롬프트에서 고품질의 노래 음성을 생성하는 등 사전 훈련되지 않은 작업도 처리할 수 있음을 발견했다.

푸가토의 참신함을 더하는 몇 가지 기능이 있다. 푸가토는 추론하는 동안 컴포저블아트(ComposableART)라는 기술을 사용해 훈련 중에 개별적으로만 보였던 명령어를 결합한다. 예를 들어, 프롬프트의 조합으로 ‘슬픈 감정’의 ‘프랑스어 억양으로’ 말하는 텍스트를 요청할 수 있다. 모델의 명령어 간 보간 기능을 통해 사용자는 억양의 강약이나 슬픔의 정도 등과 같은 텍스트 명령어를 세밀하게 제어할 수 있다.

푸가토의 이러한 측면을 설계한 AI 연구원 로한 바들라니(Rohan Badlani)는 “사용자가 주관적이거나 예술적인 방식으로 속성을 조합할 수 있도록 하고, 각 속성을 얼마나 강조할지 선택할 수 있게 하고 싶었다”고 말했다. 스탠퍼드 대학교에서 AI를 전공하고 컴퓨터 과학 석사 학위를 받은 그는 “테스트 결과 종종 놀라운 결과가 나왔고, 내가 컴퓨터 과학자이지만 예술가가 된듯한 기분이 들었다”고 말했다.

아울러 푸가토는 시간이 지남에 따라 변화하는 소리를 생성하는데, 그는 이 기능을 시간적 보간이라고 부른다. 예를 들어, 천둥소리가 점점 크게 들리다가 점차 멀어지며 지역을 통과하는 폭풍우 소리를 만들 수 있다. 또한 사용자가 사운드스케이프의 진행 방식을 세밀하게 제어할 수 있다. 또한 노출된 훈련 데이터만 재현할 수 있는 대부분의 모델과 달리, 푸가토를 사용하면 새소리와 함께 새벽녘으로 잦아드는 뇌우와 같이 이전에 들어본 적 없는 사운드스케이프를 만들 수 있다.

푸가토는 연구팀이 음성 모델링, 오디오 보코딩, 오디오 이해와 같은 분야에서 쌓아온 이전 작업을 기반으로 하는 기초 생성형 트랜스포머 모델이다. 정식 버전은 25억 개의 파라미터를 사용하며, 32개의 엔비디아 H100 텐서 코어 GPU가 탑재된 엔비디아 DGX 시스템을 통해 훈련됐다.

헬로티 서재창 기자 |

애로우, 공기열원 히트펌프로 보는 차세대 HVAC 설계 전략

애로우 일렉트로닉스(이하 애로우)가 공기열원 히트펌프(ASHP)를 탈탄소화와 에너지 효율 향상을 동시에 실현하는 차세대 HVAC 시스템의 핵심 대안으로 제시했다. 애로우는 ASHP를 단순한 냉난방 설비가 아닌 규제 대응, 지속가능성 전략, 시장 차별화를 함께 충족하는 확장 가능한 플랫폼으로 정의하며 주거용부터 상업용까지 폭넓은 적용 가능성을 강조한다. ASHP 확산 과정에서는 투자 대비 효과, 확장성, 지속가능성이라는 비즈니스 요구와 함께 극한 환경에서도 유지되는 신뢰성, 안정적인 제어와 통신, 에너지·환경 규제 준수라는 기술적 과제가 동시에 제기된다. 애로우는 이러한 복합 요구를 개별 기술 단위가 아닌 시스템 수준에서 통합적으로 설계해야 한다는 점을 핵심 전제로 제시한다. 특히 미국 혁신 및 제조법(AIM 법)에 따른 냉매 규제 변화는 HVAC 설계 전반의 구조적 전환을 촉발하고 있다. 2025년 이후 고(高) 지구온난화지수(GWP) 냉매 사용이 제한되면서 R-32, R-454B 등 저GWP 냉매로의 전환이 요구되고 있으며 이는 냉매 교체를 넘어 제어 로직, 센서 구성, 안전 메커니즘, 전력 전자 장치까지 포함한 시스템 아키텍처 전반의 재설계를 의미한다.

[인더스트리 솔루션 인사이트] 사람을 닮은 기계, 산업을 다시 쓰다

휴머노이드 로봇(Humanoid Robot)은 더 이상 먼 미래의 상상이 아니다. 산업과 사회 전반에서 ‘체화 AI(Embodied AI)’의 결정체로 자리매김하며, 새로운 패러다임 전환을 예고하고 있다. 이번 특집은 휴머노이드 혁명이 어떻게 진행되고 있는지, 그리고 왜 지금이 그 변곡점인지를 조망한다. 작은 온디바이스 AI(On-device AI)부터 정밀한 로봇 핸드, 실행 가능한 피지컬 AI(Physical AI)까지. 각 기사는 로봇이 단순한 기계적 존재를 넘어 스스로 판단하고 행동하는 지능형 주체로 진화하는 과정을 담고 있다. 이번 특집을 통해 독자들은 ‘움직이는 인공지능’의 현재와 미래를 입체적으로 이해할 수 있을 것이다. [특집] 사람을 닮은 기계, 산업을 다시 쓰다 [휴머노이드 로봇] 로봇의 다음 폼팩터는 ‘인간형’…현재진행형 ‘휴머노이드 혁명’ [로봇 핸드] 휴머노이드 완성의 열쇠 ‘로봇 핸드’…원익로보틱스, ‘정밀 조작’ 혁신에 힘 싣다 [온디바이스 AI] AI 시대, ‘작지만 똑똑한’ 로봇이 뜬다…이미 예고된 온디바이스 AI 혁명 [로봇 기술적 과제] 중국·미국은 달리고 있다…한국 로봇 기술, AI 접목으로 반격 시동 [피지컬 AI] 실행

[인더스트리 솔루션 인사이트] 비용에서 전략으로...물류 산업의 빅 리셋

물류 산업은 지금 거대한 전환의 한복판에 서 있다. 인공지능(AI)과 각종 플랫폼 기술이 촉발한 혁신은 단순히 배송 속도를 높이는 차원을 넘어, 물류를 첨단 전략 산업으로 재편하고 있다. 이번 특집은 이러한 흐름을 세 가지로 풀어냈다. 첫 번째는 물류가 ‘스마트’에서 ‘AI 물류’로 넘어가는 과정이다. 무인화·자동화·데이터 기반 운영은 이미 현장을 바꾸고 있으며, 글로벌 경쟁력 확보의 핵심이 되고 있다. 두 번째는 ‘화물 추적(Cargo Visibility)’이다. 단순한 위치 확인을 넘어 화물 상태와 리스크까지 실시간으로 관리하는 체계는 물류를 ‘비용’ 산업에서 ‘전략’ 산업으로 끌어올리고 있다. 마지막은 글로벌 무역 격변 속에서 중소 포워더의 생존 전략이다. 대기업과 IT 플랫폼이 주도하는 시장에서 서비스형 소프트웨어(SaaS) 기반 디지털 전환(DX)은 생존의 문제임을 보여준다. 중요한 것은 물류는 이제 국가 경제와 글로벌 경쟁력의 전면에 서 있는 미래 산업이라는 점이다. [특집] 비용에서 전략으로…물류 산업의 빅 리셋 [변화, 혁신 그리고 물류] AI와 플랫폼이 뒤흔드는 물류…혁신 없이는 버티기 힘들다 [Cargo Visibility] 물류가 전략 산

[인더스트리 솔루션 인사이트] 로봇이 다시, 인간을 정의하다...휴머노이드 AI 시대 시작

로봇은 더 이상 공장의 팔과 다리가 아니다. 그것은 인간이 무엇을 하고, 무엇을 하지 않아야 하는지를 다시 묻는 철학적 존재로 진화하고 있다. 산업용 로봇에서 피지컬 AI(Physical AI), 그리고 휴머노이드로 이어지는 변화의 흐름은 단순한 자동화의 진보가 아니다. 그것은 인간의 노동·공간·역할을 재정의하며, 사회 구조 전체를 다시 짜는 ‘문명적 전환’의 서막이다. 이번 특집은 그 전환의 최전선에 선 네 명의 전문가를 통해 로봇의 진짜 미래를 탐구한다. 김진오 한국AI·로봇산업협회장이 제시한 ‘로봇 트랜스포메이션(RX)’은 산업을 설계의 언어로 재해석하며, 류석현 한국기계연구원장이 이끄는 ‘K-휴머노이드’는 인간과 산업의 공진화를 그린다. 글렌 버세스 몬트리올대학교 교수는 데이터 생태계의 격차를, 데니스 홍 캘리포니아 대학교 로스앤젤레스 교수는 인간 중심의 로봇 철학을 말한다. 그들이 던지는 메시지는 하나다. "로봇은 인간을 대체하지 않는다. 인간을 확장한다” [특집] 로봇이 다시, 인간을 정의하다...휴머노이드 AI 시대 시작 [로봇 트랜스포메이션] “RX가 먼저, AX는 그다음”…로봇 트랜스포메이션이 바꾼 산업지도 [K-휴머노이드] “사람을 닮은 로

[인더스트리 솔루션 인사이트] 탄소·품질·안전·설비…기준이 다시 쓰이는 ‘AI 자율제조 전환점’

제조업은 지금 ‘자동화의 완성’이 아닌 ‘자율제조(Autonomous Manufacturing)의 출발점’ 위에 서 있다. 설비 고장을 예측하고, 공정의 언어를 해석하고, 데이터의 흐름을 스스로 판단하는 공장. 이제 인공지능(AI)이 그 자리를 채우기 시작했다. 본 특집은 그 변화의 중심에서 나타나는 다섯 가지 전환 신호를 포착한다. 예지보전과 다층신경망(MLP) 기반 로직 해석이 설비의 불확실성을 제거하고, 적층 제조는 탄소 중립 시대의 새로운 표준을 연다. 부품 데이터 플랫폼은 제조 스택을 완전히 재정의하며, AI 기반 안전 체계는 자율제조의 마지막 퍼즐을 완성한다. 이 모든 기술을 관통하는 핵심은 ‘공장의 지능화’다. 사람의 경험에 의존하던 판단을 AI가 구조화하고, 데이터가 흩어진 공정을 하나의 문맥으로 연결하며, 위험과 비용을 선제적으로 제거하는 제조의 재편이 본격화되고 있다. 현시점 제조업은 공장이 스스로 생각하고 대응하며, 품질·안전·ESG를 통합 판단하는 새로운 생태계로 진화하고 있다. [특집] 탄소·품질·안전·설비…기준이 다시 쓰이는 ‘AI 자율제조 전환점’ [예지보전] 설비 ‘고장 후 대응’ 지침서 파쇄하는 AI, 차세대 범용 모델로 혁신하

최신뉴스