배너
닫기
배너

알리바바, 통합 영상 생성 모델 'Wan2.7-Video' 공개...연출 수준 제어 구현

URL복사

 

알리바바가 개인 크리에이터와 산업 전반의 영상 완성도와 제작 효율을 동시에 높일 통합 영상 생성 모델 'Wan2.7-Video'를 출시했다.


Wan2.7-Video는 AI 활용 범위를 단순 콘텐츠 생성에서 완성형 영상 제작으로 확장한 모델이다. 복잡한 서사 구성과 후반 작업까지 정밀하게 구현할 수 있도록 전체 제작 과정에 대한 연출 수준의 제어를 지원한다. 이번 출시는 최신 이미지 생성 모델 'Wan2.7-Image' 공개에 이어 이뤄진 것으로 알리바바의 멀티미디어 AI 역량 확장이 본격화되고 있다.


Wan2.7-Video는 텍스트 기반 영상 생성 모델 Wan2.7-t2v, 이미지 기반 영상 생성 모델 Wan2.7-i2v, 레퍼런스 기반 영상 생성 모델 Wan2.7-r2v, 영상 편집용 Wan2.7-videoedit 등 4개 모델로 구성된다. 텍스트, 이미지, 영상, 오디오 입력을 하나의 통합 시스템으로 묶어 생성, 편집, 복제, 재구성, 이어서 생성하기, 레퍼런스 활용 등 전 과정을 지원하며 서사적 일관성과 멀티 샷 간 일관성에서 존재하던 한계를 해소했다. 2초에서 15초까지 다양한 길이의 영상을 720p 및 1080p 해상도로 생성할 수 있으며 엔터프라이즈용 API를 통해 대량 처리와 맞춤형 워크플로우 구성도 가능하다.


편집 기능에서는 자연어 기반 명령으로 캐릭터의 동작, 대사, 외형, 장면, 스타일, 촬영 방식 등 영상의 거의 모든 요소를 직접 수정할 수 있다. 스크립트가 변경되더라도 입 모양과 음성을 자동으로 동기화해 자연스러운 대사 편집을 구현하며 각 캐릭터 고유의 음성 특성도 유지된다. 오디오 입력으로 날씨를 변경하거나, 다중 이미지 입력으로 스토리 방향과 카메라 구도, 캐릭터 설정을 세밀하게 조정하는 멀티모달 제어도 지원한다. 최대 5개 캐릭터에 각각 고유한 음성 톤과 시각적 정체성을 설정할 수 있으며, 수천 가지 스타일 조합과 50개 이상의 감정 표현을 제공한다.


스토리텔링 측면에서는 단일 프롬프트 입력만으로 FPV 드론 시점, 360도 회전 샷, 맥락을 반영한 조명 연출이 포함된 완성형 다중 스토리보드를 생성할 수 있다. 정렬된 영상 편집 데이터로 학습된 새로운 end-to-end 아키텍처를 적용했으며 사용자가 종료 프레임을 직접 지정하는 영상 이어 생성 기능으로 장면 간 전환을 자연스럽게 처리한다.


함께 공개된 이미지 생성 모델 Wan2.7-Image는 기존 AI 이미지에서 나타나던 획일적 시각 표현과 불일치한 색상 재현 문제를 해결하기 위해 설계됐다. 블라인드 사용자 테스트에서 시각적 완성도, 텍스트 렌더링, 개념 이해도 측면에서 주요 업계 모델을 상회하는 성능을 입증했다. 골격 구조와 눈 모양 등 캐릭터 세부 특성을 정밀 조정하는 개인화 엔진, 색상 코드 기반으로 브랜드 색상을 정확히 구현하는 컬러 팔레트 기능, 3,000토큰 규모의 컨텍스트 처리 능력을 기반으로 12개 언어에서 인쇄 품질의 학술 텍스트와 복잡한 수식, 표를 생성하는 기능도 갖췄다. 최대 9개의 레퍼런스 이미지를 처리하고 한 번에 12개의 결과물을 생성할 수 있어 대규모 제작 워크플로우도 효율화한다. 알리바바는 프롬프트 이해도를 더욱 개선하고 4K 고해상도 출력을 지원하는 Wan2.7-Image-Pro도 함께 선보였다.


이번 모델은 알리바바 클라우드의 Model Studio와 Wan 공식 웹사이트를 통해 이용할 수 있으며 큐원(Qwen) 앱에도 통합될 예정이다.

 

헬로티 구서경 기자 |











배너


배너

배너


배너


주요파트너/추천기업