닫기
배너

알리바바, 누구나 주인공 될 수 있는 비주얼 콘텐츠 구현하는 Wan2.6 공개

전 세계 크리에이터 위한 영화 및 전문가 수준의 고품질 영상 제작 지원

URL복사

 

알리바바가 비주얼 생성 모델의 최신 버전인 ‘Wan 2.6’ 시리즈를 공개했다.

 

Wan 2.6은 크리에이터가 자신의 모습과 목소리를 그대로 반영해 AI 생성 영상에 직접 등장하고, 다중 장면을 활용한 유연한 스토리텔링이 가능하도록 지원한다. 알리바바는 이를 통해 다중 인물 간 대화 표현을 고도화하고 영상 재생 시간을 확장함으로써, 전문적인 완성도의 콘텐츠 제작 역량을 한층 강화할 수 있을 것으로 기대된다고 밝혔다.

 

이번 Wan2.6 시리즈에는 새로운 참조 기반 영상 생성 모델을 비롯해 기존 4개 모델 전반에 대한 종합적인 업그레이드가 적용됐다. 이 가운데 핵심 기능인 Wan2.6-R2V(Reference to Video)는 사용자가 외모와 목소리가 포함된 캐릭터 참조 영상을 업로드한 뒤 텍스트 프롬프트를 입력하면, 동일한 캐릭터가 주인공으로 등장하는 새로운 장면을 생동감 있게 생성할 수 있도록 설계됐다. 단일 인물은 물론 동물이나 사물, 복수의 주체를 동시에 포함한 영상 제작도 가능하며, 원본 참조 영상의 고유한 시각적 특징과 음성을 일관되게 유지한다.

 

멀티모달(multimodal) 참조 생성 기술을 기반으로 한 Wan2.6-R2V는 중국 최초의 참조 기반 영상 생성 모델(reference-to-video generation model)로, 사용자가 자신 또는 특정 대상을 시각·음성의 일관성을 유지한 채 AI 생성 장면에 자연스럽게 삽입할 수 있도록 한다. 이러한 기능은 숏폼 드라마 크리에이터의 스토리텔링 방식을 변화시키고, 콘텐츠 제작 과정을 한층 효율적으로 간소화한다.

 

Wan2.6 시리즈는 텍스트-영상 생성 모델(Wan2.6-T2V), 이미지-영상 생성 모델(Wan2.6-I2V), 이미지 생성 모델(Wan2.6-image, Wan2.6-T2I) 등 기존 4개 모델에 대한 전반적인 성능 개선도 포함한다. 새롭게 고도화된 모델들은 지능형 멀티샷(multi-shot) 스토리텔링 기능을 통해 영상 전반에 걸쳐 시각적 일관성을 유지하면서도 보다 풍부하고 표현력 있는 서사 구현을 가능하게 한다. 또한 오디오-시각 동기화와 오디오 기반 영상 생성(audio-to-video) 역량을 강화해, 한층 더 사실적인 장면 연출과 풍부한 음향 효과를 제공한다.

 

Wan2.6 시리즈는 최대 15초 길이의 영상 출력을 지원해, 크리에이터가 스토리를 보다 확장된 구조로 설계하고 전개할 수 있는 여지를 제공한다. 향상된 지시어 해석 정밀도와 시각적 품질을 바탕으로, 영화 스타일의 전문가 수준 영상 콘텐츠 제작이 가능하다.

 

이미지 생성 영역에서는 고급 논리적 추론을 기반으로 텍스트와 이미지를 교차 출력(interleaved)할 수 있어, 일관된 시각적 스토리텔링을 지원한다. 이와 함께 정밀한 예술적 스타일 제어, 높은 충실도의 사실적 초상화 생성, 이미지 편집 기능 등에서도 뛰어난 성능을 제공한다. 특히 길고 복잡한 중국어 및 영어 텍스트 프롬프트에 대한 고도화된 이해 능력을 통해, 뉘앙스와 예술적 의도를 정확히 반영한 고품질·표현력 높은 시각 콘텐츠 제작이 가능하다.

 

사용자들은 알리바바 클라우드의 AI 개발 플랫폼 ‘모델스튜디오(Model Studio)’와 Wan 공식 웹사이트를 통해 Wan2.6 시리즈 모델에 접근하고 이를 배포할 수 있다. 해당 모델은 향후 알리바바의 대표 AI 애플리케이션인 ‘큐원(Qwen)’ 앱에도 통합될 예정이다.

 

올해 초 처음 공개된 Wan 시리즈는 이후 지속적인 업그레이드를 통해 진화해 왔으며, 이번 Wan2.6 시리즈는 알리바바의 AI 기반 멀티미디어 기술 분야에서의 리더십과 혁신 역량을 보여주는 사례이다.

 

헬로티 이동재 기자 |














배너


배너


주요파트너/추천기업