알리바바 클라우드, AI 기반 비디오 생성 모델 ‘Wan2.1’ 오픈소스 공개

2025.02.27 19:03:51

[무료초대] 산업AI, SDF, 로봇, 스마트물류, 디지털트윈, 디지털ESG로 미래 제조혁신을 이끈다...AI자율제조혁신컨퍼런스 (3.4~6, 코엑스3층 컨퍼런스룸 307~308)

알리바바 클라우드가 AI 기반 비디오 생성 모델 ‘Wan2.1’ 시리즈를 오픈소스로 공개하며, 글로벌 AI 커뮤니티와의 협력을 강화한다고 밝혔다. 이번에 공개된 모델은 140억(14B) 및 13억(1.3B) 매개변수 버전으로 텍스트 및 이미지 입력을 기반으로 고품질의 영상을 생성할 수 있도록 설계됐다.

알리바바 클라우드는 비디오 파운데이션 모델 ‘Tongyi Wanxiang(통이 완샹)’의 최신 버전인 Wan2.1을 ‘모델스코프(ModelScope)’ 및 ‘허깅페이스(Hugging Face)’를 통해 전 세계 연구자 및 기업들에게 공개했다. 해당 모델은 복잡한 동작을 정밀하게 처리하고 픽셀 품질을 향상시키며 물리적 원칙을 준수하는 등 사실적인 영상 생성 능력에서 강점을 보인다.

Wan2.1은 영상 생성 모델의 종합 벤치마크인 VBench 리더보드에서 종합 점수 86.22%를 기록하며 1위를 차지했다. 특히, 상위 5개 모델 중 유일한 오픈소스 모델로 자리매김하며 글로벌 AI 생태계에서 기술력을 입증했다. 평가 항목에서는 움직임의 자연스러움, 색상 표현, 다중 객체 상호작용 등의 성능이 뛰어난 것으로 나타났다.

이번 공개된 모델 중 T2V-14B는 복잡한 동작을 포함한 고품질 영상 생성에 최적화됐으며 T2V-1.3B는 연구 및 2차 개발에 적합하도록 설계됐다. 예를 들어 T2V-1.3B는 일반적인 개인용 노트북에서도 480p 해상도의 5초 길이 영상을 약 4분 만에 생성할 수 있어 연구자와 개발자들이 보다 쉽게 활용할 수 있다.

또 I2V-14B-720P 및 I2V-14B-480P 모델은 이미지 기반 영상 생성 기능까지 지원해 한 장의 이미지와 간단한 텍스트 설명만으로 역동적인 영상 콘텐츠를 제작할 수 있다. 해상도와 관계없이 다양한 이미지 입력을 처리할 수 있도록 설계된 점도 특징이다.

알리바바 클라우드는 AI 기술의 개방성과 확장성을 강화하기 위해 2023년 8월 자체 개발한 대규모 AI 모델 ‘Qwen(큐원)’ 시리즈를 공개한 바 있다. 이후 허깅페이스의 오픈 LLM 리더보드에서 최상위권을 유지하며 다양한 글로벌 벤치마크에서 높은 평가를 받고 있다. 현재까지 큐원 모델 기반의 파생 모델이 10만 개를 돌파하며 글로벌 AI 모델 생태계에서 중요한 역할을 하고 있다.

알리바바 클라우드 관계자는 “Wan2.1 모델을 오픈소스로 공개함으로써 AI 기반 영상 생성 기술의 접근성을 높이고 전 세계 개발자와 연구자들이 이를 활용해 보다 혁신적인 콘텐츠를 제작할 수 있도록 지원할 것”이라고 밝혔다.

헬로티 김재황 기자 |

김재황 기자 의 전체기사 보기