올인원 AI 크리에이티브 플랫폼 ‘드롭샷 AI’를 운영하는 지로가 모델 간 에이전트 연동 기술을 적용한 영상 생성 AI 모델 ‘드롭샷 Flow 1.0’을 정식 출시했다. 이번 모델은 프롬프트 정확도와 텍스트 표현 안정성을 개선한 것이 특징이다. ‘드롭샷 Flow 1.0’은 복수의 생성형 AI 모델을 유기적으로 연결하는 모델 오케스트레이션 방식을 적용했다. 단일 모델이 전 과정을 처리하던 기존 구조와 달리 프롬프트 해석과 영상 생성 단계를 분리해 수행함으로써 생성 정확도와 완성도를 동시에 높였다. 특히 한국어 프롬프트를 정교하게 지원한다. 기존 글로벌 영상 생성 모델에서 간판 자막 UI 텍스트 등 글자가 깨지거나 왜곡되는 문제가 반복적으로 발생했으나 이번 모델은 이를 구조적으로 개선했다. 영상 속 텍스트 표현의 안정성을 강화해 상업 콘텐츠 제작 환경에서의 활용도를 높였다는 설명이다. 더불어 프롬프트 정확도도 보완했다. 영상 모델은 이미지 모델 대비 세부 지시 반영도가 낮다는 지적을 받아왔으나 ‘드롭샷 Flow 1.0’은 프롬프트를 장면 단위로 구조화해 의도를 분석하고 이를 기반으로 생성하는 방식을 적용했다. 이에 따라 분위기 설정 오브젝트 디테일 등 세부 요소
알리바바가 디지털 휴먼 영상 제작을 위한 오픈소스 모델 ‘Wan2.2-S2V(Speech-to-Video)’를 공개했다. 이 모델은 인물 사진과 음성 파일만으로 실제 같은 아바타 영상을 구현해, 대화·노래·연기까지 가능한 디지털 캐릭터 제작을 지원한다. ‘Wan2.2-S2V’는 알리바바의 영상 생성 시리즈 ‘Wan2.2’에 포함된 모델로, 단일 이미지 기반으로 고품질 애니메이션을 제작할 수 있다. 얼굴 클로즈업뿐 아니라 상반신, 전신 구도의 영상까지 구현할 수 있으며 프롬프트 지시에 따라 동작과 배경을 자동으로 생성해 제작자가 의도한 스토리와 디자인을 정밀하게 반영한다. 이번 모델은 음성 기반 애니메이션 기술을 강화해 자연스러운 대화와 음악 공연까지 표현 가능하며 한 장면에서 여러 캐릭터를 동시에 처리할 수 있다. 음성 녹음을 사실적인 동작으로 변환할 수 있어 현실감 있는 캐릭터 연출이 가능하며 만화풍·동물·스타일화된 캐릭터까지 폭넓게 지원한다. 해상도는 480P와 720P를 지원해 전문 제작 환경에서도 활용할 수 있으며 소셜미디어 콘텐츠부터 프레젠테이션 영상까지 다양한 용도로 적용 가능하다. 기술적 혁신도 두드러진다. ‘Wan2.2-S2V’는 텍스트 기반
알리바바가 영상 생성 및 편집을 위한 올인원 오픈소스 AI 모델 ‘Wan2.1-VACE(Video All-in-one Creation and Editing)’를 새롭게 공개했다. 이번 모델은 영상 제작의 복잡한 과정을 하나의 통합 모델로 구현하며 창작자의 생산성과 창의성을 동시에 높이는 데 초점을 맞췄다. Wan2.1-VACE는 멀티모달 입력(텍스트, 이미지, 영상 등)을 기반으로 한 영상 생성과 고급 편집 기능을 통합해 제공한다. 단순 영상 생성뿐만 아니라 객체 제어, 시공간 확장, 프레임 보간, 영상 내 선택 영역의 수정 및 리페인팅 등 정교한 후반작업까지 하나의 프레임워크에서 수행할 수 있다. 특히 이미지 한 장을 입력해 자연스러운 움직임을 생성하거나, 정적인 이미지를 동적인 콘텐츠로 전환하는 등 콘텐츠의 생동감을 극대화할 수 있는 기능도 포함돼 있다. 이번 모델에는 알리바바가 자체 설계한 영상 조건 유닛 ‘VCU(Video Condition Unit)’와 시공간 컨텍스트 표현을 위한 ‘컨텍스트 어댑터(Context Adapter)’ 구조가 적용됐다. 이로써 다양한 영상 생성 목적을 정형화된 구조 안에서 유연하게 수행할 수 있으며 SNS 숏폼, 광고,
Wan2.1-FLF2V-14B, 텍스트와 이미지 입력으로 고품질 이미지 및 영상 생성 알리바바 클라우드가 시작 프레임과 종료 프레임을 기반으로 영상의 흐름을 정교하게 생성할 수 있는 AI 영상 생성 모델 ‘Wan2.1-FLF2V-14B’를 오픈소스로 공개했다. 해당 모델은 숏폼 콘텐츠 제작자와 개발자들이 직관적이고 정밀한 영상 콘텐츠를 효율적으로 제작하도록 돕는 데 초점을 맞췄다. ‘Wan2.1-FLF2V-14B’는 알리바바 클라우드의 파운데이션 모델 시리즈 ‘Wan2.1’의 일부로, 텍스트와 이미지 입력을 통해 고품질의 이미지 및 영상을 생성하는 데 최적화해 있다. 특히 이번 모델은 영상의 시작과 끝 장면을 입력값으로 받아, 두 장면 사이의 시각적 일관성을 유지하면서 자연스러운 전환을 생성하는 ‘제어 조정 메커니즘(Control Adjustment Mechanism)’을 핵심 기술로 채택했다. 이 메커니즘은 사용자가 제공한 프레임에 담긴 의미 정보를 분석해, 중간 프레임의 스타일과 구조를 정밀하게 조정한다. 그 결과 복잡한 동작도 부드럽게 이어지며, 사실적이고 몰입감 있는 영상 결과물을 생성할 수 있다. 현재 해당 모델은 허깅페이스(Hugging Face)