알리바바가 영상 생성 및 편집을 위한 올인원 오픈소스 AI 모델 ‘Wan2.1-VACE(Video All-in-one Creation and Editing)’를 새롭게 공개했다. 이번 모델은 영상 제작의 복잡한 과정을 하나의 통합 모델로 구현하며 창작자의 생산성과 창의성을 동시에 높이는 데 초점을 맞췄다. Wan2.1-VACE는 멀티모달 입력(텍스트, 이미지, 영상 등)을 기반으로 한 영상 생성과 고급 편집 기능을 통합해 제공한다. 단순 영상 생성뿐만 아니라 객체 제어, 시공간 확장, 프레임 보간, 영상 내 선택 영역의 수정 및 리페인팅 등 정교한 후반작업까지 하나의 프레임워크에서 수행할 수 있다. 특히 이미지 한 장을 입력해 자연스러운 움직임을 생성하거나, 정적인 이미지를 동적인 콘텐츠로 전환하는 등 콘텐츠의 생동감을 극대화할 수 있는 기능도 포함돼 있다. 이번 모델에는 알리바바가 자체 설계한 영상 조건 유닛 ‘VCU(Video Condition Unit)’와 시공간 컨텍스트 표현을 위한 ‘컨텍스트 어댑터(Context Adapter)’ 구조가 적용됐다. 이로써 다양한 영상 생성 목적을 정형화된 구조 안에서 유연하게 수행할 수 있으며 SNS 숏폼, 광고,
상용 AI 모델이 갖는 구조적 취약점을 현실 기반 시나리오로 정량적 입증해 에임인텔리전스가 자사 AI 공격 프레임워크 ‘SUDO(Screen-based Universal Detox2Tox Offense)’를 주제로 한 논문이 세계 최고 권위의 자연어처리 학회 ACL 2025 인더스트리 트랙에 채택됐다고 밝혔다. 이번 논문은 반복 학습 기반의 정교한 공격 방식으로 상용 AI 에이전트의 보안 취약성을 실증한 연구로 평가받고 있다. SUDO 프레임워크는 AI 시스템의 거절 응답을 우회하는 단계를 구조화한 점이 특징이다. 공격자는 처음에 AI가 위험하다고 판단할 수 있는 지시를 무해하게 바꿔 입력하고, 화면 기반 정보를 바탕으로 실행 절차를 유도한다. 마지막 순간에는 다시 본래의 악성 명령으로 되돌려 AI가 스스로 실행하도록 유도한다. GPT Operator, MANUS, Omniparse, Claude for Computer Use 등 주요 상용 AI를 대상으로 진행된 실험에서 이 프레임워크는 높은 성공률을 보였다. 특히 앤트로픽의 클로드 모델에서는 공격 성공률이 최대 41.33%에 달했다. 이는 전통적인 명령 전달 방식보다 34%포인트, 단순 입력 대비 41%포
누구나 내려받아 학습하고 수정해 연구와 비즈니스에 적용할 수 있어 네이버가 자체 개발한 생성형 AI ‘하이퍼클로바X(HyperCLOVA X)’의 경량 모델을 상업적 용도로도 활용 가능한 오픈소스로 24일 공개한다. 국내 주요 기업 가운데 생성형 AI 모델을 상업 이용 목적으로 무료 공개하는 것은 이번이 처음이다. 네이버클라우드는 이번에 HyperCLOVA X SEED 3B, SEED 1.5B, SEED 0.5B 등 총 3종의 경량 모델을 오픈소스 형태로 배포한다. 누구나 내려받아 학습하고 수정해 연구와 비즈니스에 적용할 수 있다. 특히 기존에는 연구 용도로만 제한된 사례가 많았던 반면, 이번 공개 모델은 상업적 라이선스까지 지원돼 비용 부담으로 AI 도입을 망설였던 중소기업과 스타트업에 실질적인 기회를 제공할 전망이다. 공개된 모델 중 ‘SEED 3B’는 텍스트뿐 아니라 이미지와 영상까지 이해할 수 있는 시각언어모델로, 도표 해석, 사진 설명, 개체 인식 등 복합적인 작업 수행이 가능하다. 특히 한국어와 한국 문화 관련 시각 정보를 이해하는 벤치마크 9개에서 동급 미국, 중국 모델보다 높은 성능을 기록했고, 일부 대규모 외산 모델과도 유사한 결과를 보였다.
11월부터 시작하는 ‘국가 AI 컴퓨팅 센터’에 GPU 1만장 규모 도입 계획 밝혀 정부가 국내 AI 생태계의 글로벌 경쟁력을 끌어올리기 위해 총 1조8000억 원 규모의 추가경정예산을 투입한다. AI 컴퓨팅 자원 확보를 최우선 과제로 삼고, 이를 바탕으로 국가대표 AI 모델을 개발할 유망 기업을 선정해 집중 지원하는 전략이다. 과학기술정보통신부(이하 과기정통부)는 18일 임시국무회의를 통해 심의된 AI 추경 예산 가운데 약 1조4600억 원을 활용해 오는 11월부터 서비스를 시작하는 ‘국가 AI 컴퓨팅 센터’에 GPU 1만장 규모를 도입할 계획이라고 밝혔다. 이번 GPU 도입은 엔비디아의 H200과 블랙웰을 기준으로 추산됐으며, 참여 기업이 국내 여건과 비용 효율성을 고려해 최종 모델을 선택하게 된다. 센터 개소 전에는 민간 클라우드 기업들이 보유한 GPU 2600장을 AI 기업이 빌려 쓸 수 있도록 예산 1723억 원이 배정됐다. 특히 이 중 2000장은 차세대 대표 AI 모델을 개발할 ‘월드 베스트 거대언어모델(WBL)’ 프로젝트에 참여할 최대 5개 팀에 우선 지원된다. WBL 프로젝트에는 GPU 외에도 텍스트 및 멀티모달 데이터, 국내외 최고 수준의
산업 맞춤형 소형언어모델에 집중해 문서 중심 업무 자동화 추진 업스테이지 김성훈 대표가 "2025년은 AI가 거의 모든 영역에서 인간을 넘어서는 해가 될 것이다. 이에 우리는 고성능의 엔진을 기반으로 '일의 미래'를 만들어가는 데 집중하겠다"고 밝혔다. 업스테이지가 16일인 오늘 서울 여의도 콘래드 호텔에서 개최한 미디어 데이를 열고, 산업 전반의 업무 자동화 혁신과 글로벌 확장을 향한 전략을 밝혔다. 이날 업스테이지는 문서 기반의 AI 기술력과 산업 특화 소형언어모델(SLM) 경쟁력을 바탕으로 ‘일의 미래(Future of Work)’를 앞당기겠다는 청사진을 제시했다. 이를 위해 김성훈 대표, 이활석 CTO 등 주요 임원진이 참석했다. 김성훈 대표는 발표에서 “AI 기술이 비약적으로 발전하고 있음에도 불구하고, 여전히 많은 업무가 사람 손을 거쳐 이뤄지고 있다”며 “경제활동인구의 업무 생산성이 단 1%만 향상돼도 연간 14조 원의 경제적 효과를 거둘 수 있다”고 강조했다. 이어 그는 AI가 단순한 도구가 아니라 산업 전체의 업무 구조를 혁신할 핵심 인프라임을 언급했다. 업스테이지는 그간 독자 개발한 문서 처리 AI ‘다큐먼트 파스(DP)’와 한국어에 최적화
영상 인텔리전스 분야에서의 독보적 위치 각인시킨 사례로 남아 트웰브랩스가 아마존웹서비스(AWS)의 완전 관리형 AI 서비스 ‘아마존 베드록(Amazon Bedrock)’에 영상이해 AI 모델을 공식 공급한다. 글로벌 주요 AI 기업들과 어깨를 나란히 하며, 한국 기술의 저력을 전 세계에 각인시켰다. 트웰브랩스가 제공하는 모델은 멀티모달 AI 기반의 ‘마렝고(Marengo)’와 ‘페가수스(Pegasus)’로, 베드록에 탑재된 첫 번째 영상이해 특화 AI다. 아마존의 자체 모델인 Nova를 제외하면 유일한 영상 관련 모델로 선정되며, 영상 인텔리전스 분야에서의 독보적 위치를 다시 한 번 확인시켰다. 아마존 베드록은 고성능 AI 파운데이션 모델을 단일 API로 통합해 제공하는 AWS의 전략적 서비스다. 트웰브랩스를 비롯해 Meta, Anthropic, Mistral AI, DeepSeek, Stability AI 등이 참여하고 있다. 이 가운데 트웰브랩스는 한국 기업 최초로 모델을 탑재한 사례로 기록되며, 글로벌 AI 산업에서의 입지를 본격 확장하게 됐다. 트웰브랩스의 모델은 영상 내 객체, 동작, 배경 소리 등 다양한 요소를 자연어로 검색하고 이해할 수 있는 기
패러닷이 구글 딥마인드의 최신 영상 생성 모델 ‘Veo 2’를 정식 도입하고, 국내 기업 중 처음으로 서비스에 적용했다. Veo 2는 고도화된 물리 기반 이해와 정밀한 프롬프트 처리 능력을 바탕으로, 보다 사실적이고 자연스러운 고품질 영상을 생성하는 차세대 모델로 주목받고 있다. Veo 2는 기존 AI 영상 생성 모델과 비교해 인물 동작, 공간 구성, 카메라 움직임 등에서 탁월한 표현력을 갖춘 것이 특징이다. 다양한 렌즈 효과와 영화적 기법도 자연스럽게 반영할 수 있어, 크리에이터의 창의성을 영상에 그대로 녹여낼 수 있는 점이 강점이다. 사용자의 프롬프트를 충실하게 반영하는 응답 성능 또한 향상돼 정교한 영상 콘텐츠 제작이 가능해졌다. 캐럿은 구글의 정식 승인을 받아 현재 Veo 2를 클로즈드 베타 형태로 일부 기업 고객에게 우선 제공하고 있다. 현재는 5초 길이의 720p 해상도 영상 생성이 가능하며, 향후 4K 화질과 최대 2분 길이까지 확장할 계획이다. Veo 2 도입을 기념해 오는 7일까지 해당 기능에 대해 30% 할인 프로모션도 진행 중이다. 장진욱 패러닷 대표는 “캐럿이 국내 대표 AI 영상 플랫폼으로서 글로벌 최고 수준의 모델을 빠르게 탑재할 수
알리바바 클라우드가 새로운 엔드투엔드 멀티모달 AI 모델 ‘Qwen2.5-Omni-7B’를 공개했다. Qwen2.5-Omni-7B는 텍스트, 이미지, 음성, 영상 등 다양한 입력 정보를 실시간으로 처리하며, 자연스러운 텍스트 응답과 음성 출력을 동시에 지원하는 이 모델은 모바일 기기와 노트북 등 엣지 디바이스에 최적화된 멀티모달 AI의 새로운 기준을 제시한다. 이번에 공개된 Qwen2.5-Omni-7B는 70억 개 파라미터 규모의 컴팩트한 구조에도 불구하고, 고성능 멀티모달 처리 능력을 제공한다. 실시간 음성 상호작용, 음성 기반 명령 수행, 시청각 데이터 통합 해석 등에서 우수한 성능을 발휘하며, 시각 장애인을 위한 실시간 음성 안내, 동영상 기반 요리 가이드, 지능형 고객 응대 시스템 등 다양한 실용적 활용이 가능하다. 알리바바 클라우드는 해당 모델을 허깅페이스(Hugging Face), 깃허브(GitHub), 모델스코프(ModelScope) 등 주요 오픈소스 플랫폼을 통해 공개했으며, 자사의 멀티모달 챗봇 서비스 ‘큐원 챗(Qwen Chat)’에서도 활용할 수 있도록 했다. 알리바바 클라우드는 현재까지 총 200개 이상의 생성형 AI 모델을 오픈소스로
챗GPT 내에서 다양한 형태의 비주얼 콘텐츠 제작 가능해져 오픈AI가 최근 공개한 새로운 이미지 생성 인공지능(AI) 기능이 출시 직후부터 폭발적인 인기를 끌며 서버 과부하를 일으켰다. 샘 올트먼 오픈AI CEO는 27일(현지시간) 자신의 SNS 계정을 통해 “이미지 모델을 사람들이 이렇게 좋아하는 걸 보니 기쁘다”면서, “GPU가 녹아내릴 정도로 사용량이 급증해 일시적으로 사용을 제한할 수밖에 없다”고 밝혔다. 이번에 공개된 ‘챗GPT-4o 이미지 생성’ 기능은 오픈AI의 멀티모달 모델 GPT-4o에 이미지 생성 기능을 통합한 최초의 모델이다. 사용자는 복잡한 프롬프트를 일일이 작성하지 않아도, 의도만 전달하면 AI가 이를 해석해 이미지를 생성해 준다. 단순한 그림부터 다이어그램, 인포그래픽, 로고, 명함, 카툰, 반려동물 일러스트, 프로필 사진 편집까지 다양한 형태의 비주얼 콘텐츠 제작이 가능하다. 특히 새롭게 개선된 기능 중 주목할 만한 부분은 텍스트 인식과 배치 정확도다. 예를 들어 ‘여러 종류의 고래를 보여주는 포스터를 만들어 달라’는 요청을 하면, 고래의 모습과 종류 이름을 정확히 매칭해 시각적으로 구성할 수 있다. 이는 기존 이미지 생성 모델이
개선된 성능과 비용 효율성 갖춰...교차 리전 추론으로 지연시간 최소화 아마존웹서비스(AWS)가 차세대 생성형 AI 기반 파운데이션 모델(FM)인 '아마존 노바(Amazon Nova)'를 아시아태평양 및 유럽연합(EU) 지역에 출시했다고 7일 밝혔다. 이번 출시를 통해 서울, 도쿄, 뭄바이, 싱가포르, 시드니 등 아태 지역과 스톡홀름, 프랑크푸르트, 파리 등 유럽 주요 리전에서 해당 모델을 이용할 수 있게 됐다. 아마존 노바는 AWS가 자체 개발한 최첨단 AI 모델로, 개선된 성능과 비용 효율성을 갖춘 것이 특징이다. 특히 이번 모델은 여러 리전에 걸쳐 사용자의 요청을 자동으로 라우팅하는 ‘교차 리전 추론(Cross-Region Inference)’을 지원하며, 이를 통해 지연시간을 최소화하고 불필요한 비용 발생을 방지했다. 이번에 출시된 아마존 노바 모델은 총 세 가지다. 텍스트 전용의 초저비용 모델 '노바 마이크로(Nova Micro)', 이미지와 비디오를 포함한 멀티모달 입력을 처리하는 경제적인 모델 '노바 라이트(Nova Lite)', 그리고 다양한 업무에서 높은 정확성과 속도를 제공하는 고성능 모델 '노바 프로(Nova Pro)'다. 세 가지 모델