영상 AIoT 분야 글로벌 기업 하이크비전이 과학기술정보통신부를 비롯한 국내 주요 ICT 유관기관 관계자들을 중국 항저우 본사로 초청해 기술 교류 및 협력 방안을 논의했다. 하이크비전은 지난 18일 과기정통부, 정보통신산업진흥원(NIPA), 정보통신기획평가원(IITP), 글로벌혁신센터(KIC) 관계자들을 대상으로 본사 투어와 기술 소개 프로그램을 진행했다고 밝혔다. 이번 방문은 한·중 간 과학기술 및 정보통신 분야 협력 가능성을 모색하기 위한 자리로 마련됐다. 방문단은 하이크비전 항저우 본사 쇼룸을 둘러보며 영상보안 기술과 AI 기반 AIoT 솔루션 전반을 직접 체험했다. 쇼룸에는 물리 보안 제품을 비롯해 AI 기반 통합보안 플랫폼, 스마트 시티, 스마트 교통, 산업용 AIoT 등 다양한 분야의 솔루션이 전시돼, 하이크비전의 기술 스펙트럼을 한눈에 살펴볼 수 있도록 구성됐다. 단순한 제품 소개를 넘어 실제 적용 사례와 산업별 활용 가능성에 대한 설명이 이어졌다. 이후 진행된 기술 브리핑에서는 하이크비전의 기업 성장 과정과 영상 AI 기술을 중심으로 한 연구개발(R&D) 전략, 글로벌 사업 방향이 공유됐다. 참석자들은 하이크비전이 2001년 설립 이후
글로벌 영상 이해 기반 멀티모달 AI 기업 트웰브랩스가 차세대 비디오 파운데이션 모델(Video Foundation Model) ‘마렝고 3.0’을 공식 공개했다. 트웰브랩스는 2일, 영상 속 텍스트·음성·동작·상황 맥락을 통합적으로 분석해 인간 수준의 이해 능력을 구현하는 마렝고 3.0을 출시하며 영상 분석 기술의 새로운 기준을 제시했다고 밝혔다. 이번 신모델은 영상을 프레임 단위로 처리하는 기존 방식에서 벗어나 시간·공간적 흐름을 통합적으로 파악하는 네이티브 파운데이션 구조가 핵심이다. 마렝고 3.0은 대사·장면·행동의 연속적 관계를 스스로 해석할 수 있으며, 몇 분 후 등장하는 장면과 동작을 연결해 분석하는 등 보다 자연스러운 영상 이해 능력을 갖췄다. 가장 주목되는 기능은 업계 최초로 도입된 ‘복합 이미지 검색’과 ‘고유명사 검색’이다. 복합 이미지 검색은 이미지와 텍스트를 결합해 검색할 수 있는 기능으로, 예를 들어 특정 배경 위 특정 인물이 등장하는 장면을 이미지 조합으로 요청할 수 있다. 고유명사 검색은 ‘사람’이나 ‘제품’을 개별 엔티티로 등록해 이름처럼 검색할 수 있는 기능으로, 방송·스포츠·보안 분야에서 활용도가 높다. 또한 트웰브랩스는 마
KAIST 전산학부 윤성의 교수 연구팀과 이화여대 노준혁 교수 연구팀이 영상 속에서 정답을 위해 꼭 필요한 핵심 장면, 즉 ‘Trigger moment’를 스스로 찾아내는 AI 기술을 개발해 국제 대회에서 우수성을 입증했다. KAIST는 두 연구팀이 ICCV 2025에서 열린 Perception Test Challenge의 영상 근거 기반 질의응답(Grounded Video Question Answering) 트랙에서 1위를 차지했다고 28일 밝혔다. 이번 대회는 구글 딥마인드가 주관한 인지 테스트 챌린지로 총 상금 5만유로가 걸려 있으며, 영상·음성·텍스트를 종합적으로 이해하는 멀티모달 AI의 실제 근거 기반 판단 능력을 평가한다. 언어 패턴에 의존해 ‘그럴듯한 답’을 만드는 기존 AI의 한계를 극복하는 것이 핵심 과제로 제시됐다. 연구팀은 영상을 처음부터 끝까지 단순 분석하는 방식 대신, 질문에 답하기 위해 꼭 필요한 장면을 먼저 추출하는 새로운 프레임워크를 설계했다. 연구팀은 이를 CORTEX(Chain-of-Reasoning for Trigger Moment Extraction)라고 명명했다. CORTEX는 세 모델이 순차적으로 협업하는 구조를 갖춘다
멀티모달 AI 혁신을 이끌고 있는 트웰브랩스(TwelveLabs, 대표 이재성)가 영상 인텔리전스를 AI 에이전트에 손쉽게 구현할 수 있는 MCP(Model Context Protocol) 서버를 공식 출시했다. 이번 발표는 AI 어시스턴트가 영상을 직접 이해하고 검색·요약할 수 있게 됐다는 점에서 업계의 새로운 전환점으로 평가된다. MCP는 미국 AI 기업 앤트로픽이 제안한 오픈 표준 프로토콜로, AI 시스템 간 데이터와 기능 연결을 표준화하는 기술이다. 트웰브랩스 MCP 서버는 자사의 영상 이해 모델을 클로드 데스크톱(Claude Desktop), 커서(Cursor), 구스(Goose) 등 개발자 친화적 AI 도구와 연동한다. 개발자들은 플러그 앤 플레이 방식으로 해당 기능을 손쉽게 적용할 수 있어, 별도 복잡한 세팅 없이 영상 이해 기능을 자체 애플리케이션에 통합할 수 있다. 서버의 기반은 트웰브랩스가 독자적으로 개발한 멀티모달 영상 이해 모델 ‘마렝고(Marengo)’와 영상언어 생성 모델 ‘페가수스(Pegasus)’다. 이를 활용해 ▲자연어 기반 영상 검색 ▲영상 콘텐츠 자동 요약·질의응답 ▲다단계 영상 워크플로우 ▲실시간 영상 탐색 등 다양한 기능
글로벌 고객에게 제공 가능한 수준의 제품화에 성공한 사례로 남아 트웰브랩스가 AWS의 완전관리형 생성형 AI 플랫폼 ‘아마존 베드록(Amazon Bedrock)’에 자사 모델을 정식으로 공급하며, 글로벌 AI 생태계에서 한국 기술의 존재감을 확장하고 있다. 이번 공급은 한국 파운데이션 모델이 글로벌 플랫폼에 공식 편입된 첫 사례로, 기술 주권 실현의 이정표로 주목된다. 트웰브랩스는 ‘마렝고(Marengo)’와 ‘페가수스(Pegasus)’ 두 가지 영상 AI 모델을 베드록을 통해 전 세계 AWS 고객에게 제공한다. 이를 통해 고객사는 별도의 인프라 구축 없이 영상 콘텐츠 내 객체, 동작, 음향 등을 자연어 기반으로 분석하고 검색한다. AWS는 이번 협업으로 영상이해 모델을 직접 제공하는 첫 번째 클라우드 사업자가 됐으며, 트웰브랩스는 메타, 엔트로픽, 딥시크, 미스트랄AI 등과 함께 베드록 공식 모델 파트너로 자리잡았다. 영상 데이터는 디지털 환경에서 가장 활용이 어려운 자산 중 하나로 꼽힌다. 트웰브랩스의 AI 모델은 이러한 비정형 영상 데이터를 의미 기반의 분석 가능한 형태로 전환해, 콘텐츠 검색, 요약, 아카이빙 등의 작업을 빠르고 효율적으로 수행하도록
미디어·방송, 공공·안전, 법률·수사기관 등 주요산업 중심으로 영상 AI 고도화 추진 트웰브랩스가 LG CNS와 영상 분석 기술 협력을 위한 업무협약(MOU)을 체결했다. 이번 협력은 멀티모달 기반 영상 이해 기술과 디지털 전환(AX) 역량의 결합을 통해 다양한 산업 분야에서 실질적인 AI 영상 솔루션을 공동 개발하고 사업화하는 것을 목표로 한다. 양사는 트웰브랩스의 영상 이해 특화 AI 모델(Video Foundation Model, VFM) 고도화를 위한 연구 개발과 더불어, 이를 실제 고객 환경에 적용하는 상용 서비스 구축에도 협력한다. 특히 미디어·방송, 공공·안전, 법률·수사기관 등 영상 데이터가 집중되는 산업을 중심으로 영상 AI 기술을 고도화하고, 새로운 비즈니스 기회를 함께 발굴할 예정이다. 트웰브랩스는 멀티모달 신경망 기술을 기반으로 영상 콘텐츠 내 인물, 사물, 텍스트, 행동 등을 복합적으로 이해하는 AI 모델을 개발해 왔다. 지난 4월에는 국내 AI 기업 최초로 아마존 베드록에 자사의 멀티모달 AI 모델 ‘마렝고(Marengo)’와 ‘페가수스(Pegasus)’를 공급하는 성과를 올리며 글로벌 경쟁력을 입증한 바 있다. LG CNS는 금융권
알리바바 클라우드가 AI 기반 비디오 생성 모델 ‘Wan2.1’ 시리즈를 오픈소스로 공개하며, 글로벌 AI 커뮤니티와의 협력을 강화한다고 밝혔다. 이번에 공개된 모델은 140억(14B) 및 13억(1.3B) 매개변수 버전으로 텍스트 및 이미지 입력을 기반으로 고품질의 영상을 생성할 수 있도록 설계됐다. 알리바바 클라우드는 비디오 파운데이션 모델 ‘Tongyi Wanxiang(통이 완샹)’의 최신 버전인 Wan2.1을 ‘모델스코프(ModelScope)’ 및 ‘허깅페이스(Hugging Face)’를 통해 전 세계 연구자 및 기업들에게 공개했다. 해당 모델은 복잡한 동작을 정밀하게 처리하고 픽셀 품질을 향상시키며 물리적 원칙을 준수하는 등 사실적인 영상 생성 능력에서 강점을 보인다. Wan2.1은 영상 생성 모델의 종합 벤치마크인 VBench 리더보드에서 종합 점수 86.22%를 기록하며 1위를 차지했다. 특히, 상위 5개 모델 중 유일한 오픈소스 모델로 자리매김하며 글로벌 AI 생태계에서 기술력을 입증했다. 평가 항목에서는 움직임의 자연스러움, 색상 표현, 다중 객체 상호작용 등의 성능이 뛰어난 것으로 나타났다. 이번 공개된 모델 중 T2V-14B는 복잡한 동작