최근 빅테크는 단순한 텍스트 기반 AI에서 한 걸음 나아가 사용자의 다양한 요구를 만족시키기 위해 음성과 영상을 포함하는 멀티모달 AI 개발에 박차를 가하고 있다. 이러한 기술 진화는 텍스트에서 멀티미디어로 정보를 처리하는 방식의 전환을 의미하며, 사용자 인터페이스와 디지털 커뮤니케이션의 패러다임을 재정립하고 있다. 멀티모달 AI의 발전은 기계가 인간의 다양한 커뮤니케이션 방식을 이해하는 능력을 한층 향상시키고 있다.
멀티모달 기술로 혁신하는 커뮤니케이션
멀티모달 AI는 텍스트를 포함해 음성, 이미지, 비디오 등 다양한 유형의 정보 입력을 통합해 처리하고, 이를 바탕으로 정교한 출력을 제공하는 AI 기술이다.
이 기술은 각기 다른 데이터 소스에서 정보를 수집하고 해석함으로써 사용자에게 자연스러운 상호작용을 가능하게 하며, 다양한 상황에 맞는 응답을 생성한다. 현대인은 디지털 컨텐츠 소비의 변화와 사용자 경험의 향상을 추구한다. 이 과정에서 자연스러운 커뮤니케이션을 원한다는 특징이 있다. 한 예로, 음성인식 기능은 이제 일상생활에서 어렵지 않게 찾아볼 수 있다.
이러한 수요에 부응해 빅테크 기업들은 AI의 음성 인식 및 처리 능력을 강화하는 추세다. 또한, 비디오 컨텐츠의 소비가 증가함에 따라 영상 생성 및 편집 기능도 AI의 주요 개발 영역으로 부상하고 있다. 멀티모달 AI의 발전은 다양한 산업에 걸쳐 혁신을 가져올 것으로 예상된다.
한 예로, 교육 분야에서는 맞춤형 학습 자료 생성을, 의료 분야에서는 정밀한 진단 지원 시스템이 가능해질 것으로 보인다. 자동차 산업에서는 운전자와 차량 간의 상호작용을 강화하는 데 초점을 맞추고 있다. 멀티모달 기술은 향후 몇 년 간 주요 기술 트렌드로 자리 잡을 것으로 보인다. 사용자 경험을 혁신하고, 새로운 형태의 디지털 상호작용을 가능하게 하는 이 기술은 사용자에게 새로운 가능성을 제시할 것으로 예상된다.
어도비, 영상 생성 AI 모델 발표
어도비가 동영상 생성 AI 모델을 공개했다. 어도비는 연례 제품 콘퍼런스 ‘어도비 맥스 2024’에서 동영상 생성 AI ‘파이어플라이 비디오(Firefly Video)’의 테스트 버전을 출시한다고 밝혔다. 파이어플라이 비디오는 텍스트나 이미지를 이용해 영상을 생성하는 AI 모델이다. 영상 편집은 물론, 영상 편집 프로그램인 어도비의 ‘프리미어 프로(Premiere Pro)’에 통합돼 생성형 확장 기능으로 영상을 추가할 수 있다.
예를 들어 중간에 영상 촬영분이 빠졌거나, 뒷부분이 부족한 경우 AI가 앞뒤를 연결하며 동영상을 생성한다. 어도비는 “이 AI는 라이선스가 있는 콘텐츠를 이용하기에 상업적으로 사용하기에 안전하다. 어린이나 공인이 등장하는 동영상은 제작하지 않는다”고 설명했다.
음성 대화·시각 인식 기능 추가한 MS
마이크로소프트(MS)가 자사의 제품에 탑재한 AI 서비스 ‘코파일럿’에 음성 대화와 시각 인식 기능 등을 추가했다. 추가된 기능 중 하나인 ‘코파일럿 보이스’ 기능은 사용자가 여러 아이디어를 진전시키는 브레인스토밍 과정에서 문답하거나 힘든 하루를 마무리하며 속내를 털어놓는 대화도 가능하다. 네 가지 음성 옵션 중에서 이용자가 원하는 음성을 선택할 수 있다.
‘코파일럿 비전’은 사용자가 제시한 웹페이지의 텍스트나 사진 이미지를 놓고 AI와 실시간으로 대화할 수 있는 기능이다. MS는 특히 코파일럿 비전 기능을 출시하며 안전과 보안을 최우선으로 고려했다고 강조했다. 이 기능은 옵트-인 방식으로, 이용자가 원할 경우에만 제공되며 이 기능을 통해 처리된 콘텐츠는 저장되거나 AI 학습에 사용되지 않고 해당 기능 이용이 종료되는 순간 데이터가 영구적으로 폐기된다.
구글 ‘영상 내용도 검색 가능해진다’
구글은 동영상 속 내용을 음성으로 물어보고 답을 구할 수 있는 새로운 기능을 출시한다고 밝혔다. 기존 검색은 텍스트를 입력하거나 정지된 이미지 속 내용에 대해서만 검색이 가능했다. 이번에는 동영상 속 내용도 검색이 가능하게 업그레이드됐다.
새 기능은 이미지로 검색이 되지 않을 때 동영상을 촬영해 음성으로 질문할 수 있다. 구글의 AI 기반 서비스인 ‘구글 렌즈’를 통해 촬영하면 동영상 내용과 질문을 기반으로 검색 결과가 제공된다. 리즈 리드 구글 검색 책임자는 수족관을 예로 들며 “물고기 무리가 왜 일제히 헤엄치는지 알아보고 싶을 수도 있다”며 “이제 인터넷으로 물고기를 검색하고 질문을 작성할 필요가 없다”고 설명했다.
메타, 동영상 생성 AI 선보여
메타는 동영상 생성 AI 모델 ‘무비 젠(Movie Gen)’을 공개했다. 무비 젠은 텍스트 입력으로 최대 16초 길이의 새 동영상을 만들 수 있는 AI 모델이다. 기존 동영상을 편집하고 오디오를 생성하며, 사진을 사용해 실제 인물이 등장하는 맞춤형 동영상도 만들 수 있다. 메타는 하마가 물속에서 헤엄치고, 코알라가 서핑을 즐기고, 남극의 펭귄이 옷을 갈아입는 등 무비 젠을 이용한 만든 동영상도 공개했다.
메타는 “무비 젠은 간단한 텍스트 입력으로 맞춤형 동영상과 소리를 제작하고, 기존 동영상을 편집하고, 개인 이미지를 독특한 동영상으로 변환하는 방법을 보여준다"고 설명했다. 무비 젠은 일부 내부 직원과 일부 영화 제작자를 포함한 소수의 외부 파트너에게만 우선 제공된다. 메타는 내년에 인스타그램과 왓츠앱, 메신저 등 자사의 소셜미디어 앱에 탑재할 계획이다.
음성대화 위한 개발 툴 공개한 오픈AI
오픈AI는 개발자가 AI 모델을 기반으로 앱에서 음성 대화 서비스를 만들 때 이용할 수 있는 도구인 실시간 API와 대화 완성 API를 공개한다고 밝혔다. 오픈AI는 이 도구를 이용하면 개발자가 여러 모델을 조합하는 과정을 거칠 필요 없이 단 한 번의 API 조작으로 자연스러운 대화 환경을 구축한다고 설명했다. 회사 측은 이번에 공개한 도구들이 고객 지원 상담이나 언어 학습 보조 기능 등을 강화하는 데 쓰일 수 있다고 소개했다.
오픈AI는 개발자가 AI 생성 이미지나 텍스트를 개선하도록 해주는 도구인 미세조정 API도 선보였다. 이 도구는 향상된 시각 검색과 물체 감지 등의 기능으로 대상 이미지를 잘 이해하는 능력을 제공해 차량 자율주행 분야에서도 쓰일 수 있을 것으로 전망된다. 또한, 대규모 AI 모델을 이용해 상대적으로 작은 모델을 학습시킬 수 있게 하고 이전에 처리한 텍스트 AI 정보를 재사용하게 해주는 프롬프트 캐싱 기능도 공개했다.
헬로티 서재창 기자 |