실시간의 고처리량 추론 구현과 추론 시스템 스택 개발 및 오픈소싱 추진 스노우플레이크가 기업이 강력한 AI 애플리케이션을 대규모로 쉽게 활용 및 구축하도록 스노우플레이크 코텍스 AI에서 라마 3.1에 대한 호스팅을 개시한다고 발표했다. 라마 3.1은 다중 언어 오픈소스 대규모언어모델(LLM)의 컬렉션이다. 이번에 출시한 서비스에는 메타에서 가장 큰 규모이자 강력한 성능의 오픈소스 LLM인 라마 3.1 405B가 제공된다. 스노우플레이크는 실시간의 고처리량 추론을 구현함은 물론 강력한 자연어 처리 및 생성 애플리케이션의 보편화를 증진하는 추론 시스템 스택을 개발하고 오픈 소싱한다. 스노우플레이크 AI 리서치팀은 추론 및 파인튜닝에 대해 라마 3.1 405B를 최적화함으로써 서비스 개시 첫날부터 거대한 128K 컨텍스트 윈도우를 지원한다. 동시에 기존 오픈소스 솔루션에 비해 엔드투엔드 지연시간은 최대 3분의 1로 낮아지고 처리량은 1.4배 높아진 실시간 추론을 구현한다. 또한, 코텍스 AI에서 하나의 GPU 노드만을 사용해 거대 모델을 미세 조정할 수 있어 개발자와 사용자 모두에게 비용과 복잡성을 완화해준다. 스노우플레이크는 메타와 협력을 통해 고객에게 AI 데
라마 3.1 405B 포함해 다양한 규모와 기능에서 새로운 업데이트 모델 제공 인텔은 메타의 최신 대규모 언어 모델(LLM)인 라마 3.1에 데이터 센터, 엣지 및 클라이언트 AI 제품 전반에 걸친 성능 데이터 및 최적화를 제공한다고 밝혔다. 인텔은 ‘AI 에브리웨어’ 전략을 위해 AI 소프트웨어 생태계에 지속적으로 투자하며, 새로운 모델이 인텔의 AI 하드웨어에 최적화하도록 보장하고 있다. 메타는 지난 4월 라마 3 출시에 이어, 지난 23일(현지 시각) 현재까지 가장 성능이 뛰어난 모델인 라마 3.1을 출시했다. 라마 3.1은 공개적으로 사용 가능한 가장 큰 파운데이션 모델인 라마 3.1 405B(4050억 개 모델)를 포함해 다양한 규모와 기능에서 여러 새로운 업데이트 모델을 제공한다. 이 새로운 모델들은 파이토치 및 인텔 파이토치 익스텐션, 딥스피드, 허깅 페이스 옵티멈 라이브러리, vLLM 등 개방형 생태계 소프트웨어를 통해 인텔 AI 제품에서 활성화 및 최적화된다. 또한 생태계 전반에서 최고의 혁신을 활용하는 개방형, 멀티 벤더, 강력하고 컴포저블한 생성형AI 솔루션을 만들기 위한 LF AI 및 데이터 재단의 새로운 오픈 플랫폼 프로젝트인 OPEA
젠슨 황 "라마 3.1, 최첨단 생성형 AI 애플리케이션 구축할 수 있는 문 열어" 엔비디아가 메타의 오픈소스 AI 모델 컬렉션인 라마 3.1을 통해 전 세계 기업의 생성형 AI를 강화하는 엔비디아 AI 파운드리 서비스와 엔비디아 NIM 추론 마이크로서비스를 발표했다. 이제 기업과 국가는 엔비디아 AI 파운드리를 통해 라마 3.1과 엔비디아 소프트웨어, 컴퓨팅, 전문성을 활용해 도메인별 산업 사용 사례에 맞는 맞춤형 ‘슈퍼모델’을 만들 수 있다. 기업은 자체 데이터는 물론, 라마 3.1 405B와 엔비디아 네모트론 리워드 모델에서 생성된 합성 데이터로 이러한 슈퍼모델을 훈련할 수 있다. 엔비디아 AI 파운드리는 세계 최고의 퍼블릭 클라우드와 공동 설계된 엔비디아 DGX 클라우드 AI 플랫폼으로 구동된다. 이를 통해 AI 수요 변화에 따라 쉽게 확장할 수 있는 방대한 컴퓨팅 리소스를 기업에게 제공한다. 새로운 서비스는 기업뿐 아니라 독자적인 AI 전략을 개발 중인 국가들의 맞춤형 거대 언어 모델(LLM) 구축을 지원한다. 이들은 고유한 비즈니스나 문화를 반영하는 생성형 AI 애플리케이션을 위해 도메인별 지식을 갖춘 맞춤형 LLM을 구축하고자 한다. 엔비디아 창