자체 개발한 하이브리드 추론 기능으로 처리 효율 극대화해 알리바바 클라우드가 오픈소스 대규모 언어모델(LLM) 신제품군 ‘큐원3(Qwen3)’를 공개하며 생성형 AI 경쟁에서 다시 한 번 존재감을 드러냈다. 이번 시리즈는 모바일부터 자율주행까지 다양한 AI 활용 환경을 겨냥해 설계됐으며, 사고 기반 하이브리드 추론 등 새로운 구조로 성능과 효율성 모두를 잡았다는 평가다. 큐원3는 총 6종의 밀집 모델(0.6B, 1.7B, 4B, 8B, 14B, 32B)과 2종의 전문가 혼합(MoE) 모델(30B 중 3B 활성, 235B 중 22B 활성)로 구성된다. 모든 모델은 깃허브, 허깅페이스, 모델스코프를 통해 누구나 자유롭게 활용 가능하며, 곧 API 형태로도 서비스될 예정이다. 큐원3의 가장 큰 특징은 알리바바가 자체 개발한 하이브리드 추론 기능이다. 복잡한 논리 추론이나 수학, 코딩과 같은 다단계 작업에는 사고 기반 추론 모드를, 빠른 응답이 필요한 일반 대화에는 비사고 기반 추론 모드를 자동 전환해 처리 효율을 극대화한다. 개발자는 API 상에서 최대 3만8000개의 토큰까지 사고 지속 길이를 조절할 수 있어, 성능과 리소스의 균형을 자유롭게 맞출 수 있다. 큐
Mixtral 8x7B Inference 및 Mixture of Experts 벤치마크에서 초당 12만9000개 토큰 생성 슈퍼마이크로가 자사의 NVIDIA HGX B200 8-GPU 시스템으로 글로벌 MLPerf Inference v5.0 벤치마크에서 업계 최고 수준의 AI 추론 성능을 달성하며 AI 컴퓨팅 시장 내 기술력을 입증했다. 슈퍼마이크로 총판사인 디에스앤지는 해당 결과를 발표하며, 슈퍼마이크로가 공랭식과 수랭식 시스템 모두에서 기록적인 성능을 선보인 유일한 시스템 벤더라고 밝혔다. 슈퍼마이크로가 기록한 성과는 Mixtral 8x7B Inference 및 Mixture of Experts 벤치마크에서 초당 12만9000개 토큰을 생성한 것이다. 이 성능은 SYS-421GE-NBRT-LCC와 SYS-A21GE-NBRT 모델(각각 8개의 NVIDIA B200-SXM-180GB 탑재)을 기반으로 구현됐다. 특히 Llama2-70B 및 최신 Llama3.1-405B 모델 추론에서는 이전 세대 시스템 대비 최대 3배에 달하는 처리 속도 향상을 보였고, 대형 모델 추론 기준으로도 초당 1000개 이상의 토큰을 생성하는 등 압도적인 처리량을 기록했다. 슈퍼마이