타 LLM 추론 엔진 대비 최대 12.6배 상대적 성능 향상과 92%의 비용 절감 망고부스트는 AI 추론 성능과 효율성을 획기적으로 향상시키는 시스템 최적화 소프트웨어 'Mango LLMBoost'를 공식 출시했다고 밝혔다. 망고부스트는 Mango LLMBoost가 효과적인 시스템 스케줄 조정, 커널 최적화, 독자적인 데이터 Prefetching 기술 및 최신 GPU를 최대한 활용한 모델 양자화 기술을 통해 타 LLM 추론 엔진 대비 최대 12.6배의 상대적 성능 향상과 92%의 비용 절감을 달성한다고 밝혔다. 망고부스트 관계자는 “Mango LLMBoost는 경쟁 솔루션 대비 압도적인 성능 향상과 비용 절감 효과를 증명하며, 정식 출시 전부터 이미 강력한 도입 의향을 보인 빅테크 해외 지사에서 도입을 앞두고 있다”고 밝혔다. Mango LLMBoost의 강점으로 GPU 호환성, 다중 모델 배포 및 관리 기능, 간편한 배포와 Open API 호환성을 꼽았다. Mango LLMBoost는 NVIDIA 및 AMD의 주요 GPU와 모두 호환되고, Llama, Mixtral, Gemma, Qwen2, Llava, Phi3, Chameleon, MiniCPM, GLM
단일 디바이스로 AI 기반 임베디드 시스템의 엔드투엔드 가속 제공 AMD는 새로운 2세대 버설 AI 엣지 시리즈와 버설 프라임 시리즈 적응형 SoC를 출시해 확장된 AMD 버설 적응형 SoC 포트폴리오를 구축한다고 밝혔다. 2세대 버설 시리즈는 전처리에서 AI 추론 및 후처리에 이르기까지 단일 디바이스로 AI 기반 임베디드 시스템의 엔드투엔드 가속을 제공한다. 1세대를 기반으로 개발된 2세대 버설 시리즈 포트폴리오의 첫 제품군은 새로운 AI 엔진을 바탕으로 1세대 버설 AI 엣지 시리즈 디바이스보다 최대 3배 더 높은 와트당 TOPS를 제공한다. 또한, 새로운 고성능 통합 Arm CPU를 통해 1세대 버설 AI 엣지 및 프라임 시리즈 디바이스 대비 최대 10배에 달하는 스칼라 컴퓨팅을 제공한다. AMD 적응형 및 임베디드 컴퓨팅 그룹 총괄 책임자인 살릴 라제(Salil Raje) 수석 부사장은 “AI 지원 임베디드 애플리케이션에 대한 수요가 폭발적으로 증가하면서 전력 및 공간이 제한적인 임베디드 시스템에서 가장 효율적으로 엔드투엔드 가속을 지원하는 단일 칩 솔루션에 대한 요구가 높아지고 있다”고 말했다. 이어 그는 “40년 이상 축적된 적응형 컴퓨팅 리더십을
ISO26262 기준에 부합하는 관리 프로세스에 맞춰 오토모티브향 NPU IP 개발 사피온(SAPEON, 대표 류수정, www.sapeon.com)은 오늘, 자율주행 추론용 오토모티브향 NPU(신경망처리장치) IP가 제3자 국제 평가인증기관인 DNV(Det Norske Veritas)로부터 ISO 26262 인증을 획득했다고 밝혔다. 사피온은 자율주행 차량이 요구하는 추론 요건 및 안전 설계 요구 사항을 만족하기 위해 ISO26262 기준에 부합하는 관리 프로세스에 맞춰 다양한 방식의 안전 기능을 추가해 오토모티브향 NPU IP를 개발했다. 자율주행차는 향후 인간의 개입 없이 실시간으로 바뀌는 도로 환경에서 스스로 인지, 판단, 제어해야 하기에 더욱 안전하고 높은 신뢰성을 보장해야 한다. 이처럼 기능안전 표준에 부합하는 개발이 요구되는 상황에서 사피온은 기능안전 국제표준인 ISO26262 인증을 통해 전장부품의 고장이나 오작동을 최소화하고자 하는 시장 요구에 가장 잘 부합하면서도 포괄적이고 엄격한 프로세스 표준을 수립했다는 평가를 받게 됐다. 사피온은 자율주행 자동차용 AI NPU IP를 내년에 선보일 계획이다. 사피온의 데이터 센터용 X330과 신경망 처리
헬로티 함수미 기자 | 한국전자통신연구원(ETRI)은 학습과 추론을 가속할 수 있는 시스템을 개발했다. 자체 개발한 AI 반도체를 활용한 결과이기에 더욱 의미 있는 결과다. 국내연구진은 고성능 AI 반도체 칩을 활용하여 낮은 전력으로 초당 약 5천조 회 연산이 가능한 인공지능 시스템을 개발했다. 사회 전반에 AI가 빠르게 도입됨에 따라 복잡하고 정교한 대규모 연산 처리의 필요성이 높아지고 있다. 하지만 기존 컴퓨터와 모바일에서 주로 활용된 중앙처리장치는 단순 계산에 최적화되어 있다는 한계가 있다. 이에 GPU가 주로 활용되고 있으나 구조적으로 인공지능 연산 처리에 최적화되어 있지 않아 데이터 지연 및 전력 낭비가 발생한다. NPU 기반 AI 반도체가 차세대 AI 두뇌로 떠오르는 이유다. ETRI는 작년 NPU 기반 AI 반도체 칩, AB9을 공개한 데 이어 올해 AB9 기반 보드와 인공지능 시스템을 개발하는 데 성공했다. 자율주행차, 클라우드, 데이터센터, 사람·사물·음성 인식 등 AI 응용 서비스를 제공하는 고성능 서버에 본격적으로 활용하기 위함이다. 연구진이 개발한 NPU 보드 ‘ABrain-S’는 AB9을 기반으로 독자적인 설계를 이뤄 부피가 작으면서도