[컴퓨텍스 2025] 전력 위협하는 AI, Arm의 대답은 '엣지 최적화'

2025.05.22 01:49:35

서재창 기자 eled@hellot.net

 

제임스 맥니븐 부사장 “우리는 지금 세대에 한 번 있을까 말까 한 기회의 문 앞에 서 있어”

 

생성형 AI의 급속한 발전은 기술 산업 전반을 뒤흔들고 있다. 특히 텍스트, 음성, 영상 등 멀티모달 처리를 넘어 '에지 인퍼런싱(Edge Inferencing)'이 현실화하면서 새로운 패러다임이 열리고 있다.

 

Arm 제임스 맥니븐(James McNiven) 클라이언트 사업부 부사장이 '컴퓨텍스 2025'에서 열린 기술 포럼에서 AI가 가져올 거대한 기회와 도전에 대해 언급하며, 그 해법으로 고효율 연산과 엣지 중심 설계를 강조했다.

 

 

제임스 맥니븐 부사장은 AI의 급증하는 전력 소모 문제를 지적하며, CPU와 NPU, GPU가 조화롭게 연산을 분담하는 구조를 통해 성능과 효율성을 동시에 추구해야 한다고 언급했다. 이러한 기술적 진보는 AI가 단지 소수의 고성능 클라우드에만 머무르지 않고, 모든 사람의 손끝에 닿을 수 있도록 만드는 데 핵심 역할을 하고 있다. 


제임스 맥니븐 부사장은 "이제는 멀티모달 AI가 음성, 영상, 이미지까지 아우르며 사람과 기계 간 상호작용의 방식 자체를 바꾸고 있다. 이러한 급속한 발전 속에서 주목받는 기술이 바로 '에지 인퍼런싱'이다. 데이터 센터에서의 학습과는 달리, 인퍼런싱은 실제 사용자 디바이스에서 AI가 동작하는 과정으로, 반응 속도, 개인 정보 보호, 에너지 효율성 등의 측면에서 차세대 핵심 기술로 부상하고 있다"고 말했다. 

 

이어 그는 AI의 확산과 함께 직면한 에너지 소비 문제를 정면으로 제기했다. 생성형 AI의 한 번의 질의가 기존 검색보다 최대 15배 이상 많은 에너지를 소모한다는 점에서, 전 세계 데이터 센터가 소도시 전체의 전력 사용량을 넘어서고 있다는 경고도 덧붙였다. 이러한 상황에서 Arm은 고효율 컴퓨팅이 필수적이라고 강조한다. 단순한 하드웨어 성능 향상이 아닌, 소프트웨어 최적화와 맞춤형 칩 설계가 병행돼야 한다는 것이다.

 

특히 Arm 기반 CPU가 이미 대부분의 하이퍼스케일러의 클라우드 인프라에 채택되고 있다는 점은 이들의 설계 철학이 얼마나 광범위하게 수용되고 있는지를 보여준다. 이러한 확장은 단순히 클라우드에 국한되지 않고, 스마트폰, 차량, IoT 기기 등 다양한 엣지 디바이스로 이어지고 있다. 


Arm은 이런 맥락에서 작은 모델과 고효율 칩셋의 결합으로 업계에 실질적인 AI 경험을 제공하고 있다. 실제로 1억 단위의 파라미터를 갖는 Llama나 Mix-of-Experts 모델들이 중저가 스마트폰에서 구동될 수 있도록 최적화하고 있다. 이는 AI의 고도화를 더 이상 고성능 장비의 전유물이 아닌, 모든 사용자에게 확산시키는 데 중요한 전환점을 만든다. 


Arm은 소프트웨어 측면에서도 에지 인퍼런싱을 위한 최적화를 강화하고 있다. 대표적인 예로, Stability AI와의 협업 사례가 있다. 이들은 텍스트-음성 변환 오픈소스 모델을 Arm CPU에서 실시간 구동하도록 최적화했으며, 이는 기존 대비 30배 이상 속도 향상을 이뤄냈다. 이처럼 오디오 기반 AI 생성도 고성능 서버 없이 개인 기기에서 처리하는 시대가 도래하고 있다. 한 예로, Arm의 '클레이디(Kleidi)’는 이 같은 최적화를 가능하게 하는 핵심 소프트웨어 프레임워크다. 

 

이와 함께 Arm은 CPU 중심 구조를 넘어 GPU와 NPU의 병행 활용, 즉 이기종 컴퓨팅(Heterogeneous Computing)의 방향성을 제시했다. 예를 들어, 대부분의 스마트폰에는 Arm CPU 외에도 GPU, NPU가 함께 내장돼 있으며, 각 부품이 상황에 따라 효율적으로 연산을 분담한다. 개발자 입장에서도 어떤 연산을 어떤 프로세서로 처리할지 선택권이 넓어지며, AI 기능이 필요한 다양한 앱에 이를 손쉽게 구현하게 된다. 

 

 

가장 주목할 점은 SME(Scalable Matrix Extension)라 불리는 Arm의 신형 명령어 세트다. 제임스 맥니븐 부사장은 "이 기능은 고성능 매트릭스 연산을 CPU 상에서 효율적으로 처리하도록 설계됐으며, AI 모델의 학습이나 추론에 필요한 연산량을 줄이면서도 성능은 오히려 향상시키는 결과를 가져온다. 특히 에너지 절감이 중요한 모바일 환경에서 SME의 적용은 배터리 사용시간을 연장시키는 데 기여한다"고 말했다. 

 

제임스 맥니븐 부사장은 이러한 기술 요소가 하드웨어, 소프트웨어, 생태계 전반에 걸쳐 유기적으로 통합돼야 진정한 AI 확산이 가능하다고 강조했다. 단순한 칩 개발을 넘어, 개발자 도구, 프레임워크 최적화, 파트너사와의 공동 프로젝트 등 총체적인 접근이 필요한 셈이다.

 

이러한 환경에서는 단순한 성능 외에도 일관된 응답 시간과 낮은 지연 시간, 그리고 고정된 전력 범위 내에서의 안정적인 작동이 필수적이다. Arm은 이를 위해 커스텀 실리콘 설계를 도입하고 있다. 각 고객사 및 파트너가 자신의 사용 목적에 최적화한 칩을 설계하도록 Arm 아키텍처를 기반으로 설계 자유도를 제공하는 것이다. 이 전략은 AWS, 구글, 알리바바 등 주요 하이퍼스케일러들이 자체 AI 칩을 개발하는 추세와도 일치하며, Arm 기반 CPU가 이들의 기본 구조로 채택되는 이유이다. 

 

엣지 컴퓨팅의 효율성은 단지 연산 속도나 전력 효율에만 그치지 않는다. 네트워크 인프라 비용의 절감, 분산형 아키텍처로 인한 장애 대응 능력 향상, 그리고 다양한 로컬 기기 간의 자율적 데이터 처리 등 다양한 이점이 함께 발생한다. Arm은 이러한 구조가 AI 서비스의 민주화를 가능하게 한다고 보고 있다. 값비싼 서버와 네트워크 없이도 일반 사용자가 고도화한 AI 기능을 누리는 환경이 현실화하는 것이다.


Arm은 AI 생태계 전반의 발전을 위해 개발자 경험 개선에도 주력하고 있다. 현재 전 세계적으로 2200만 명 이상의 Arm 생태계 개발자들이 존재하며, 이들이 쉽게 AI 기능을 구현하도록 다양한 툴과 문서, 프레임워크 연동을 제공 중이다. 특히 CLI AI는 PyTorch, TensorFlow, ONNX 등 주요 AI 프레임워크에 기본 통합돼 있어 개발자가 복잡한 하드웨어 명령어를 알지 못해도 최적화한 성능을 얻을 수 있게 돕는다. 

 

제임스 맥니븐 부사장은 젠슨 황(Jensen Huang)이 강조한 “하드웨어는 언젠가 교체되지만, 소프트웨어는 영원하다”는 문구를 언급하며, Arm이 장기적 관점에서의 소프트웨어 중심으로 접근하고 있음을 시사했다. 이에 소프트웨어 라이브러리의 자동 최적화 및 연동성 확보는 핵심 과제다. 실제로 마이크로소프트와의 협업을 통해 토큰 생성 속도를 2배 향상시키는 성과를 이룬 것도 이러한 전략의 일환이다. 


제임스 맥니븐 부사장은 “미래의 AI는 얼마나 똑똑한 모델이냐보다, 그것을 얼마나 효율적이고 안전하게 확장시킬 수 있느냐에 달렸다”고 말하며, 하드웨어·소프트웨어·생태계 전반의 통합을 통한 전방위적 확장성을 지향한다고 언급했다. 

 

헬로티 서재창 기자 |

Copyright ⓒ 첨단 & Hellot.net





상호명(명칭) : (주)첨단 | 등록번호 : 서울,자00420 | 등록일자 : 2013년05월15일 | 제호 :헬로티(helloT) | 발행인 : 이종춘 | 편집인 : 김진희 | 본점 : 서울시 마포구 양화로 127, 3층, 지점 : 경기도 파주시 심학산로 10, 3층 | 발행일자 : 2012년 4월1일 | 청소년보호책임자 : 김유활 | 대표이사 : 이준원 | 사업자등록번호 : 118-81-03520 | 전화 : 02-3142-4151 | 팩스 : 02-338-3453 | 통신판매번호 : 제 2013-서울마포-1032호 copyright(c) HelloT all right reserved.