엔비디아 GTC 2024 기조연설에서 공개된 디지털 트윈 기반 AI 훈련장 기술은 산업 자동화의 새로운 가능성을 제시
AI 컴퓨팅 기술 분야의 선두주자인 엔비디아가 디지털 트윈으로 실시간 AI를 시뮬레이션해 산업 자동화에 큰 발전을 이룰 수 있다고 소개했다.
엔비디아 창립자 겸 CEO 젠슨 황(Jensen Huang)은 GTC 기조연설에서 개발자가 디지털 트윈(digital twin)을 사용해 대규모 실시간 AI를 산업 인프라에 적용하기 전, 이 전체를 먼저 시뮬레이션 한 후에 개발, 검증하고 개선한다면 상당한 시간과 비용을 절감할 수 있다는 것을 시연을 통해 보여줬다.
실시간(Real-Time) AI는 제조, 공장 물류, 로보틱스 분야의 중대한 작업을 처리하는 데 큰 도움을 주고 있다. 시뮬레이션을 우선으로 실시하는 접근방식은 부피가 큰 제품, 고가의 장비, 협동 로봇 코봇(cobot) 환경, 복잡한 물류 시설을 다루는 산업에서 자동화 기술의 발전을 한 단계 끌어올리고 있다.
엔비디아 옴니버스(Omniverse), 메트로폴리스(Metropolis), 아이작(Isaac)과 cuOpt 플랫폼이 서로 상호작용하는 AI 훈련장(gym)에서, 개발자들은 인간과 로봇이 예측 불가능한 복잡한 상황을 탐색할 수 있도록 AI 에이전트(Agent)를 훈련시킬 수 있다.
데모 영상은 오픈USD(OpenUSD) 앱 개발과 연결을 위해 엔비디아 옴니버스 플랫폼으로 만들어진 10만 평방 피트 규모의 창고 디지털 트윈을 보여준다. 이는 수십의 디지털 작업자와 다수의 자율주행로봇(AMR), 비전 AI 에이전트와 센서를 위한 시뮬레이션 환경으로 활용되고 있다.
엔비디아 아이작 퍼셉터(Isaac Perceptor) 멀티-센서 스택을 실행하는 각각의 자율주행로봇은 모두 디지털 트윈에서 시뮬레이션한 6개의 센서로 시각 정보를 처리한다.
동시에 비전 AI용 엔비디아 메트로폴리스 플랫폼은 전체 창고에서 작업자 활동에 대한 단일 중앙집중식 지도를 생성해 천장에 장착된 100개의 시뮬레이션 카메라 스트림과 멀티 카메라 추적을 융합한다. 이 중앙집중식 점유 지도(occupancy map)는 복잡한 라우팅 문제를 해결하기 위해 엔비디아 cuOpt 엔진이 계산한 자율주행로봇의 최적 경로를 알려준다.
AI 기반 최고의 최적화 마이크로서비스인 cuOpt는 GPU 가속 진화 알고리즘을 사용해 여러 제약 조건이 있는 복잡한 라우팅 문제를 해결한다.
이 모든 과정은 실시간으로 이루어지며, 아이작 미션 컨트롤(Isaac Mission Control) 은 cuOpt의 지도 데이터와 경로 그래프로 모든 자율주행로봇을 조정해 명령을 전송하고 실행하게 한다.
AI 에이전트는 공장에서 다수의 로봇을 관리하거나 공급망 유통 센터에서 인간과 로봇의 협업을 위해 간소화된 구성을 파악하는 등 대규모 산업 환경을 지원한다. 이러한 복잡한 에이전트를 구축하려면 개발자는 AI 평가, 시뮬레이션과 훈련을 위해 물리적으로 정확하게 구현된 AI 훈련장과 같은 디지털 트윈 환경이 필요하다.
AI 에이전트와 자율주행로봇은 소프트웨어 인 더 루프(software-in-the-loop, SIL) AI 테스트를 통해 예측하기 힘든 실제 환경에 적응할 수 있다.
위의 데모에서는 자율주행로봇이 계획한 경로 중간에 사고가 발생해 경로가 차단되고 로봇은 화물 운반대를 픽업하지 못한다. 그러면 엔비디아 메트로폴리스는 점유 그리드(occupancy grid)를 업데이트해 모든 사람, 로봇, 물체가 한 눈에 보이도록 매핑한다. 그 다음, 자율주행로봇은 cuOpt가 계획한 최적 경로에 따라 대응해 가동 중단 시간을 최소화한다.
메트로폴리스 비전 파운데이션 모델이 엔비디아 비전 인사이트 에이전트(Visual Insight Agent, VIA) 프레임워크를 구동함으로써, AI 에이전트는 "공장의 3번 통로에서 어떤 상황이 발생했습니까?"와 같은 운영 팀의 질문에 "오후 3시 30분에 선반에서 상자가 떨어져 통로를 막았습니다"와 같이 바로 통찰력 있는 답변을 제공할 수 있다.
개발자는 비전 인사이트 에이전트 프레임워크를 통해 엣지와 클라우드 비전에 배포된 언어 모델을 사용, 대량의 실시간 혹은 보관된 영상과 이미지를 처리할 수 있는 AI 에이전트를 구축할 수 있다. 이 차세대 비전 AI 에이전트는 자연어를 사용하는 영상에서 요약, 검색, 그리고 실행가능한 인사이트를 추출함으로써 거의 모든 산업에 도움이 될 수 있을 것으로 기대된다.
이러한 모든 AI 기능은 지속적인 시뮬레이션 기반 훈련을 통해 향상되며, 모듈식 엔비디아 NIM 추론 마이크로서비스로 배포된다.
헬로티 김진희 기자 |