플랜트에 대한 AI 도입 문제와 리스크 분석
대규모 플랜트에 AI를 도입하는 것은 일반 사회에 AI를 실장하는 것과는 조금 다른 의미에서 제기되는 문제가 있다. 충분히 검증되지 않은 AI로 인해 오작동을 일으킨 경우에 사고로 이어지면 설비뿐만 아니라 인적 피해도 발생할 수 있다. 특히 AI의 블랙박스성 때문에 AI의 성능이나 품질, 신뢰성을 어떻게 규정하고 평가할지 쉽지는 않다. 애초에 AI 학습 자체가 귀납적이고 도출된 규칙은 말로 설명할 수 없기 때문에 확신 있는 결과를 얻기가 매우 어렵다.
AI 자체에 설명성을 부여하기 위해서는 예측 결과에 대한 공헌도를 제시시키는 그레이박스화나 또는 판단 이유를 명확하게 하는 화이트박스화와 같이 알고리즘 진화의 시도도 기대되지만, 실장까지는 과제가 있는 것이 실정이라고 생각된다.
한편으로 우리 엔지니어에게는 이미 알려진 공학에 심층학습 AI를 조합함으로써 과제 해결을 용이하게 하는 솔루션이 존재한다. 공학적 룰이나 시뮬레이션, 현장 노하우, 제어 시스템, 해명되어 있는 파괴 모드(보안 분야) 등과 AI를 조합하는 것이다. 내용이 분명한 공학적 계산을 중심으로 AI로 보완해 확장함으로써 시스템 전체로서 결과 해석이 용이해지도록 매우 능숙하게 사용하는 접근법이다.
AI의 안심할 수 있는 사용법에 대해서는 세계적으로 논의되어 규제 등 다양한 시도가 이루어지고 있는데, 일본 경제산업성의 ‘플랜트 보안 분야 AI 신뢰성 평가 가이드라인’이 해결책이 된다. 예를 들어 AI가 부적당한 답을 냈다 하더라도 시스템 전체에서 안전성을 담보한다는 가이드라인은 다른 나라의 예를 보아도 획기적이다. 이 가이드라인에서는 AI가 플랜트에서 기대한 대로의 품질을 달성하는 것(=신뢰성)을 평가하는 체계(AI Performance Level)가 정비되는 동시에, AI와 이것을 둘러싼 외부 안전 기능 등 시스템 전체의 리스크 회피성 수준(AI Safety Level)의 개념이 정비됐다. 풍부한 실례와 해설이 보강된 실시 내용 기록 포맷을 따르면, 개발 단계에서 배려해야 할 점을 빠짐없이 개발할 수 있는 데다 개발 사상의 기록이 남는 효과적인 구조이므로 꼭 많은 분들이 이용하기를 바란다.
플랜트 이외의 일반 분야에서는 미국을 비롯해 AI의 사회 실장이 선행된 나라가 있는데, 이미 실장된 AI가 일으킨 트러블, 예를 들어 ‘AI 스피커가 주인의 의도에 반하여 물품을 주문하거나’, ‘부부싸움 음성에서 이혼 조정 변호사의 CM이 나온다’ 등은 가볍지만, ‘원래 붙잡혀서는 안 되는 사람이 구금되거나’, ‘AI의 오판단으로 직장을 잃는 것’과 같이 간과할 수 없는 사례까지 실제로 많은 사람들이 피해를 입어 소송으로 이어지고 사회 문제가 되고 있다.
일본에서도 ‘리쿠나비(일본 리쿠르트가 제공하는 개인의 캐리어를 지원하는 서비스)’가 AI를 사용해 학생의 내정 사퇴율을 산출, 기업에 판매했던 문제가 있어 AI 자체뿐만 아니라 실장 후의 잘못된 사용법이나 오해도 포함해 AI 서비스가 일으킬지도 모르는 트러블의 리스크를 서비스 제공자가 사전에 평가할 필요가 생겼다.
서비스 제공자부터 이용자까지 다양한 이해관계자 간의 여러 가지 리스크를 컨트롤하는 것은 쉽지 않지만, 이것에 대해 도쿄대학 미래비전연구센터가 AI 서비스의 리스크 평가를 위한 ‘리스크 체인 모델’을 제안하고 있다. 리스크의 구성 요소를 정리해 구조화하고, 리스크 시나리오를 가시화해 요인이 되는 요소를 특정하기 쉽게 함으로써 이해관계자 간의 리스크 컨트롤을 검토하기 쉽게 하는 프레임워크이다. 리스크 시나리오 입안이 쉽지 않으며 익숙해질 필요가 있지만, 망라적으로 리스크를 컨트롤할 수 있는 기법은 달리 유례가 없는 귀중한 것이므로 활용이 요망되는 제안이라고 생각한다.
AI 가이드라인의 동향
2010년대 들어 AI 활용의 효용이 사회에 인지되는 한편, AI의 군사 전용으로 유엔이 문제시하고 있는 자율 살상 무기, 안면 인증이 과도한 감시 사회, AI에 의한 개인 신용 평가 시스템, AI에 의한 성격 분석의 심층 심리에 호소하는 인심 조작 등 AI 기술의 악용이나 과도한 예가 현실로 나타나 이것을 피해야 한다는 생각이 세계적으로 논의되어 각국의 가이드라인이나 법안, 규격이라는 형태로 나오고 있다.
유럽연합에서는 전년 AI 백서에서 퍼블릭 코멘트를 정리한 후, 2021년 4월에 AI 규제의 유럽연합 법안이 제출됐다. AI를 신뢰할 수 있는 편리성 높은 것으로 발전시키기 위해 하이리스크한 사용법을 4단계로 카테고리화해 규제하고 위반 기업에는 거액의 벌금을 부과하는 내용이다.
AI 규제 법안 제출 이틀 전에 미국 연방거래위원회(FTC)로부터 ‘편중된 알고리즘을 사용하거나 판매하거나 하는 기업을 추궁할 계획’이라는 의향 성명서가 나와 화제가 됐다. 아직 법제화되지는 않았지만, 주시할 필요가 있다.
유럽연합 위원회는 또한 2022년 9월에 ‘현행 지령을 현대화시키는 새로운 제조물 책임 지령안’과 ‘AI 개발 사업자의 민사 책임에 관한 지령안’을 발표해 제조물 결함으로부터 소비자를 보호하는 법률에 디지털 서비스와 AI도 대상으로 다루게 됐다. 적용 대상이 되는 제품에는 소프트웨어가 포함된다는 점, 또한 제품의 결함이 디지털 서비스나 사이버 시큐리티 대응 등의 소프트웨어 업데이트 혹은 그 결여에 의한 경우에도 제조 사업자가 책임을 지는 것이 명확하게 되어 있다.
제조물 책임 지령안은 AI 시스템도 적용 대상으로 하고 있지만, AI 시스템은 그 복잡성이나 블랙박스 문제로 인해 그 결함이나 인과관계를 입증하기가 무엇보다 어렵고 고액이기 때문에 피해자의 입증 책임에 있어 인과관계 추정을 도입해 AI 규제 프레임워크 규칙안이 규정하는 하이리스크의 AI 시스템 개발 사업자에 대한 정보공개 청구를 용이하게 하기 위한 규정이 별도로 마련되어 있다.
AI 규제 법안도 AI 제조물 책임법도 모두 유럽연합 역내 법률인데, AI가 소프트웨어로서 유럽연합 역내에서 사용되거나 혹은 사용되는 제품에 포함되면 일본 기업도 대상이 된다. 유럽연합 역내 수입 사업자, 인정 대리인, 온라인상의 마켓플레이스 등의 판매 사업자도 포함되며, 출시된 제품에 실질적인 개조를 한 사업자도 제조물 책임을 진다.
2022년 10월에는 미국 백악관 과학기술정책국(OSTP)이 AI가 초래하는 피해와 차별로부터 미국 국민을 보호하기 위한 ‘AI 권리장전’의 초안을 발표했다. 그 중에서 ‘5가지 원칙’으로 다음과 같은 내용이 규정되어 있다.
1. 안전한 시스템으로서 독립 기관에 의한 평가와 가능한 한 그 결과를 공개하는 것을 요구한다.
2. AI 알고리즘이 초래하는 차별로부터 보호하기 위해 제공자는 적극적이고 지속적인 사용자 차별 보호 대책을 마련해야 한다.
3. 데이터 프라이버시를 위해 제공자는 사용자에게 데이터 수집에 관한 정보를 알기 쉽게 통지해야 한다.
4. 사용자 자신에게 미치는 영향에 대해 이해하는 권리로서 통지와 설명을 해야 한다.
5. 인간에 의한 대체 수단을 선택할 권리를 설정해야 한다.
등의 내용이 규정되어 있다. 미국의 경우, 일본 기업이라도 미국 집단소송 디포지션에 의해 경영자가 호출되어 심문적 절차가 이루어지는 경우가 있어 기준이 될 수 있는 주의 의무의 준수 노력이 매우 중요하므로 일본의 경우 AI 개발에서 기반이 되는 경제산업성의 가이드라인을 준수해 두는 것이 효과적일지도 모른다.
플랜트용 AI 도입 사례 소개 : 리스크 매트릭스, 장치 감시 AI
장치 감시 AI는 동사가 개발한 플랜트 내의 개별 센서 정보나 물리 모델 등으로부터 장치 전체의 상태를 파악해 장치 내의 이상을 검지하고, 이상 대상(기기․계기)과 거기서부터 이어질 수 있는 트러블을 안전 설계 관점에서 미리 정리된 장치의 리스크 중요도와 대응의 긴급성이라는 두 가지 축의 매트릭스에 플롯해 제시하고 취해야 할 권장 조치도 즉시 제시하는 AI 시스템이다.
이 AI 개발의 계기는 시동에서 40년 가까이 한 번도 이상 정지한 적이 없는 중요 기기의 고장 징후 AI에 관한 개발을 의뢰받은 것이었다. 과거에 이상 정지한 적이 없으므로 과거 운전 데이터만으로 고장으로 이어지는 상관관계를 찾기 어렵고 학습시키는 데도 정답 라벨이 없다.
그러나 이상 정지로 이어지는 원인은 안전 설계를 거친 플랜트라면 검토가 완료된 것이므로 공학적 접근법으로 이 기기가 트립하는 원인을 모두 추출해 나무 모양 그림으로 정리하고, 각각의 원인을 지금까지 베테랑 운전원이 어떻게 감시해 트립을 회피해 왔는지도 청취하면서 주의할 점을 정리했다.
간단한 감시 기능이나 예측 기능의 AI를 각각의 원인이 되는 계기에 맞춰 만들고, 전체적으로 어떤 요인에서 어디까지의 리스크로 이어질 것인가를 중요도와 긴급성의 매트릭스로 정리했다. 이것이 리스크 매트릭스이다(그림 1 참조). 대상 설비의 트립 리스크가 현재 어떤 위치에 있는지, 리스크 매트릭스 상의 히트맵으로 일목요연해지고 리스크를 낮추기 위해 해야 할 우선순위도 명확해지기 때문에 보수 계획에도 도움이 된다.
플랜트나 대형 기계설비에서는 설계 단계에서 HAZOP․C&E․SIL․ALARP 등 리스크 평가와 안전 설계가 실시되고 있다. 대형 플랜트의 HAZOP 스터디에서는 프로세스/기기/전기/계장/안전/기타 분야의 설계 대표가 한자리에 모여 장시간에 걸쳐 P&ID 상 모든 배관을 칠하면서 고장이나 사고, 인위적 오류에서 천재에 이르기까지 있을 수 있는 모든 트러블 시나리오를 밝혀내서 예상 피해의 크기와 발생 빈도로부터 회피책/대응책을 수정해 설계에 담아내고 있다.
이들 안전 설계의 기록으로부터 손상/트립으로 이어지는 중요도가 높은 중요 기기·계기, 과거에 불량이 발생한 기기·계기에는 개별적으로 그 행동을 AI에게 학습시켜 보다 나은 검지·제시를 한다. 검지 가능한 센서 이상은 물론이고 평상시와는 다른 계기 거동·프로세스 변동, 과거에 발생한 특정 불량이 위에서 말한 AI에 의해 DCS 알람 한도 내에서도 실측값과 AI 예측값의 괴리 정도에 의해 검지되어 경보가 발령된다.
특히 프로세스 조정을 하고 있는 계기·조절 밸브나 그들 루프마다의 압력 균형이 일어날 수 있는 균형 변화는 물리 모델에서 학습 완료한 AI에 의해 현 상황과 모순되는 부분을 발견해 이상을 특정할 수 있다. 예를 들어 매뉴얼 바이패스 밸브가 열려 있을 가능성을 지적해 맞추기도 했다.
또한 장치 내의 모든 계기를 대상으로 변동이 정상일 때와 다르면 이상 판정할 수 있도록 학습한 AI에 의해 장치 전체의 변동이 평소와 다른 경우에 큰 변동을 나타낸 계기를 제시할 수도 있다.
이와 같이 개별 계기를 감시할 뿐만 아니라 물리 모델을 학습한 AI에 의한 계통별 감시도 실시하고, 장치 시스템 전체도 감시할 수 있는 것이 장치 감시 AI 시스템의 특징이다.
이 AI 시스템 설계에서 리스크 매트릭스는 HAZOP 등의 기존 안전 설계 기록을 FTA의 나무 그림 모양으로 정리하고, 또한 최신 리스크 평가를 반영해 만들 수 있다. 리스크 매트릭스는 장치 시스템 전체의 리스크 상태를 세로축에 중요도, 가로축에 긴급성 매트릭스로 나타내고 실시간으로 가시화한다.
중요도는 이상 검지 시의 대상 기기·계기의 리스크 평가 결과·영향도를 바탕으로 검지 대상 내의 최대 영향도를 나타내고, 긴급성은 센서 실측값과 AI 예측값의 괴리 정도를 기초로 평가한 결과로서 나타낸다.
더구나 여러 중요 계기의 과거-현재까지의 변화율과 현재-미래 예측을 반복함으로써 여러 중요 계기의 이상 검지, 평가의 중첩, 종합 평가가 수치로 나타난다. 또한 이들의 결과로서 장치 전체와 루프마다의 리스크 등급 이동을 표시할 수 있으며, 리스크의 변동 기록, 트렌드 그래프로 표시할 수 있다.
매트릭스 상에 표시되는 리스크 평가값은 현장 베테랑 운전원 등의 관점에서 검토한 결과를 Feedback해 종합 평가에 AI 평가 가중치를 부여해 재학습을 함으로써 공장 독자의 운전 감각에 가까운 AI를 육성할 수도 있다.
안전과 관련해서 보면 매트릭스에는 안전 설계상의 정보도 정리되어 있으며, 이들을 바탕으로 중요 계기·기기의 실시간 변화 상태를 AI가 대조해 평가값을 내고 있으므로 이상 감지된 기기·계기에 대응하는 안전 설계 정보도 표시할 수 있다. 또한 이러한 결과를 바탕으로, 거기에 미리 예상되는 권장 조치를 제시할 수도 있다. 그림 2는 그 표시 예이다.
장치 감시 AI 시스템은 안전 설계의 공학 접근법에 의해 만들어진 리스크 매트릭스 AI에서 시작해 베테랑의 기능에 의존하지 않고도 장치 내의 프로세스 변동·이상을 파악해 조기 판단·대응을 촉구하는 장치 감시 AI 시스템으로 발전했다. 다양한 운전 모드와 프로세스 변동을 인식한 후의 경보에 의해 센서 오검지도 줄일 수 있으며, 장치 전체의 감시에 의한 조기 이상 검지·대응 신속화에 의해 전체 리스크 저감에 기여하는 AI 시스템이다.
이 AI는 경제산업성의 플랜트용 AI 안전성 평가 가이드라인 제2판에서 ‘이상 징후 감지·진단 AI’로 소개되어 있다. 가이드라인 체크리스트를 실시한 내용이 일부 기록되어 있으므로 참고하기 바란다.
OT 사이버 시큐리티와 AI 활용
(이 글을 쓸 때에는) 아직 계속되고 있는 우크라이나 침공의 이면에서 사이버 공격이 행해지고 있다는 것은 널리 알려져 있지만, 크림반도가 병합되었을 때부터 인프라인 OT(Operational Technology : 생산 라인이나 시스템의 제어·운용 기술)에 대한 고도의 공격이 이루어지고 있다. 이들 최근의 멀웨어는 모듈형 구조를 가지고 있으며, 침입하면 시스템이나 디바이스를 스캔하면서 감염 전파되고 악의를 가진 코드를 표적의 디바이스에 업로드해 파라미터를 변경할 수 있다. 외부 공격 측 서버와 통신해 추가 기능 모듈을 증강하고 장기간 잠수한 후, 임의로 공격하고 또한 표시값을 은폐할 수도 있다. 산업용 제어 시스템의 전원 스위치나 브레이커를 제어하는 통신 프로토콜을 사용해 직접 외부에서 제어할 수 있도록 하는 모듈이 있으므로 앞으로 플랜트 사업자는 이러한 수법을 염두에 둔 설비 설계나 감시가 필요하다.
2022년 4월에 미국 DOE, CISA, NSA, FBI가 연명으로 산업용 시스템을 탈취하기 위한 멀웨어 Pipedream이 발견됐다고 경고했다. Pipedream은 PLC를 파괴하는 모듈이나 OPC UA 서버를 식별해 접속하는 기본 기능을 가진 모듈을 갖추고 있다.
원래 플랜트나 대형 기계설비에서는 기능 안전의 국제 규격에 정해진 리스크 기반의 안전 대책을 실시하므로 오조작이 일어나도 우연한 고장이 일어나도 플랜트는 안전하게 자동 정지시키는 독립된 기구(안전 계장 시스템 : Safety Instrumented System(SIS))에 의해 물리적 본질 안전으로 지켜지는데, 이미 2017년에 안전 계장 시스템을 공격하는 멀웨어(Hat Man)의 존재가 보고됐다.
즉 OT 사이버 공격에서 ‘플랜트 설비가 공격받는다’는 것은 통상적으로 중앙제어실에서 이루어지는 컨트롤러의 설정 변경이나 밸브 조작 등을 외부로부터 악의를 가지고 실시할 수 있다는 것(공격 대상이 되는 것은 인텔리전스를 가진 네트워크 기기와 서버, 제어기기)이며, 그 조작 자체를 은폐하는 것인 동시에 안전 기능을 작동하지 않게 하는 것이다. 거대한 플랜트에는 수천 개의 컨트롤러와 밸브가 있는데, 어디를 공격받으면 큰 피해로 이어지는지 즉각적으로 알 수 있을까. 공격을 검지할 수 있었다고 해도 자동 제어를 Manual로 전환하거나 또는 정지시킬 수 있을까. 사이버 시큐리티의 국제 규격 IEC62443 Part3-2에는 Zone & Conduit라는 대책과 평가의 시점이 있다. 현장 계장 네트워크를 존으로 나눠 침입/오염된 존만 매뉴얼 조작으로 전환하거나 또는 정지시키면 전체 정지나 파괴를 피할 수 있게 된다.
그러나 조닝(zoning)과 우선순위를 설계하려면 설비의 약점, 리스크 시나리오를 알아야 한다. ‘여기를 공격받아도 분리할 수 있지만, 여기까지 공격받으면 전체 시스템을 정지하지 않으면 위험하다’ 등의 판단 기준으로서 OT 필로소피와 조닝 설계가 필요하며, 이를 위해서는 플랜트 설비의 안전 설계 정보가 필수적이고 플랜트 설계 시에 검토되고 있던 HAZOP/SIL의 기록을 활용하고자 한다.
따라서 앞에서 말한 장치 감시 AI 시스템의 개념을 응용할 수 있다. 우선 이 시스템을 활용해 제어상의 중요 요소를 상위 사상으로 하는 폴트 트리를 HAZOP 정보 등을 해석해 생성한다. 다음으로 중요 요소와 중요 요소의 정지나 이상 동작을 막기 위해 시큐리티상 중요한 구성 요소를 특정함으로써 생성된 폴트 트리/상관관계 정보를 바탕으로 여러 구성 요소를 조닝할 수 있다. 그리고 플랜트가 사이버 공격을 받은 경우에는 센서 표시가 위장되더라도 계통 감시에 의해 이상을 발견할 가능성이 있다.
공격을 받은 장소와 그로부터 영향을 받을 수 있는 장소의 상관관계 정보를 취득해 플랜트 운전에 영향을 미치는 정도가 큰 구성 요소를 상위 사상으로 하는 폴트 트리로부터 대응의 긴급성과 권장 조치를 제시하게 하고, 동시에 장치 전체와 루프마다의 플랜트 전체에 대한 리스크 등급의 급격한 이동을 실시간으로 표시할 수 있게 된다. 이 고안은 중요한 사회기반시설(infrastructure)뿐만 아니라, 널리 OT 분야의 사업자가 사이버 시큐리티 관리를 추진하는 장소에서도 유효할 가능성을 나타내고 있다.