상용화의 필수 조건, '품질'
인공지능을 개발하는 이유는 인공지능 기반의 제품이나 서비스를 만들기 위함이다. 누군가가 사용할 수 있도록 제품을 만드는 것이 바로 상용화다.
상용화에서 가장 중요한 요소는 바로 품질이다. 품질을 확보한다는 것은 곧 제품을 사용자의 요구사항에 부합하도록 만드는 것이다. 인공지능 서비스의 경우, 정확도가 99%인 인공지능 서비스가 필요하다는 고객의 요구사항이 있다면, 이를 만족하는 시스템을 만드는 것이 품질 확보다.
그러나 인공지능이 고객의 요구사항에 100% 부합하기 쉽지 않다. 인공지능의 성능을 최적화하기에는 아직 부족한 부분이 많다. 불과 작년 한 자율주행차가 트럭에 돌진하는 사고가 발생했다. 장애물 앞에서 멈추는 것은 가장 기본적인 성능인데, 그 성능에 대한 요구사항도 충족하지 못한 것이다. 상용화의 필수 조건이 품질 확보인 것을 생각해보면, 이와 같은 서비스는 기준 미달이다.
품질 확보를 넓은 의미로 보면, 제품을 쓰는 사용자의 1차적인 요구를 충족하는 것을 넘어 결함으로부터도 자유로워야 한다. 현재 인공지능에는 예상치 못한 기능, 성능 상의 결함도 많이 발생하기에, 품질을 광의적으로 해석한다면 인공지능 기반 제품의 상용화는 더욱 멀다.
윤리적인 측면에서의 사용 적합성 기준도 있다. 자율주행차가 무단횡단 중인 보행자를 치어 숨지게 한 사건이 있었다. 차량은 라이다 센서를 통해 보행자를 감지했으나, 운전 효율에 우선순위를 뒀고 멈추지 않았다. 이 자율주행차의 경우, 보행자를 감지하긴 했으므로 협의적인 품질에는 부합했을지 모르겠지만, 사용 적합성 측면에서는 완전히 탈락이다.
얼마 전 이슈가 됐던 이루다 사건도 같다. 자유롭게 채팅을 할 수 있다는 기본적인 성능은 충족했으나 혐오 발언, 개인정보 유출 등 윤리적인 이슈가 발생, 사용 적합성 측면에서 불합격을 받았다.
인공지능 개발 과정은?
인공지능의 시스템은 일반적인 소프트웨어보다 더 복잡하다. 기존의 하드웨어, 소프트웨어에 더해 많은 데이터와 AI 모듈이 합쳐져 사용자와 상호작용을 해야 하기 때문이다.
제품의 품질을 갖추기 위한 개발 절차를 기존의 소프트웨어 분야에서는 V모델이라고 부른다. 설계, 구현, 테스트 등의 과정이 V자를 그리며 진행된다. 각 단계별로 제대로 검증해야, 상용화가 이뤄질 수 있다는 것이 V모델의 기본적인 철학이다.
인공지능 모델의 개발 프로세스는 V모델보다 더 복잡하다. 가운데가 불쑥 솟아오른 W모델이다. 중간에 불쑥 솟아오른 부분은 앞의 단계들을 아우르는 추가적인 검증 단계다.
모든 검증을 거친 인공지능 모델은 결국 실제 개발 환경, 즉 통합 개발 환경에서 구현돼야 한다. 그러나 인공지능 모델을 트레이닝한 곳과 실제 사용자의 디바이스에서 동일하게 모델이 구현되지 않는 경우가 굉장히 많다. CPU나 GPU의 상황이 조금만 틀어져도, 예측하지 못했던 이슈가 발생하게 된다.
그럴 때는 어쩔 수 없이 다시 뒤로 돌아가야(Backward) 한다. 돌아가 다시 개발을 진행할 때마다 새로운 비용이 들어간다. 다시 처음부터 모든 과정을 밟고, 끝내 실제 사용자의 고객 검증 절차를 거치고 나면 드디어 인공지능 제품이 출시될 수 있다.
실패 비용의 문제
실패 비용은 크게 '내부 실패 비용'과 '외부 실패 비용'으로 나뉜다. 다시 개발하기 위해 뒤로 돌아갈 때 발생하는 비용은 내부 실패 비용이다. 외부 실패 비용은 인수 테스트 이후에 발생한 모든 결함을 말한다.
제품 출시 후 해당 제품에서 결함이나 오류가 발견되면 기업은 어마어마한 실패 비용을 감당하게 되는데, 내부 실패 비용의 최소 10배에 달한다. 내부 실패 비용은 개발 과정에서 불가피한 측면이 있지만, 외부 실패 비용은 어떻게든 최소화하는 것이 중요하다.
모든 기업의 목표는 긍정적인 품질 비용의 비중을 늘리고, 실패 비용의 비중을 줄이는 것이다. 외부 실패 비용을 가장 최소화하면서, 내부 실패비용은 적절히 가져가는 것이 가장 좋다.
내부 실패 비용의 비중은 어느 정도가 적당할까. 글로벌 리딩 회사들의 내부 실패 비용은 10~15% 정도다. 외부 실패 비용의 경우, 삼성전자는 외부 실패 비용이 5% 이상이 되면 사업을 중단한다. 대표적인 사례로 약 3조 가량의 손실을 불렀던 갤럭시 노트7의 배터리 폭발 사고가 있다.
핵심은 데이터 품질 확보하기
여러 사례를 분석한 결과, 인공지능 개발 비용의 80%는 데이터 전처리 과정에 들어간다는 것을 발견했다. 소프트웨어 개발에서 흔히 원료 품질이라고 부르는 '데이터'의 품질이 굉장히 중요하다는 의미다.
따라서 비용을 가장 아낄 수 있는 부분은 바로 데이터다. 앞 단계에서 좋은 품질의 데이터를 확보하는 것이 비용을 가장 효과적으로 절감할 수 있는 방법이다. 고르고 일관된 고품질의 데이터가 지속적으로 학습되면 실패 비용을 최소화시킬 수 있다.
실제로 데이터를 수집하는 과정은 간단하지 않다. 데이터 관리 프로세스를 살펴보면, 데이터를 수집하고, 수집한 데이터를 검수하고 난 후, 데이터 가공에 들어가고, 다시 가공된 데이터를 검수하고 나면, 이후에는 구축된 전체 데이터셋을 검수하는 단계를 거쳐서 드디어 인공지능 모델에 얹게 된다.
그런데 맨 앞 데이터 수집 단계에서 데이터의 다양성이 확보되지 않으면, 인공지능 모델에 데이터를 얹었다가, 다시 맨 앞 단계로 돌아가야 할 수 있다.
데이터셋 구축 시 다양한 참여자를 통해 편향성을 최대한 방지해야 한다. 어떤 장비를 이용해 데이터를 수집한다고 하면, 촬영 기법이나 각도, 촬영하는 날씨, 시간 등 다양한 상황을 아울러서 데이터를 수집해야 한다. 인공지능 제품이 사용될 수 있는 다양한 상황의 가능성을 최대한 열어두고 데이터를 수집해야 한다. 어려운 일이지만 할 수 있는 만큼 해야 한다. 그래야 실패 비용을 최소화할 수 있다.
데이터 가공 과정에서도 다양한 편향이 발생할 수 있다. 예를 들어, 사람의 표정으로 인간의 감정을 태깅한다고 했을 때, 똑같은 표정을 보고도 주관적인 해석이 들어갈 수 있다. 이 모두를 고려해서 가공의 편향성도 최대한 방지해야 한다.
데이터 품질에 영향을 끼치는 태깅 오류
크라우드소싱 플랫폼에서 불특정다수를 태깅 작업에 동참시키는 경우, 다양한 사람들이 프로젝트에 참여하는 것 자체는 좋은 일이지만, 수집하고 가공하는 일에 일관성을 유지하기는 어려울 수 있다. 이러한 태깅 작업 단계에서 여러 문제가 발생할 수 있는데, 미(未)태깅, 오(誤)태깅, 과(過)태깅 등이 그것이다.
미태깅은 별도의 태깅이 필요하지만 작업자의 부주의로 태깅하지 않는 경우다. 다수의 사람들이 가공에 참여하면 이런 상황들이 생긴다. 오태깅은 레이블 분류가 아예 잘못돼 있는 경우다. 트럭으로 태깅된 이미지 중 언뜻 보기엔 트럭이지만 사실은 세단인 경우가 있었다.
이런 식으로 객체가 아예 잘못 태깅되는 경우다. 레인지 오류도 있다. 객체 영역보다 작거나 크게 태깅된 경우, 모두 범위 오류에 속한다. 과태깅은 정의하지 않아도 상관없는 객체까지 모두 태깅한 경우다. 잘려진 사진 등을 태깅하는 경우가 이에 속한다.
이중에서 인공지능 학습에 가장 치명적인 것은 오태깅이다. 만약 데이터를 검수할 시간이 없다면 오태깅을 중심으로 검수해야 한다. 모든 과정에서 일관된 기준이 적용되는 것이 중요한데, 따라서 데이터 총괄 검수자가 있으면 좋다. 한 사람의 기준을 적용해서 검수해야만 데이터의 품질이 균일해진다.
아울러, 데이터셋 수집 및 가공, 검수의 비중이 3:7 정도인 만큼, 검수 단계를 철저히 하지 않으면 데이터셋 구축 앞 단계에서의 데이터 품질 확보는 어렵다.
결론
인공지능은 이제 막 상용화로 가는 걸음마를 뗐다. 인공지능 상용화에 성공하기 위해서는 사용 적합성을 갖춘 제품을 적시에 출시하는 게 중요하다. 그와 함께 품질 비용을 최소화해야 한다. 이에 성공한 기업이 결국 성공한다.
인공지능을 개발하는 기업에겐 어쩔 수 없이 외부 실패 비용이 따라올 수밖에 없을 것이다. 피할 수 없다면 먼저 매를 맞는 것이 낫다. 전략적 파트너십이 있다면, 합의를 통해 작은 인공지능 서비스라도 계속 출시하면서 외부 실패 비용을 빠르게 줄여가는 것도 방법이다.
내부 실패 비용도 어떻게든 최소화해야 한다. 핵심은 데이터 품질을 확보하는 것이다. 수집되는 원천 데이터의 품질도 중요하고, 수집 및 가공 과정에서 데이터의 편향성을 방지하는 것도 중요하다.
가공 작업자를 제대로 교육하고, 또 작업자가 디테일하게 따라할 수 있는 태깅 가이드도 확보해야 한다. 체계적인 데이터 품질 관리도 필요하다. 제3자 품질 검증을 할 수 있어야 하고, 데이터셋 구축 과정 초기에 검증을 통해 문제를 빨리 찾아내야 한다.
인공지능 상용화는 단일 기업이 혼자서 하기 어렵다. 글로벌 리딩 회사들의 경우도, 단독으로 인공지능을 개발하는 경우가 거의 없는 만큼, 경험 많고 믿을 만한 파트너를 확보하는 것도 중요하다.
※테스트웍스는 2016년부터 인공지능 데이터 가공을 시작한 인공지능 전문기업이다. '무한의 가능성을 테스트한다'는 의미가 담겼다.
헬로티 이동재 기자 |