전략 수정 필요한 데이터 라벨링, 생성 AI 최적화 전략 대두

2023.04.12 17:13:14

서재창 기자 eled@hellot.net

 

챗GPT 등장으로 AI 정책 수정 불가피...생성 AI에 걸맞은 정책 발표할 예정

 

챗GPT 등장으로 상징되는 생성형 인공지능(AI) 기술이 IT 분야에 대변혁을 가져오면서 정부의 AI 정책을 포함한 디지털 산업 정책 전반에도 수정이 불가피해졌다. 

 

대표적인 것이 지난 정부 '한국판 뉴딜' 사업의 하나인 디지털 뉴딜에서 시작한 데이터 라벨링 사업이다. 과학기술정보통신부는 이 사업을 생성 AI 시대에 맞춰 혁신하는 방안을 추진 중이다.

 

 

12일 정부의 디지털 뉴딜 정책 설명(2020년 발표)에 따르면, 정부는 데이터 라벨링에 대해 "옷의 안쪽에 천 조각으로 상표나 품명, 취급 주의사항이 적혀있는 것처럼 화면 속 객체가 개인지, 고양이인지, 사람인지, 페이크 영상인지 구분해 인공지능이 인식하는 형태의 데이터로 컴퓨터에 입력하는 것"이라고 설명한다. 

 

단순·반복 작업이어서 '인형 눈알 붙이기'라는 비유도 나왔지만, 당시 정부는 "인공지능도 사람처럼 지식을 축적하려면 양질의 정보가 필요하기 때문"이라고 데이터 라벨링의 필요성을 설명했다. 그러면서 "데이터를 수집, 입력, 정리하는 등의 작업에는 많은 인력 수작업이 필요해 일자리 창출로 연결될 것"이라고 전망했다.

 

하지만 3년이 지난 현재 데이터 라벨링 사업은 전면 재수정이 불가피해졌다. GPT 시리즈 등장 때문이다. GPT 등장 전에 법률 전문 도서를 분석해 판결 해석 초거대 AI 서비스를 만들려고 했을 때 라벨이 붙은 데이터가 10만 건이 필요했다. 하지만 지금은 1만 건으로 필요 데이터양이 대폭 줄었다. 

 

챗GPT 같은 인공 신경망을 사용한 생성형 AI는 '토큰'이라고 부르는 사전학습 대상이 된 데이터를 써서 정확도를 높였기에 라벨링 데이터가 예전처럼 대량 필요하지 않게 된 영향이다. 과기정통부도 이를 인식하고 데이터 라벨링 사업을 생성 AI 시대에 맞게 변형하는 것을 검토 중이다. 

 

지난달 말 공고된 올해 인공지능 학습용 데이터 구축 지원사업 예산은 2188억 원으로 확정됐지만 내년부터 규모가 축소되거나 현재 118종 데이터로 구성된 지원 과업 분야가 바뀔 가능성이 높은 것으로 관측된다. 

 

다만, 데이터 라벨링 사업이 전면 폐기되는 것은 아니다. 생성 AI 시대에도 고품질 데이터 라벨링을 통한 지도학습이 꼭 필요하기 때문이다. 과기정통부 관계자는 "지난해 말 챗GPT가 등장하기 전부터 데이터 라벨링 사업 개선에 대한 고민을 해왔고 최근 공고한 올해 사업에서도 가능한 범위에서 생성 AI에 맞게 사업 내용을 반영했다"며 "내년 데이터 라벨링 사업을 혁신하는 방안을 현재 내부 검토 중"이라고 말했다.

 

한편, 생성 AI 파고가 국내 IT 업계를 덮치면서 오픈AI의 GPT 기술과 연동한 응용 서비스가 우후죽순으로 탄생하는 가운데 정책 당국은 국내 AI 업계 지원 방향을 두고 장고 중이다. 최근 챗GPT에 외부 정보와 서비스를 불러와 사용하는 '플러그인' 기능이 출시되면서 GPT와 연결을 통해 AI 경쟁력을 확보하려는 국내 스타트업이 많아지며 고민이 깊어졌다는 후문이다.

 

스타트업 업계 일각에서는 "GPT 기술을 활용하는 것은 대세가 됐고 정부는 이를 위한 클라우드 비용을 지원해야 한다"는 요구가 나오는 상황이다. 하지만, GPT 활용이 대세가 되면 그동안 구축한 라벨링 데이터가 무용지물이 될 가능성뿐 아니라 국내에서 발생하는 데이터가 오픈AI로 흡수될 우려도 크다는 게 정부 고민이다. 해외 AI 거인 기업이 정책을 바꾸면 국내 업계가 타격을 받을 기술 종속 우려도 나온다. 

 

AI 기반 일상대화 플랫폼 개발사 레플리 우종하 대표는 "스타트업 입장에서는 GPT 기술을 쓰지 않으면 다른 애플리케이션으로 고객을 뺏기는 상황이라 쓰지 않을 수 없다"면서 플러그인이 아닌 우리 앱만의 장점을 계발하는 것이 스타트업들의 고민이라고 전했다. 

 

우 대표는 "오픈AI 역시 아직 초기여서 AI 시장을 장악할 수 있다고 정해지지 않았기에 국내 거대 IT 기업도 도전해볼 만한 기술력이 있고 최소한 국내 시장은 지킬 수 있다고 본다"고 말했다.

 

국내 스타트업이라고 해서 모두 GPT 기술만 바라보는 것도 아니다. 레플리, 스캐터랩 등 대화 서비스 전용의 파운데이션 모델을 개발하는 기업들을 정부가 적극 지원해 데이터 수집, AI 모델 개발, 서비스 단계로 이어지는 수직적 생태계를 구성해야 한다는 요구가 나오는 대목이다. 

 

영상 AI 파운데이션 모델 개발사 트웰브랩스 정진우 COO는 "오픈AI가 언제까지나 1등이라는 보장은 없다"며 "불확실성은 있지만 지금 시점에서 국내 AI 경쟁력을 놓아서는 안 된다"고 강조했다.

 

한컴프론티스 정종기 CTO는 "오픈AI가 놓친 서비스 분야를 공략하는 전략을 쓰는 기업도 많이 필요하다"며 "다만 생성 AI 기술 개발은 네이버, 카카오, SKT, KT, LG전자와 같은 기존에 초거대 AI 모델 개발에 이미 뛰어든 대기업에서 적극적으로 나서야 한다"고 했다. 

 

정부는 이르면 이번 주 안으로 생성 AI 시대에 걸맞은 인공지능 정책을 발표할 예정이다. 국내 파운데이션 모델 개발 지원과 더불어 특화된 분야의 AI 기술 강화(파인튜닝)를 통한 버티컬 생태계 지원 등이 담길 것으로 알려졌다.

 

헬로티 서재창 기자 |

Copyright ⓒ 첨단 & Hellot.net





상호명(명칭) : (주)첨단 | 등록번호 : 서울,자00420 | 등록일자 : 2013년05월15일 | 제호 :헬로티(helloT) | 발행인 : 이종춘 | 편집인 : 김진희 | 본점 : 서울시 마포구 양화로 127, 3층, 지점 : 경기도 파주시 심학산로 10, 3층 | 발행일자 : 2012년 4월1일 | 청소년보호책임자 : 김유활 | 대표이사 : 이준원 | 사업자등록번호 : 118-81-03520 | 전화 : 02-3142-4151 | 팩스 : 02-338-3453 | 통신판매번호 : 제 2013-서울마포-1032호 copyright(c) HelloT all right reserved.