정책 과기정통부, 초거대 AI용 데이터 확대…데이터 라벨링 사업 추진
과학기술정보통신부는 단순·반복 작업 중심의 기존 데이터 라벨링 물량을 축소하고 챗GPT와 같은 초거대 AI 모델 지원을 목표로 데이터 라벨링 사업을 추진하겠다고 14일 밝혔다. 데이터 라벨링은 인공지능이 인식할 수 있는 형태의 데이터로 컴퓨터에 입력하는 작업으로, 정부는 2017년부터 언어, 이미지, 영상, 음성 등 분야에서 AI 학습 데이터를 구축 중이다. 올해 모두 2,805억원을 투입해 헬스케어, 교통·물류, 재난·안전·환경, 농·축·수산, 제조, 로보틱스, 문화·관광, 스포츠, 교육, 법률, 금융, 지식재산 등 분야에서 신규 데이터 150종을 구축할 예정이다. 이 가운데 데이터 34종은 '초거대AI 지원 데이터'로 구분해 구축하기로 했다. 이미지 데이터 48종은 생성형 AI 학습에 활용할 수 있도록 이미지를 묘사·설명하는 캡션 정보를 추가 입력한다. 문화관광, 스포츠, 법률 등 특화 분야에서 인공지능 도입을 목표로 관련 데이터 구축 비중을 지난해 19%에서 올해 25%로 높이기로 했다. 아울러 법률안 검토 보고서 요약 데이터, 119 신고 접수 음성 데이터 등 국회·소방과 같은 공공분야에서 보유한 데이터의 민간 이용 확산을 지원한다. 올해 사업 주관기