AI 학습 데이터 플랫폼 셀렉트스타는 29일 인공지능 학습 데이터 총판 사업을 본격화한다고 밝혔다. 데이터 저작권자와 협의를 거쳐 도서, 이미지, 영상, 대화 등 고품질 데이터를 AI 기업에 유통 및 판매한다는 내용이다. 셀렉트스타가 공개한 데이터셋 카탈로그에는 ▲법률·생활·금융·건강 등 전문가 질의 응답 ▲전문 분야 도서 ▲글로벌 이미지 플랫폼 제휴 사진·일러스트·영상 ▲다국어 일상 대화 및 번역 데이터셋 ▲언리얼 엔진 기반 합성 데이터 등이 포함돼 있다. 카탈로그 대부분이 일반 데이터라벨러를 통해 구축할 수 없거나 저작권 문제로 확보하기 어려운 데이터셋으로 구성됐다. 셀렉트스타는 구매 기업 요청에 따라 데이터를 가공하는 서비스를 별도로 제공하며 홈페이지를 통해 보유한 데이터를 AI 학습용으로 판매할 공급 기업을 모집 중이다. 셀렉트스타는 인공지능 학습에 필요한 데이터를 공급하는 플랫폼 기업이다. 회사 측은 "대규모 언어 모델(LLM) 등장과 함께 저작권 걱정 없는 대규모 학습 데이터에 대한 큰 수요를 발견했다"며 사업 배경을 밝혔다. AI 도입을 위한 기술 장벽이 낮아지면서 서비스 개발을 위한 고품질 데이터가 더욱 중요해졌다는 설명이다. 황민영 셀렉트스타
KAIST 연구팀이 국제공동연구를 통해 다수의 모바일 기기 위에서 인공지능 모델을 학습할 수 있는 연합학습 기술의 학습 속도를 4.5배 가속할 수 있는 방법론을 개발했다고 밝혔다. KAIST 전기및전자공학부 이성주 교수 연구팀은 지난 6/27~7/1에 열린 세계컴퓨터연합회 주최로 진행된 제20회 모바일 시스템, 어플리케이션, 및 서비스 국제학술대회에서 연합학습(Federated Learning)의 학습 속도 향상을 위한 데이터 샘플 최적 선택 및 데드라인 조절 방법론을 발표했다. 해당 학회는 2003년에 시작돼 모바일 시스템, 소프트웨어, 어플리케이션, 서비스를 위한 최신 연구를 소개하는 데 초점을 맞추고 있으며, 모바일 컴퓨팅 및 시스템 분야의 최우수 학회 중 하나로 오랫동안 주목받고 있다. 이번 논문은 KAIST 전산학부 신재민 박사과정이 제1 저자로 참여했으며, 중국 칭화대학과의 국제협력으로 이루어진 성과다. 최근 구글에 의해 제안된 연합학습은 새로운 기계학습 기술로, 개인정보의 유출 없이 방대한 사용자 기기 위 데이터를 활용할 수 있게 해 의료 인공지능 기술 등 새로운 인공지능 서비스를 개발할 수 있게 해 각광받고 있다. 연합학습은 구글을 비롯해 애플