크라우드웍스가 과학기술정보통신부와 한국전파진흥협회가 추진하는 ‘방송영상 AI 학습용 데이터 구축 사업’을 수주했다. 이번 사업은 국내 방송영상 원본을 기반으로, 방송영상 특화 AI 모델 개발에 필요한 고품질 학습 데이터를 구축·검증하는 것을 목표로 한다. 과기부와 한국전파진흥협회는 총 4개 컨소시엄을 선정했으며, 각 컨소시엄에 48억3천만 원씩, 총 193억2천만 원을 지원한다. 크라우드웍스는 MBC를 주축으로 iMBC, 데이터메이커, LG경영개발원 AI연구원 등과 컨소시엄을 구성해 총 5,000시간 규모의 AI 학습용 데이터셋을 구축할 예정이다. 이번 프로젝트에서 크라우드웍스는 한국 문화와 시대적 특성을 반영한 방송영상 이해 데이터셋 구축에 주력한다. 특히 AI가 영상의 맥락을 보다 정밀하게 이해할 수 있도록 데이터를 설계하고 가공하는 역할을 맡는다. 이를 위해 영상 속 주요 객체와 행동, 장면 등을 동시에 분석하는 다중 라벨링 방식을 적용해 시청각 정보를 기반으로 의미를 추론할 수 있는 데이터셋을 구현한다. 멀티모달 AI 학습을 위한 데이터셋 구축도 핵심 과제다. 영상, 이미지, 자연어 등 다양한 정보를 복합적으로 구성해 AI가 영상 내용을 정확하게 인식
판티마(Pantima)가 미국 비즈니스 플랫폼 더 매니페스트(The Manifest)가 발표한 ‘2025년 7월 기준 미국 내 TOP 100 인공지능 기업’ 명단에 이름을 올렸다. 아시아 기업으로는 드물게 선정된 사례로, 국내 AI 산업의 글로벌 기술력과 신뢰도를 다시금 입증한 결과로 평가된다. 이번 명단은 미국에서 활동 중이거나 미국 기업에 기술 서비스를 제공하는 글로벌 AI 기업을 대상으로 기술력, 프로젝트 성과, 고객 리뷰 등을 종합적으로 분석해 매년 집계된다. 판티마는 데이터 품질, 법적 신뢰성, 맞춤형 제공 역량에서 높은 평가를 받아 최종 리스트에 포함됐다. 전신우 판티마 대표는 “The Manifest는 글로벌 B2B 시장에서 기술 기반 기업들이 참고하는 벤치마킹 플랫폼 중 하나로, 이번 선정은 글로벌 고객들과 신뢰 기반의 협력을 지속해온 결과를 외부에서 인정받은 것”이라며 “우리가 초창기부터 고수해온 ‘데이터는 사람처럼 섬세해야 한다’는 철학과, 1사 전용 데이터 납품, 저작권 포함 이전, 납품 후 삭제 원칙 등 데이터 품질 관리와 윤리적 기준이 세계 시장에서 통했다는 점에서 큰 의미가 있다”고 말했다. 판티마는 텍스트, 음성, 이미지 등 멀티모
컨소시엄에는 KT 비롯해 총 18곳 참여...전문성과 기술력 결합 크라우드웍스가 과학기술정보통신부가 주관하는 ‘독자 AI 파운데이션 모델 개발 사업’에 KT 컨소시엄의 핵심 파트너로 참여한다. 이번 사업은 국내 AI 기술의 자립 기반을 강화하기 위한 대형 프로젝트로, 크라우드웍스는 그 중심에서 고품질 학습 데이터 구축을 전담하게 된다. KT 컨소시엄은 KT를 중심으로 솔트룩스, 경찰청, 고려대학교 의료원, 서울대학교, 매스프레소 등 국내 유수의 AI 기술 기업 및 기관 총 18곳이 참여했으며, 다양한 산업 분야의 전문성과 기술력이 결합돼 시너지 효과가 기대된다. 크라우드웍스는 국내에서 개발된 주요 파운데이션 모델에 AI 학습 데이터를 공급해 온 경험과 검증된 역량을 보유하고 있다. 특히 이번 프로젝트는 텍스트, 음성, 비전 등 대규모 멀티모달 데이터를 단기간 내 정밀하게 구축해야 하는 만큼, 크라우드웍스의 지능형 전처리 기술과 숙련된 데이터 작업자 인프라가 사업 성공의 열쇠로 꼽힌다. 이번 사업에서 중요한 차별화 요소는 크라우드웍스가 이미 보유한 고품질 도메인 데이터 경쟁력이다. 수학과 과학처럼 AI 추론 성능 향상에 필수적인 전문 데이터셋을 비롯해 저작권이
저작권 등 법적 문제가 없는 안전한 데이터로 구성 크라우드웍스가 고품질 AI 학습용 데이터를 자유롭게 거래할 수 있는 플랫폼 ‘A1(에이원) 데이터 마켓플레이스’를 공식 오픈했다. AI 성능을 좌우하는 핵심 자산인 데이터의 품질과 접근성을 높이고자 구축된 이 플랫폼은 멀티모달 시대에 부합하는 국내 최대 규모의 AI 학습 데이터 거래소로 자리매김할 전망이다. A1 데이터 마켓플레이스는 의료, 금융, 통신, 리테일, 수학 등 다양한 산업군에 특화한 도메인 데이터는 물론, 텍스트, 음성, 이미지, 영상 등 멀티모달 데이터까지 포괄적으로 제공한다. 특히 크라우드웍스가 직접 구축하거나 검수한 고품질 데이터만을 엄선해 제공해 신뢰성과 활용도를 높였다. 구매자는 대형언어모델(LLM) 학습에 적합한 대규모 텍스트 데이터, 57만 트랙 규모의 다국어 오디오 데이터, 자율주행 및 영상 분석에 최적화된 이미지 데이터 등 다양한 용도의 데이터셋을 선택할 수 있다. 추론형 AI 모델 학습에 필요한 멀티모달 수학 문항 데이터셋도 7000건 규모로 마련됐다. 이 외에도 고객 맞춤형 어노테이션, 데이터 증강 및 합성 등 주문형 데이터 구축 서비스도 함께 제공된다. 플랫폼 내 거래되는 모