PDF에서 텍스트를 추출, AI가 학습하기 쉬운 여러 포맷으로 변환 가능 한글과컴퓨터(이하 한컴)가 PDF 문서에서 AI 데이터를 추출하는 소프트웨어 개발 키트(SDK) ‘한컴 데이터 로더’를 출시하고 본격적인 글로벌 B2B 세일즈에 나선다. 최근 세계 AI 업계에서는 LLM(대규모 언어모델)의 단점인 ‘환각 현상’을 최소화하는 해결책으로 ‘검색 증강 생성(RAG)’ 기술이 떠오르고 있다. RAG는 특정 데이터베이스나 문서 집합으로부터 관련 정보를 검색한 뒤 그 정보를 LLM에 적용해 적절한 답변으로 텍스트를 생성하므로 실시간으로 정보가 업데이트되며 정보의 정확도가 높은 것이 특징이다. 그 때문에 많은 글로벌 기업과 기관이 RAG의 도입을 원하지만, 구조화되지 않은 문서에서는 데이터 추출이 어려운 실정이다. 따라서 기업의 방대한 문서를 AI가 학습하기 좋은 형태로 데이터화하는 전처리 기술이 중요해졌다. 한컴은 지난 35년간 축적한 문서 기술을 바탕으로 문서의 AI 데이터화를 위한 전처리 기술을 모듈화해 ‘한컴 데이터 로더’라는 SDK 제품을 내놓았다. 대표적인 전자문서 형식인 PDF에서 텍스트를 추출, AI가 학습하기 쉬운 여러 포맷(JSON·CSV·TXT·
“일본 시장 내 공격적인 영업·마케팅 활동으로 매출 확대” 인공지능(AI) 데이터 솔루션 기업 에이모(AIMMO)가 오는 25일부터 3일간 일본 도쿄에서 열리는 ‘AI EXPO TOKYO’에 참가한다고 밝혔다. AI EXPO TOKYO는 일본 최대 규모의 AI 전문 엑스포다. 에이모는 2020년부터 해당 전시회에 참가, 일본 시장에서 브랜드 인지도를 높이고 매출 확대를 위한 영업·마케팅 활동을 펼치고 있다. 이번 전시회에서 에이모는 데이터 전 주기 솔루션을 소개할 예정이다. 데이터 수집부터 가공, 스마트 라벨링, 평가까지 한 번에 진행할 수 있는 솔루션으로, 글로벌 기업들에서도 많은 관심을 받으면서 솔루션 제공을 심도 있게 논의하고 있다. 오승택 에이모 대표이사는 “자율주행, 스마트시티 등에 활용되는 AI 학습용 데이터 분야에서 글로벌 선도 기술 업체로 자리매김할 것”이라며 “일본에서도 AI 데이터 전주기를 다루는 서비스, 즉 고품질의 학습 데이터를 수집하고 가공하고 레이블링하는 것뿐만 아니라 플랫폼을 제공해 AI 기술을 활용하는 기업 비즈니스에 꼭 필요한 글로벌 파트너로 도약하겠다”고 강조했다. 헬로티 이동재 기자 |
챗봇 서비스 제공 기업 심심이는 미국 하버드대학교와 자사의 초거대 AI 데이터 제공 계약을 체결했다고 26일 밝혔다. 하버드대학교 후원프로그램 사무국은 이번 심심이와의 계약을 통해 하버드의 교육과 연구 목표의 발전을 도모할 수 있게 됐다고 전했다. 심심이는 2002년 챗봇 서비스를 실시한 이후 약 20년간 양적, 질적으로 유의미한 방대한 데이터를 축적해오고 있다. 최근에는 대화형 인공지능(AI)이 대세로 자리잡으며 관련 연구가 활발히 진행되고 있고, 이와 함께 심심이 대화 데이터에 대한 수요도 커지는 중에 이번 하버드대학교와의 협약으로 해외 기관으로까지 데이터 제공 범위를 확대하게 됐다. 이번 계약은 하버드대학교에서 심심이측에 대화 데이터 요청으로 시작 됐다. 하버드 비즈니스 스쿨 윤리적 지능 연구소 책임자인 줄리앙 프레이타스 교수는 2021년 AI 챗봇의 윤리 및 정신건강 관련 연구 진행을 위해 챗봇 데이터를 리서치하던 중, 다양한 언어를 지원하며 4억 명 이상의 누적 사용자를 가진 심심이의 대화 데이터를 분석하기로 했다. 이에 심심이에 협력 의사를 타진해 왔고 심심이는 줄리앙 교수의 연구 주제와 데이터 제공 방식에 대해 장기간 검토 및 협의를 진행한 끝에
‘가트너 애널리틱스 서밋 2023’ 참가 테라스트림·이루다·테라원 등 데이터 솔루션 소개 데이터스트림즈가 일본 도쿄에서 열린 ‘가트너 애널리틱스 서빗 2023’에 참가해 자사 데이터 솔루션을 선보였다고 7일 밝혔다. ‘가트너 애널리틱스 서밋 2023’은 IT 시장조사 기업인 ‘가트너’가 주최하는 글로벌 데이터 콘퍼런스다. 글로벌 데이터 기술 및 분석 전문가들이 모여 데이터 매니지먼트와 데이터 애널리시스 등 성공 사례를 공유한다. 데이터스트림즈는 이번 행사에서 ETL 툴인 테라스트림(TeraStream), 거버넌스 통합 솔루션 이루다(IRUDA), 빅데이터 플랫폼 테라원(TeraONE)을 참관객에게 소개했다. 특히 행사를 통해 일본 내 데이터 관리 기업과 파트너십 체결을 논의 중이다. 또한 ‘Software Association in Japan’의 빅데이터 포럼 및 디지털 혁신 포럼 관계 기업과 협력해 일본 내 데이터 기술 관련 공동 영업을 추진하기로 했다. 이영상 데이터스트림즈 대표는 “이번 전시에서 현지 시장의 데이터 기반 혁신 기술 사례를 공유하고 다양한 기술 활용 방향을 논의했다”고 설명했다. 이어 “앞으로 현지 데이터 매니지먼트 기술 기업과 네트워크를
AIMMO ADaaS, 자율주행 AI 모델 개발에 필요한 데이터 전주기 통합 관리 에이모(AIMMO)가 미국 라스베이거스에서 열리는 글로벌 IT·가전 전시회 'CES 2023’에서 자율주행에 특화된 AI 데이터 전주기를 관리할 수 있는 ‘AIMMO ADaaS’ 서비스를 처음 공개한다고 밝혔다. 에이모는 1월 5일부터 8일까지 4일간 CES 2023에서 자율주행 AI 모델 개발에 필요한 인공지능 데이터 큐레이션, 라벨링 등 데이터 전주기 서비스에 대한 1:1 부스 상담을 진행하고, 2023년 새롭게 론칭하는 AIMMO ADaaS(Autonomous driving Data as a Service) 컨설팅을 선보일 예정이다. 에이모의 핵심 서비스인 AIMMO ADaaS는 자율주행 분야의 인공지능 데이터 수집, 정제 및 라벨링 등 데이터 전주기를 통합적으로 관리하는 서비스다. 자율주행 AI 모델 개발을 위한 시나리오 정의부터 자체 보유한 데이터 수집 차량을 통한 원시데이터 수집, 라벨링 데이터 생성 및 합성데이터 기술 활용 등 에이모의 자율주행 기술 전문가들이 고객의 AI 데이터 전 주기를 관리할 수 있는 특화된 서비스를 제공한다. 데이터 수집 목적에 부합하는 최적
인공지능(AI) 영상분석 전문기업 씨이랩이 ‘배송로봇 비도로 운행 데이터’를 구축한다. 씨이랩은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 ‘2022년 AI 학습용 데이터 구축사업’의 일환으로, 자율주행 로봇 상용화를 위한 고품질 AI 학습용 데이터 50만 장을 구축한다. 데이터의 60%는 가상 데이터로 구축할 예정이다. 씨이랩의 이번 사업은 로봇이 운행되는 실내외 다양한 비도로 환경에서 정확한 객체 인식에 필요한 AI 학습용 데이터를 구축하는 데 목적이 있다. 가상 데이터를 통해 로봇 주행이 불가능한 환경과 장애물을 가상으로 구현해 AI 학습에 활용하고, 로봇은 주행 경로 판단 능력을 강화할 수 있다. 가상 데이터 구축에는 씨이랩의 가상 데이터 생성 솔루션 ‘X-GEN(엑스젠)’이 활용된다. X-GEN은 AI 학습에 필요한 가상의 영상 데이터를 고속으로 생성, 증강하는 소프트웨어다. 가상 데이터를 통해 로봇 주행 중 발생할 수 있는 다양한 상황을 시뮬레이션·학습할 수 있다. 씨이랩은 네이버랩스, 언맨드솔루션, 미디어그룹사람과숲, 바운드포, 한국로봇산업진흥원 등 각 분야 전문성과 수행 경험을 확보한 기관·기업과 컨소시엄을 구성해 올
“퍼스트파티 데이터를 활용해 마테크 애플리케이션의 효율성 극대화” 글로벌 AI SaaS 기업 애피어(Appier Group Inc.)가 차세대 AI 기반 고객 데이터 플랫폼(CDP) 아이리스(AIRIS)를 출시했다고 밝혔다. CDP 도입을 고려하는 대부분의 기업들은 데이터를 인사이트로, 이 인사이트를 행동으로 전환하는 시간을 단축하는 것은 물론, 마케팅 캠페인의 결과를 시각화해야 한다는 중대한 과제를 안고 있다. 아이리스의 제품명은 ‘홍채(iris)’라는 단어에서 가져온 것으로, 기업이 고객을 정확하게 식별하고 적시에 예측 인사이트를 확보할 수 있도록 한다는 의미를 내포하고 있다. AI와 머신러닝 기술을 활용해 기업 및 마케터들이 보다 현명한 의사결정과 실행을 통해 매우 신속하게 인사이트를 확보하도록 돕는 것이 특징이다. 애피어는 지난 10월 우프라(Woopra)를 인수한 데 이어, 아익슨(AIXON) 플랫폼의 선도적인 사용자 중심 예측 AI 기능과 우프라의 뛰어난 데이터 분석 및 직관적인 데이터 시각화를 결합한 아이리스를 출시했다. 애피어는 아이리스를 통해 기업들이 데이터로부터 인사이트를 얻고, 그 인사이트를 활용해 성공적인 마케팅 캠페인 결과를 얻을 수
보다 정교한 인터랙티브 세그멘테이션 및 3D 객체 인식 기능 등 지원 범위 확대 AI·데이터 컴퍼니 에이모(AIMMO)가 AI를 통해 자율주행과 스마트시티 분야에 필요한 데이터를 자동으로 라벨링하는 자사의 ‘스마트 라벨링(Smart Labeling)’ 기능을 업데이트했다고 14일 밝혔다. 에이모의 스마트 라벨링은 학습 데이터 생성 과정을 단축해 주는 에이모의 핵심 기술로 고객사 프로젝트의 기존 데이터를 기반으로 오토 라벨링을 적용할 수 있는 ‘커스텀 모델(Custom Model)’과 에이모가 자체 수집한 데이터셋을 활용해 미리 학습시킨 ‘프리셋 모델(Preset Model)’을 업계 최초로 개발하여 지난해 하반기부터 서비스 중이다. 이번 업데이트를 통해 에이모는 기존에 지원하던 스마트 라벨링 지원 범위를 크게 확장했다. 2D 객체 인식(2D Object Detection), 픽셀 단위의 의미 인식이 가능한 시멘틱 세그멘테이션(Semantic Segmentation) 기능과 객체별 영역까지 구분하는 인스턴스 세그멘테이션(Instance Segmentation) 기능에 이어 몇 번의 클릭만으로 데이터 분할을 자동으로 수행하는 인터랙티브 세그멘테이션(Interac
AI Tech 2022서 ‘AI 번역 및 음성 인식 관련 기술과 실증 사례’ 발표 인공지능 음성 인식 및 AI 번역 전문기업 엘솔루가 서울에서 개최된 ‘인공지능 융합 비즈니스 개발 콘퍼런스(AI Tech 2022)’에서 ‘AI 번역 및 음성 인식 관련 기술과 실증 사례’를 공유했다. 엘솔루는 콘퍼런스에서 AI 모델의 프로세싱에 대한 설명과 고객 기업 데이터에 기반한 새로운 AI 모델에 대해 발표했다. 엘솔루는 고객 데이터를 저장하지 않고 현장 폐기해 개인 정보 및 기밀 사항의 유출을 방지하고 있다고 강조했다. 이어 엘솔루는 자동 번역과 AI 음성 인식 솔루션을 한국 고문헌 번역과 인공지능 컨택센터(AICC)에 적용한 실질적 AI 활용 사례를 소개했다. 엘솔루는 AICC 적용 사례로 고객사의 비정형 데이터를 정형화하는 과정을 통해 높은 음성 인식 성공률을 구현했으며, 결론적으로 소량의 데이터로 고객 맞춤형 AI 서비스를 제공할 수 있다고 설명했다. 엘솔루는 2005년부터 군수 국방 및 정부 기관에 자동 번역 솔루션을 공급하고, 다양한 사업 분야의 AICC에 AI 음성 인식 기술을 적용한 AI 솔루션 전문기업이다. 엘솔루는 최근 법무부의 차세대 형사사법정보시스템
AI 활용한 스마트 레이블링 기술 개발 및 글로벌 AI 데이터 기업으로 도약 준비 에이모(AIMMO)가 126억원 규모의 시리즈 A 투자를 성공적으로 유치했다고 밝혔다. 투자에는 ▲DS자산운용 ▲중소기업은행 ▲한화투자증권 ▲S&S인베스트먼트 ▲토스인베스트먼트 ▲코리아에셋투자증권 ▲벤처필드 7개사가 참여했다. 에이모는 AI 데이터 전문가가 학습 데이터 프로젝트 설계부터 최종 검수에 이르는 전 과정을 전담해 학습 데이터의 정확성을 보장하는 고품질 학습 데이터 제공 서비스 ‘GTaaS(Ground Truth as a Service)’와 학습 데이터 가공 플랫폼 ‘에이모 엔터프라이즈’를 제공하고 있다. 자율주행 데이터 수집 차량을 직접 운영하며 얻은 주행 차량의 센서 퓨전 데이터를 가공하는 자율주행 분야와 영상 감시 및 관제 데이터 등을 가공하는 스마트시티 분야에서 글로벌 수요 기업을 늘려가며 독자적인 파이프라인을 구축하고 있다. 이에 따라 2021년 매출과 가공 데이터 규모가 전년 대비 200% 증가했다. 이번 시리즈 A에 참여한 투자 기업들은 자율주행, 스마트시티와 같이 진입 장벽이 높은 전문 분야에서 에이모가 보유한 독보적인 기술력과 지속적인 성장 가능
GPU 자원 확보로 음식물 분석 AI 모델 성능 발전에 기대 누비랩이 2021년에 이어 2022년에도 인공지능산업융합사업단(이하 AICA) 지원사업 대상자로 선정됐다고 29일 밝혔다. 이번 결정은 AICA가 2021년 동안 지원 한 기업 중, 누비랩을 국가 AI 데이터 센터 자원 활용 우수 성과 기업으로 선정해 2022년에도 지원사업을 진행하기로 한 것이다. 누비랩은 AI 푸드 스캔 기술을 기반으로 음식 이미지를 비교 분석하고 음식 각각의 종류와 양을 파악해 헬스케어 솔루션 및 음식물 쓰레기 감축 솔루션을 제공하는 스타트업이다. 누비랩은 이번 지원 사업으로 NVIDIA GPU A100 8개가 장착된 서버를 통해 지속적인 AI 개발이 가능하게 됐다. AI 모델 개발에서는 백본, 옵티마이저 등 여러가지 조건으로 학습하며 최적의 모델을 찾는 것이 중요하다. 하지만 많은 국내 기업들의 개발자들이 여건상 풍부한 자원 속에서 일하는 것이 쉽지 않다. 누비랩의 개발자들은 이번 지원 사업으로 넉넉한 GPU 자원으로 인공지능을 개발하면서 떠오르는 아이디어들을 주저하지 않고 시도하여 솔루션을 찾을 수 있게 됐다. 또한 지금까지 수집한 수백만개의 음식물 이미지 데이터를 활용해
헬로티 이동재 기자 | 라온피플이 AI 데이터 구축 및 자율협력주행 기술 특허 등을 통해 '특허청장상'을 수상했다. 라온피플은 과학기술정보통신부와 특허청이 주최하고 한국전자정보통신산업진흥회가 주관하는 '2021 ICT 특허경영대상'에서 AI 데이터 구축, 메타버스와 디지털트윈 관련 교통분야 특허, 그리고 기술력과 개발 성과를 인정받아 특허청장상을 수상했다고 10일 밝혔다. 라온피플 관계자는 “4차 산업혁명에 따라 초연결, 초지능, 초융합 시대로 돌입하면서 자율협력주행은 물론 메타버스, 디지털 트윈 등 AI를 통해 데이터를 확보하고 기술을 융합하는 새로운 기술들이 요구되기 시작했다”며 “고도화된 기술개발은 물론 특허를 확보함으로써 제품과 기술을 보호하는 등의 선제적인 대응은 물론 고객들의 요구를 빠르게 수용하면서 새로운 시장을 선점하고 글로벌 시장에서 AI 트렌드를 선도해 나갈 것”이라고 밝혔다. 라온피플은 AI 데이터댐 구축과 관련한 정부 과제는 물론, 메타버스와 디지털 트윈 등 교통관련 정부 과제를 연이어 수주하면서 국가 스마트 교통체계 구축에 앞장서고 있으며, 연구 개발을 통해 올해만 교통분야 특허를 포함해 13건의 국내외 특허를 새롭게 확보하는 등 기술
헬로티 김진희 기자 | 정부가 지난해부터 구축한 인공지능(AI) 학습용 데이터 170종을 개방한다. 과학기술정보통신부와 한국지능정보사회진흥원은 인공지능(AI) 허브를 통해 학습용 데이터 4억 8000만 건을 개방한다고 18일 밝혔다. 과기정통부는 지난 2017년부터 기업·연구자·개인 등이 시간 및 비용 문제로 개별 구축하기 어려운 인공지능 학습용 데이터를 구축·개방해왔다. 지난해부터는 디지털 뉴딜 ‘데이터 댐’ 구축 프로젝트의 일환으로 구축 규모를 대폭 확대해 추진 중이다. 인공지능 학습용 데이터는 인공지능 개발에 사용된다. 그동안 국내 인공지능 기업들은 인공지능 개발에 필요한 데이터 확보를 위해 해외 오픈데이터를 많이 활용해 왔다. 그러나 한국어, 국내 도로환경 등 국내 실정을 반영하지 못한 오픈데이터는 국내 인공지능(AI) 서비스 개발에 활용되기 어려웠다. 이번에 개방되는 데이터에는 국내 지역별 방언과 국내 주요도로, 국내 환자 의료영상 등이 포함된다. 이달 30일 공개될 경상·전라·충청·강원·제주 등 한국어 방언 발화 데이터는 음성기반 AI 서비스에 적용할 수 있다. 이달 18∼30일 순차적으로 공개되는 자율주행 데이터 21종은 국내 도로주행 영상과 주