일반뉴스 스트라드비젼, 데이터 파이프라인 자동화로 SVNet 성능 개선
파이프라인, 고품질의 데이터를 빠르게 확보하도록 클러스터 서버 기반으로 병렬 처리 스트라드비젼이 디지털 전환을 가속화하기 위해 데이터 파이프라인 자동화 시스템을 구축했다고 밝혔다. 데이터 파이프라인은 다양한 데이터 소스에서 수집된 원시 데이터를 분석이 용이한 형태로 변환해 데이터 웨어하우스로 저장하는 전처리 과정을 말한다. 데이터 파이프라인은 보통 ETL(Extracting, Transforming, Loading)을 포함하는 과정으로 진행되는데, SVNet의 경우 상대적으로 복잡도가 높고 정밀한 데이터로 학습하기 때문에 ETL 과정을 여러 단계로 세분화했다. 이러한 이유로 전체 과정이 복잡하고 더 많은 시간이 소요된다. 데이터 품질이 SVNet 성능에 많은 영향을 주기에, 스트라드비젼은 SVNet 고도화를 위해 자동화를 택했다. 스트라드비젼이 구축한 데이터 파이프라인 자동화 시스템은 크게 세 단계로, 전처리, 품질, 효율 파이프라인이다. 파이프라인은 SVNet의 성능을 높일 수 있는 고품질의 데이터를 빠르게 확보하도록 클러스터 서버 기반으로 병렬 처리되며 모든 데이터는 데이터 센터를 통해 처리된다. 데이터 센터는 스트라드비젼에서 자체 개발한 데이터 웨어하우