클라우데라는 기업 리스크 감소를 위한 도구로 합성 데이터를 제시하며, 이를 체계적으로 관리·운영할 경우 데이터 노출을 줄이면서도 AI 개발을 지속할 수 있다고 강조했다.
AI가 기업 운영 전반에 깊숙이 통합되면서 대규모언어모델(LLM)은 고객 지원, 데이터 분석, 개발자 생산성, 지식 관리 등 다양한 업무 영역에 활용되고 있다. 여기에 AI 에이전트까지 부상하면서, AI는 단순히 정보를 검색하고 추론하는 수준을 넘어 실제 업무를 수행하는 단계로 진화하고 있다.
그러나 AI 활용이 확대될수록 프라이버시 리스크에 대한 우려도 커지고 있다. AI 모델의 성능 향상에 필요한 데이터에는 지원 대화 기록, 거래 내역, 운영 로그 등 개인식별정보(PII)와 규제 대상 정보, 기업 고유의 비즈니스 맥락이 포함되는 경우가 많기 때문이다.
합성 데이터는 실제 데이터셋의 핵심 패턴을 반영하면서도 실제 기록을 그대로 재현하지 않도록 알고리즘으로 생성된 데이터다. 이를 활용하면 기업은 민감한 정보 노출 위험을 줄이면서도 AI 모델의 개발과 테스트를 진행할 수 있다.
합성 데이터는 단순한 테이블 데이터 생성 단계를 넘어 진화하고 있다. 기업은 원본 데이터를 직접 사용하지 않고도 실제 업무 흐름의 구조를 반영한 합성 인스트럭션 데이터, 합성 대화 데이터, 합성 인시던트 티켓, 합성 질의응답 데이터 등을 생성할 수 있다. 클라우데라는 이러한 특성이 특히 중요한 AI 개발 영역으로 세 가지를 제시했다.
첫 번째는 지도 학습 기반 파인튜닝(Supervised fine-tuning, SFT)과 도메인 적응이다. 기업은 AI 모델이 조직 고유의 용어와 정책 규칙, 제품 카탈로그 구조, 에스컬레이션 로직 등을 정확히 이해하고 반영하길 원한다. 하지만 이러한 미세조정에 필요한 학습 데이터는 민감 정보를 포함하는 경우가 많아 활용에 제약이 따른다. 합성 데이터 세트는 실제 업무 의도와 형식을 반영하면서도 개인정보 노출 위험을 최소화할 수 있는 안전한 학습 환경을 제공한다.
두 번째는 대규모 AI 모델 평가다. 기업용 AI 프로그램에서는 모델 평가 단계에서 병목이 자주 발생한다. 일상적인 질의부터 엣지 케이스, 오류 발생 시나리오, 컴플라이언스에 민감한 주제까지 다양한 상황을 테스트해야 하기 때문이다. 합성 작업 생성은 수동 방식보다 빠르고 반복 가능한 평가 세트를 구축할 수 있도록 지원해, 실제 서비스 적용 이전에 모델 동작에 대한 신뢰도를 높이는 데 기여한다. 이 과정에서 민감한 원본 데이터를 직접 다룰 필요도 줄일 수 있다.
세 번째는 검색증강생성(RAG)과 AI 에이전트 맞춤 데이터 큐레이션이다. 검색증강생성과 에이전트 워크플로우는 지식 기반과 테스트 프롬프트의 품질에 크게 좌우된다. 합성 데이터는 현실적인 질의와 변형, 다단계 상호작용을 생성해 검색과 도구 사용 행태를 정밀하게 검증할 수 있으며, 실제 민감한 대화 데이터를 입력 데이터로 사용하는 빈도를 낮출 수 있다.
세르지오 가고 클라우데라 CTO는 “합성 데이터는 체계적으로 관리될 때 개인정보 노출을 줄이면서 모델 개발을 진행할 수 있는 리스크 감소 도구”라며 “LLM과 에이전트 AI 배포가 확대되는 환경에서 합성 데이터는 민감한 개인정보에 대한 의존도를 낮추는 현실적인 경로가 될 것”이라고 말했다.
최승철 클라우데라코리아 지사장도 “최근 연쇄적인 대형 데이터 유출 사고로 국내 기업들은 철저한 데이터 보안을 준수하면서 AI 혁신을 추진해야 하는 과제를 안고 있다”며 “합성 데이터는 데이터 보안 리스크를 최소화하면서도 AI 경쟁력을 확보할 수 있는 전략적 수단이 될 것”이라고 강조했다.
헬로티 이창현 기자 |





