오늘날 생성형 AI(Generative AI)는 기업의 생산성을 혁신할 핵심 기술로 자리 잡았다. 특히 기업 내부의 방대한 데이터를 AI가 학습하거나 참조하여 정확한 답변을 생성하는 검색 증강 생성(RAG, Retrieval-Augmented Generation) 기술은 할루시네이션(환각) 현상을 줄이고 데이터 보안을 유지할 수 있다는 점에서 기업들의 가장 큰 관심을 받고 있다.
그러나 높은 기대와 달리, 실제 현업에서 RAG를 성공적으로 도입하고 운영하는 사례는 예상보다 더디게 나타나고 있다. 이는 기술 자체의 문제라기보다, 한국 기업 특유의 문서 작성 문화와 데이터 인프라의 현실적인 한계에서 기인하는 바가 크다.
우선 냉정하게 직시해야 할 점은 한국 기업의 문서 환경이 RAG를 도입하기에 결코 호락호락하지 않다는 사실이다. 서구권의 경우 텍스트 추출이 용이한 형식의 문서 활용이 보편화되어 있는 반면, 국내 기업들은 표와 복잡한 서식이 포함된 워드 프로세서 파일이나 이미지 중심의 PDF 문서를 주로 사용한다. 이러한 비정형 데이터들은 AI가 이해할 수 있는 텍스트로 변환하는 과정에서 구조가 깨지거나 정보가 유실되기 쉽다.
현업 부서가 단순히 좋은 RAG 솔루션을 도입한다고 해서 바로 내부 지식베이스를 구축할 수 없는 이유가 여기에 있다. 현재의 인프라 환경에서 RAG 구축은 단순한 소프트웨어 설치가 아니다. AI가 데이터를 읽을 수 있도록 만드는 과정, 즉 광학 문자 인식(OCR)을 포함한 고도화된 문서 전처리 작업이 프로젝트의 핵심이 될 수밖에 없다. 결국 이는 기업 내부 인력만으로는 해결하기 어려워, 외부 전문 인력이 투입되는 대규모 SI(시스템 통합) 프로젝트로 귀결되는 것이 현실이다.
이러한 현실은 RAG 솔루션 시장의 판도에도 영향을 미치고 있다. 국내외 수많은 소프트웨어 기업들이 RAG 파이프라인 전용 솔루션을 출시하고 있지만, 실제 기업 현장에서는 개념 증명(PoC) 단계에 머무르거나 본계약으로 이어지지 못하는 사례가 빈번하다. 패키지화된 상용 소프트웨어들이 한국 기업의 복잡하고 정제되지 않은 레거시(Legacy) 데이터를 완벽하게 처리하지 못하기 때문이다. 오히려 기업들은 유연성이 떨어지는 상용 솔루션 대신, 자사의 데이터 특성에 맞춰 커스터마이징이 가능한 오픈소스 기반의 구축 방식을 선호하고 있으며, 실제로 성공적인 사례들 역시 오픈소스를 활용해 내부 시스템에 최적화한 경우가 더 많다.
그렇다면 성공적인 RAG 도입을 위해 무엇이 필요할까? AI의 성능은 결국 데이터의 품질과 흐름에 달려 있다는 기본 원칙으로 돌아가야 한다. 아무리 뛰어난 거대언어모델(LLM)을 사용하더라도 입력되는 데이터가 정제되지 않았다면 결과물 또한 신뢰할 수 없다. 따라서 기업은 RAG 구축을 기술 도입의 관점이 아닌, ‘데이터 생성 문화의 혁신’ 관점에서 접근해야 한다.
가장 중요한 것은 문서가 생성되는 시점부터 AI 친화적인 형태를 갖추도록 하는 것이다. 이를 위해서는 기업 내부의 문서 작성 가이드를 재정립하고, 임직원들이 이를 반드시 준수하도록 하는 강력한 업무 문화가 선행되어야 한다. 또한 작성된 문서가 별도의 복잡한 후처리 없이도 자동으로 마크다운(Markdown)과 같은 기계 가독성 높은 형식으로 변환되어 RAG 파이프라인으로 전달되는 자동화 시스템을 구축해야 합니다. 데이터가 생성되는 순간부터 활용되는 순간까지 막힘없이 흐르도록 설계하는 것이야말로 RAG 프로젝트의 핵심 성공 요인이다.
결론적으로 RAG의 성패는 어떤 벤더의 파이프라인 소프트웨어를 쓰느냐에 달려 있지 않다. 그보다는 기업 내부의 문서가 물처럼 자연스럽게 흐를 수 있도록 하는 시스템, 그리고 그 시스템을 지탱하는 임직원들의 문서 작성 문화가 얼마나 잘 정착되어 있느냐가 관건이다. 도구는 거들 뿐, 결국 시스템과 문화가 RAG의 완성도를 결정짓는다. AI 시대를 맞이하는 기업들에게 지금 필요한 것은 화려한 AI 도구의 도입이 아니라, 기본에 충실한 데이터 거버넌스와 업무 방식의 근본적인 변화일 것이다.
이승훈 (주)코세나 대표이사 |
















































