이파피루스는 자사의 문서 데이터 추출 라이브러리 ‘파이뮤PDF 프로(PyMuPDF Pro)’의 2025년 다운로드 수가 2024년 연간 대비 5배 이상 증가했다고 밝혔다. ‘파이뮤PDF 프로’는 인공지능 및 빅데이터 구축, 업무 자동화, 이미지 렌더링 등 다양한 문서 작업을 파이썬 환경에서 빠르고 정확하게 구현할 수 있는 문서 데이터 추출 라이브러리다. 파이썬 개발자들을 위한 패키지 저장소인 PyPI에서 올해 1월부터 11월까지 총 2억2천만 회 이상 다운로드됐다. 이는 작년 1월부터 12월까지의 다운로드 합계인 4400만 건을 크게 상회하는 수치다. 매년 꾸준히 상승세를 이어 온 가운데 특히 올해 9월을 기점으로 폭발적으로 증가했으며, 10월부터 11월까지의 다운로드 수만 1억2000만 회에 이른다. 이파피루스 김정아 부사장은 이 같은 성장의 배경으로 AI 서비스 시장 확대를 꼽았다. 그는 “파이뮤PDF 프로는 문서 내 페이지와 위치 등의 메타 데이터를 포함한 청크를 생성할 수 있으며, 추출한 문서 데이터를 LLM 및 RAG 친화적인 제이슨과 마크다운, 라마인덱스 리더 파일로 출력할 수 있어 AI 학습용 데이터 추출이나 문서 기반 대화형 서비스 개발에 매우
사이냅소프트가 토스랩의 업무용 협업툴 잔디에 자사의 AI 문서 구조 분석 솔루션 사이냅 도큐애널라이저를 공급했다. 기업의 디지털 전환과 AI 활용 요구가 높아지면서 협업툴 내 비정형 문서 데이터를 고품질 자산으로 전환하기 위한 목적에서 추진된 도입이다. 토스랩은 이번 공급을 통해 문서 데이터 처리 역량을 강화하고 사용자 환경을 정교화할 기반을 마련했다. 사이냅소프트는 금융과 공공 분야에서 축적한 레퍼런스를 기반으로 SaaS 시장 진출을 본격화한다는 계획이다. 사이냅 도큐애널라이저는 독자 문서 기술을 기반으로 원본 형태를 유지한 네이티브 문서를 분석하는 전처리 솔루션이다. 최근 업데이트로 입력 포맷 지원 범위를 확대했다. 아래아한글, PDF, MS오피스, 이미지뿐 아니라 개방형 문서 포맷인 ODT와 일반 텍스트인 TXT까지 처리 대상을 넓혀 기업 내 대부분의 비정형 문서를 다룰 수 있게 했다. 출력 포맷 역시 마크다운, JSON, XML, LaTeX 등 네 가지로 확장해 기업이 자체 LLM 학습 환경이나 구축 목적에 적합한 형태를 선택하도록 지원한다. 기업이 RAG 기반의 생성형 AI 시스템을 구축할 때 데이터 품질은 정확도와 환각 최소화를 결정짓는 요소다.
로그프레소가 사이버 보안 특화 생성형 AI 기술 개발을 위해 정부 연구개발 사업에 참여하고 있다. 업체는 과학기술정보통신부와 정보통신기획평가원이 주관하는 ‘정보보호핵심원천기술개발사업’에 참여해 보안 관제 중심의 생성형 AI 모델과 통합 보안 운영 기술 고도화를 수행하고 있다고 밝혔다. 이번 사업은 취약점 분석과 이상 행위 탐지, 보안 관제, 위협 인텔리전스 등 사이버 보안 4대 분야를 중심으로 검색증강생성 기반 소형생성언어모델 개발을 목표로 한다. 해당 사업은 AI 기반 보안 자동화와 지능화 기술 확보를 통해 사이버 보안 특화 LLM 개발과 실증 플랫폼 구축을 추진하는 방향으로 설계돼 있다. 사업비는 총 100억 원 규모이며 지난해 4월부터 연구개발이 시작돼 4년간 진행될 계획이다. 사업 총괄은 샌즈랩이 맡고 있으며 LG유플러스와 한국과학기술원, 포티투마루, 로그프레소가 공동 연구 기관으로 참여한다. 각 기관은 AI 기반 위협 인텔리전스, 보안 이벤트 자동 분석, 이상 행위 탐지 모델, RAG 기반 질의응답형 보안 지원 서비스 개발을 담당하고 있다. 로그프레소는 이번 과제에서 보안 관제 특화 생성형 AI 모델과 통합 보안 운영 기술 고도화를 담당하고 있다.
문서 분석 플랫폼 ‘도큐먼트.AI API(Document.AI API)’ 공식 출시 수식·표·차트·섹션 등 문서 구조 정밀 분석·보존 기능 탑재 거대언어모델(LLM)·검색증강생성(RAG) 기반 시스템 핵심 전처리 기술 제공해 인터엑스가 제조·공공·연구기관을 타깃으로 한 문서 구조화 전처리 서비스 ‘도큐먼트.AI API(Document.AI API)’를 시장에 내놨다. 현시점 각종 기업 데이터의 상당 부분은 PDF, 스캔 이미지, 보고서 등 형식·구조가 제각각인 비정형 문서 형태로 내부 시스템에 저장돼 있다. 이는 기업 디지털 전환(DX) 프로젝트에서 가장 많은 자원이 투입되는 상황을 야기한다. 이 서비스는 수식(Formula), 중첩 표(Table), 차트(Image) 등이 혼재된 복잡한 기술 문서를 정밀하게 분석·구조화하는 기술이다. 이 핵심 전처리 기능을 응용 프로그램 인터페이스(API) 형태로 제공한다. 이로써 챗봇, 문서 검색, 사내 포털 등 시스템 구축에 필수적인 거대언어모델(LLM)·검색증강생성(RAG) 기술 기반 데이터 변환 과정을 지원한다. 해당 서비스를 활용함으로써 기업 내 다양한 문서를 이해 가능한 구조화 데이터로 변환할 수 있다. 사측은
스카이월드와이드가 올해 신설한 마케팅솔루션사업부를 통해 총 30억원 규모의 신규 프로젝트를 연이어 수주하며 빠른 성장세를 보이고 있다. 회사는 AI 기반 광고·마케팅 솔루션 역량을 시장에서 단기간에 입증하며 제조, 금융, 라이프스타일, 엔터테인먼트 등 다양한 산업군에서 프로젝트를 확보했다. 이번 성과는 사업부 출범 10개월 만에 거둔 결과로 AI 기술 중심의 사업 전환 전략이 빠르게 시장 성과로 이어지고 있다는 평가다. 수주한 프로젝트는 식음료, 전자 등 산업군을 포함해 국내외 대형 기업을 포함한 폭넓은 범위에서 확보됐다. 스카이월드와이드의 AI 마케팅 솔루션은 정교한 데이터 분석 기술과 AI 기반 콘텐츠 제작 역량을 결합해 광고 타겟팅 정확도와 ROI 향상에 기여한 것으로 평가된다. 특정 분야에 제한되지 않고 다양한 산업에 적용되면서 솔루션 확장 가능성이 확인됐다. 스카이월드와이드는 데이터베이스 전문 기업으로서 그래프 데이터베이스 분야에서 국내 유일의 전문 기술을 보유하고 있다. 회사는 관계형 DB와 그래프 DB를 결합한 하이브리드 기술을 세계 최초로 상용화했으며 이러한 데이터 표현 및 추론 기술을 기반으로 올해 초 AI 솔루션 기업으로의 전환을 선언했다.
사이냅소프트가 울산 르엘컨벤션에서 열린 ‘제14회 혁신 ROAD 컨퍼런스’에서 공공기관을 위한 생성형 AI 적용 전략을 발표했다. 이번 행사는 울산, 대구, 부산, 경남·북 지역 공공기관과 지자체 정보화 담당자가 참석해 최신 ICT 흐름을 공유하는 자리로 마련됐다. 사이냅소프트는 공공 분야에서 AI 도입이 어려워지는 구조적 문제를 해결하기 위해 데이터와 지식을 결합한 생성형 AI 아키텍처를 제시했다. 사이냅소프트는 발표에서 공공기관이 성공적으로 AI 도입을 추진하기 위해서는 LLM의 성능보다 기관 내부 데이터 결합과 지식 활용 구조가 핵심이라고 강조했다. 공공기관의 고유 데이터를 정교하게 통합하기 위한 방안으로 ‘RAG’, ‘랭체인’, ‘청킹’을 결합한 지능형 생성형 AI 아키텍처를 제안하며 이를 통해 공공 서비스 적용에 필요한 정확성과 신뢰성을 확보할 수 있다고 설명했다. 발표는 데이터와 지식의 융합을 중심으로 생성형 AI의 새로운 패러다임을 제시하는 방식으로 구성됐다. 전시 부스에서는 발표 내용을 기반으로 실제 공공업무 환경에서 아키텍처가 어떻게 구현되는지 시연했다. 사이냅 어시스턴트, 사이냅 도큐애널라이저, 사이냅 OCR 등 자사 솔루션을 통해 데이터
사이냅소프트가 법률 추론 AI 기업 인텔리콘연구소와 함께 AI 기반 법률 서비스 기술 개발 및 시장 확산을 위한 전략적 업무협약을 체결했다. 이번 협력은 양사의 강점을 결합해 법률 서비스의 품질과 효율을 높이고 리걸테크 산업 전반의 혁신을 촉진하기 위한 것이다. 사이냅소프트와 인텔리콘연구소는 고품질 법률 데이터와 판례 기반의 AI 모델 학습, 각 법률 분야 특화형 AI 모델 개발에 공동으로 나선다. 이를 통해 법률 추론의 정확성과 신뢰성을 높이고 검색증강생성(RAG) 시스템을 공동 설계해 방대한 법률 데이터를 의미 단위로 분류·검증하는 기술을 고도화한다. 양사는 이러한 기술 협력을 기반으로 법률 서비스의 자동화 수준을 한 단계 끌어올리고 기업 법무팀과 공공기관 등 다양한 고객을 대상으로 AI 도입을 확산할 계획이다. 또한 양사는 각 사의 고객 네트워크와 산업 경험을 공유하며 공동 비즈니스 기회를 발굴한다. 법률 서비스 시장 내 AI 수요를 함께 개척하고 실증 프로젝트 및 시범 적용을 통해 고도화된 법률 AI 솔루션의 완성도를 높이는 것이 목표다. 사이냅소프트는 1999년 설립된 AI 전문기업으로 25년간의 문서 처리 기술을 기반으로 기업의 비정형 데이터를 정
줌 커뮤니케이션스가 엔비디아(NVIDIA)와 협력해 맞춤형 엔터프라이즈 AI 시대를 연다. 양사는 생성형 AI 성능 강화와 기업 맞춤형 AI 기능 확장을 목표로 협력을 강화하고, 줌의 ‘AI 컴패니언(AI Companion)’ 서비스 전반을 고도화한다. 줌은 연합형 AI 아키텍처(Federated AI Architecture)에 엔비디아의 오픈 모델 기술인 ‘네모트론(Nemotron)’을 도입하며 ‘AI 컴패니언 3.0’의 활용 범위를 금융, 의료, 공공 등 다양한 산업 분야로 확대했다. 이 구조는 빠른 응답이 필요한 작업에는 자체 소규모 언어모델(SLM)을, 복잡한 문제 해결에는 대규모 언어모델(LLM)을 선택적으로 적용하는 하이브리드 방식으로, 업무 특성에 따른 최적의 성능을 제공한다. 줌의 AI 프레임워크는 각 업무에 적합한 모델을 지능적으로 선택해 실행하는 구조로 설계됐다. 이를 통해 엔비디아의 고성능 GPU 인프라와 소프트웨어, 서비스 등을 효율적으로 활용하면서도 고객의 비용 부담을 줄였다. 이번 협업에는 엔비디아 오픈 모델 ‘네모트론’을 기반으로, 생성형 AI 개발 도구 ‘네모(NeMo)’를 활용해 설계된 줌의 490억 파라미터 규모 대형 언어모델
한국딥러닝이 비정형 문서를 LLM 학습·검색용 구조 데이터로 변환하는 차세대 문서 구조화 솔루션 ‘DEEP Parser(이하 딥 파서)’를 정식 출시했다고 16일 밝혔다. 딥 파서는 문서의 레이아웃과 위계를 해석해 제목, 본문, 표, 캡션, 도형 등 최대 23종 요소로 자동 분류하고, PDF·HWP·JPEG 등 다양한 원본을 HTML, JSON, Markdown, XML로 변환한다. 복잡한 표 인식, 이미지 분석, 개인정보 보호 등 추가 기능은 선택형 모듈로 제공된다. 방대한 문서를 AI가 효율적으로 처리할 수 있도록 의미 단위로 자동 분할해주는 기능을 제공하며, 이를 통해 기업들은 문서 기반 AI 서비스 구축에 필요한 데이터 전처리 시간을 크게 단축할 수 있다. 또한 패키지를 단순화해 PoC에서 상용 전환까지의 속도를 높였고, ERP·RPA 등 기존 사내 시스템과의 연계를 고려해 API 연동 기능도 제공한다. 웹 기반 온라인 데모로 누구나 사용해볼 수 있도록 공개될 예정이며, 신청 기업은 실제 문서를 업로드해 구조화 결과를 직접 확인할 수 있다. 데모 링크는 사전 신청 기업을 대상으로 순차 발송된다. 한국딥러닝은 와이즈넛, 코난테크놀로지와의 협력을 통해 지
KT는 마이크로소프트(MS)와 전략적 협업을 통해 개발한 GPT-4o 기반 한국적 인공지능(AI) 모델 ‘SOTA K built on GPT-4o’(이하 SOTA K)를 출시했다고 29일 밝혔다. KT는 한국어와 국내 특유의 사회·문화적 맥락을 충분히 반영하지 못한 기존 대형 언어모델(LLM)의 한계를 보완하기 위해 고품질 한국 특화 데이터를 학습에 활용하고, MS와 협업해 GPT-4o를 한국 사회에 최적화된 모델로 발전시켰다고 설명했다. SOTA K는 한국적 AI의 4대 핵심 철학인 ▲데이터 주권 보호 ▲한국 문화 이해 ▲모델 선택권 보장 ▲안전하고 책임감 있는 AI를 모두 구현한 모델이다. 한국어 경어법과 방언은 물론 법률·금융·역사 등 국내 특정 산업 분야에서 쓰이는 전문 용어까지 자연스럽게 이해·생성할 수 있어 비즈니스 현장에서의 활용성을 크게 높였다는 것이 KT의 설명이다. 또한 한국적 AI 지표를 측정하는 자체 정량·정성 평가에서 SOTA K는 한국어 이해, 생성, 추론, 사회·문화, 전문 지식 등 주요 항목에서 GPT-4o보다 우수한 성능을 보였다. 특히 한국사·한국어·법령 등 고난도 한국적 지식을 요구하는 공무원 시험과 귀화 시험에서 GPT-4
생성형 AI의 성능을 가르는 핵심 요소로 ‘데이터 품질’이 부상하면서 데이터 전처리 기술의 중요성이 더욱 커지고 있다. 글로벌 시장조사기관 마켓앤마켓에 따르면 AI 학습 데이터 세트 시장은 연평균 27.7% 성장해 2029년 95억 8천만 달러 규모에 이를 전망이다. 시장 확대와 함께 AI의 신뢰도와 정확성은 LLM 자체보다 학습 데이터의 품질에 달려 있다는 점이 부각되고 있다. 잘못된 데이터는 AI의 ‘환각 현상(Hallucination)’을 유발해 결과물의 신뢰도를 떨어뜨리기 때문이다. 이러한 흐름 속에서 사이냅소프트는 AI 문서 구조 분석 솔루션 ‘사이냅 도큐애널라이저’를 효율적으로 공급하고 있다. 이 솔루션은 원본 문서의 구조와 맥락을 분석해 AI가 이해하기 가장 적합한 형태로 데이터를 변환·정제하는 역할을 한다. 단순 텍스트 추출을 넘어 문서의 제목·표·이미지·단락 등 시각적 구성과 논리적 순서를 식별하는 정교한 시각적 구조 분석(VSA) 기술을 갖췄다. 분석된 데이터는 마크다운(MD), JSON 등 정형 데이터로 변환되어 맥락을 보존하면서 LLM 학습 효율을 극대화한다. 사이냅 도큐애널라이저는 이미 다양한 산업 현장에서 활용되고 있다. 최근 한국주
플래티어는 기업 맞춤형 AI 개발·운영 플랫폼 ‘XGEN’을 출시했다고 22일 밝혔다. XGEN은 검색증강생성(RAG), AI 워크플로우 설계, 대규모 언어모델(LLM) 통합 운영, 성능 모니터링과 배포까지 아우르는 올인원 AI 플랫폼이다. 이번 출시로 플래티어는 AI 도입을 추진하는 기업이 겪는 복잡한 기술적·운영적 장벽을 해소하고 빠른 성과 창출을 지원하는 데 초점을 맞췄다. XGEN은 ▲기업 맞춤형 AI 서비스 개발 ▲확장성과 유연성을 갖춘 LLMOps 제공 ▲다양한 데이터 소스 연계 및 RAG 구성 ▲안정적이고 효율적인 운영 체계 구현 등을 통해 AI 도입 장벽을 낮춘다. 또한 유연한 통합 환경을 바탕으로 개발사, 시스템 통합사(SI) 등 파트너사에게도 높은 활용 가치를 제공한다. 클라우드와 온프레미스 환경을 모두 지원하며, 데이터 암호화와 접근 권한 제어 등 엔터프라이즈급 보안·거버넌스를 갖춰 공공·금융 등 규제가 엄격한 산업에서도 도입이 가능하다. RAG 기술을 통해 기업 내부 데이터를 벡터 DB에 저장·학습시켜 실제 비즈니스 맥락에 최적화된 AI 서비스를 구현할 수 있다. 웹 기반 비주얼 캔버스 에디터도 제공돼 개발 편의성이 강화됐다. 사용자는
코난테크놀로지가 군사 분야에서 LLM 도입 사업을 수주하며 국방 AI 전문 역량을 입증했다. 코난테크놀로지는 국방 기관의 ‘생성형 기반 에이전틱 AI 실증’ 사업에 착수했다고 9일 밝혔다. 이번 사업은 국군 환경에 최적화된 AI 플랫폼과 도메인 특화 LLM을 구축해 군사정보 기반 의사결정 지원과 역량 강화를 목표로 한다. 회사는 자체 개발한 대규모 언어모델 ‘코난 LLM’을 활용해 방대한 군사용어 데이터를 기반으로 맞춤형 학습과 미세조정을 진행한다. 최신 RAG 기술을 적용해 정보 생성, 요약, 번역 기능을 강화하고 AI 에이전트 기반 검색과 에이전틱 기능을 통해 실무자의 신속·정확한 의사결정을 지원한다. 사업이 완료되면 군사정보 수집·처리 자동화, 정밀 분석, 보고, 다국어 대응까지 가능한 정보작전 역량을 확보할 수 있을 것으로 기대된다. 김규훈 국방AI 사업부 이사는 “전장을 판단하는 에이전트를 적용해 지휘결심 지원을 첨단화하는 데 힘쓰겠다”고 말했다. 코난 LLM은 한국남부발전, 한림대의료원 등에서 이미 실무 적용이 완료됐으며 최근 경기도청, 대법원, 한국서부발전, 한국동서발전의 생성형 AI 사업에도 도입이 확정됐다. 특히 보안 요구가 높은 공공, 국방
사이냅소프트가 자사의 대표 제품인 ‘사이냅 문서뷰어’가 ECM(Enterprise Content Management)과 KMS(Knowledge Management System) 영역으로 활용이 확대되며 LLM 서비스에서 근거 확인을 위한 필수 솔루션으로 자리매김하고 있다고 발표했다. 생성형 AI와 LLM이 업무 환경에 본격적으로 도입되면서 AI가 제공하는 정보의 신뢰성과 이를 뒷받침하는 근거 확인의 중요성이 강조되고 있다. 특히 LLM이 답변과 함께 참조 문서나 출처를 제시하는 경우가 늘어나면서 사용자가 해당 근거 문서를 빠르게 검증할 수 있는 시스템에 대한 수요가 커지고 있다. 사이냅 문서뷰어는 이러한 요구를 충족하며 AI 시대의 새로운 핵심 도구로 주목받고 있다. 사이냅 문서뷰어는 웹사이트 문서 열람 솔루션에서 출발해 현재는 기업과 공공기관의 핵심 정보 시스템 전반에 적용되고 있다. 특히 LLM 시스템과 연동해 근거 문서 확인 기능을 강화하는 사례가 늘어나고 있으며 이를 통해 정보의 신뢰성과 업무 정확성이 크게 향상되고 있다. ECM 시스템에서는 계약서, 기술 문서, 규정 등 기업 문서를 체계적으로 관리하고, LLM이 참조한 특정 페이지나 단락을 즉시
텔레픽스가 전문 기술 영역에 특화된 AI 검색모델 ‘픽시(PIXIE)’ 시리즈를 오픈소스로 공개했다. 이번 공개로 위성·항공우주 분야는 물론 고도의 전문성이 요구되는 산업 전반에서 AI 상용화를 앞당길 전망이다. 픽시(PIXIE, TelePIX Intelligent Embedding)는 대규모 언어모델(LLM)이 답변을 생성하기 전, 기술 문서에서 정확한 정보를 찾아주는 AI 검색모델이다. 위성 및 우주 분야를 비롯한 전문 기술 영역에 최적화돼 답변의 정확성과 신뢰도를 강화했다. 이 모델은 위성영상 분석 AI 에이전트 솔루션 ‘샛챗(SatCHAT)’ 성능 고도화를 위해 개발됐다. 샛챗은 RAG(검색증강생성) 기술을 활용해 사용자가 제공한 문서나 사내 기술 자료를 바탕으로 답변을 생성한다. 기존 범용 검색모델의 한계였던 전문 용어 이해와 설명 가능성 부족 문제를 해결하기 위해 텔레픽스는 항공우주, 위성, 국방 등 기술 문서에 특화된 임베딩 모델을 직접 개발했다. 픽시 시리즈는 ▲픽시 스플라드(한국어 전용 희소 벡터 모델) ▲픽시 룬(한·영 학습 인코더 기반 임베딩 모델) ▲픽시 스펠 0.6B·1.7B(디코더 기반 다국어 모델) 등 4종으로 구성된다. 이들은 방