'도메인 특화 AI 모델'로 선두그룹 형성한 토종 LLM 기업은?

2024.09.02 16:04:35

서재창 기자 eled@hellot.net

 

우리는 LLM 시대를 살고 있다

 

AI 기술의 급속한 발전 가운데, 대규모 언어 모델(Large Language Models, LLM)은 특히 눈에 띄는 진보를 이루고 있다. 지난 2022년 11월 등장한 GPT-3.5와 같은 모델이 자연어 처리를 혁신하며, 다양한 산업에서 영향력을 확대하고 있음을 의미한다. 

 

LLM은 방대한 양의 텍스트 데이터를 학습해 언어의 구조와 의미를 이해하고, 이를 바탕으로 자연스러운 텍스트를 생성할 수 있는 AI 모델이다. 초기 모델에서 최근 GPT-4o에 이르기까지 LLM은 더 많은 데이터와 복잡한 알고리즘을 통해 정확하고 다양한 언어 생성 및 이해 능력을 증명하고 있다. 

 

 

챗GPT가 주목받았던 이유 중 하나는 사용자가 원하는 답변을 신속히 생성해낸다는 점이었다. 이 같은 관점에서 LLM은 고객 서비스에 적합한 기술이라는 평가를 받고 있다. 특히 AI 챗봇과 가상 어시스턴트는 고객 지원을 혁신하고 있다. 이들은 사용자 질문에 즉각적으로 반응하며, 특히 비대면 서비스가 중요해진 현 시대에 24시간 고객 지원을 제공함으로써 서비스의 접근성과 효율성을 높이고 있다.

 

자동화한 콘텐츠 생성 기능도 LLM의 주요 강점이다. 사용자는 LLM을 활용해 마케팅 자료, 보도 자료, 블로그 게시물 등을 신속하게 제작하게 됐다. 이뿐 아니라 맞춤형 교육 자료와 언어 학습 도구로서의 활용도 주효한 기능이다. 학생 개개인의 학습 스타일과 수준에 맞춘 자료를 제공함으로써, 교육의 개인화를 실현하고 교육 효과를 높이는 데 기여한다. 이외에도 연구 및 데이터 분석, 프로그래밍 등 다양한 영역에서 LLM 활용 효과가 드러나고 있다. 

 

이에 기업은 LLM 도입을 적극적으로 검토하는 추세다. 기업이 LLM을 도입하고자 하는 주된 이유는 생산성 향상과 비용 절감, 지속가능성이다. 데이터 프라이버시와 보안 문제, 직업 윤리 및 책임 소재 문제 등에 대한 우려도 동시에 존재하지만, 그럼에도 LLM은 산업 전반에 걸쳐 혁신적인 사례를 만들며, 일하고 생활하는 방식을 재정의하고 있다. 이 글에서는 최근 주목받는 국내 LLM 서비스에 대해 소개해보고자 한다. 

 

코난테크놀로지 ‘온디바이스 AI + LLM’

 

지난해 8월, 코난테크놀로지는 자체 기술을 활용해 코난 LLM 파운데이션 모델을 출시해 화제를 모았다. AI 모델은 한국에서 생산된 데이터를 얼마나 갖고 학습했는지에 따라 한국어 성능이 결정된다. 코난 LLM의 전체 학습 토큰 수는 47B 모델 기준 1조5111억 개, 한국어 토큰수는 5111억 개에 달한다. 코난 LLM은 특히 한국어 토큰의 규모뿐 아니라 국내 문화, 정서, 라이프스타일 등이 담긴 데이터로 학습한 만큼 답변 품질도 뛰어난 것으로 알려졌다. 

 

이와 함께 코난테크놀로지는 최근 STT, TTS, LLM 기능을 갤럭시 S24에 동시 탑재해 실시간 외국어 대화를 구현하기도 했다. 퀄컴의 스냅드래곤 등 저전력의 AI칩에서 작동된 만큼 스마트폰, 카메라, 센서, 드론, 웨어러블 등 여러 디바이스에도 적용 가능하다. 코난테크놀로지는 온디바이스 AI를 선보이며 기업용 코난 LLM 모델 라인업도 재정비했다. 이를 통해 생성형 AI 도입을 고민하는 기업이 원하는 업무의 규모나 용도 및 예산에 맞춰 선택하도록 조정했다.  폭을 넓히겠단 방침이다. 

 

LLM 시장 확대 나서는 포티투마루

 

포티투마루는 검색증강생성 기술인 ‘RAG42’와 AI 독해 기술인 ‘MRC42’를 기반으로 각 산업 도메인에 특화한 경량화 모델 ‘LLM42’를 개발하고 있다. 포티투마루는 기업용 프라이빗 모드를 지원해 기업 내부 데이터와 민감한 고객 정보 유출에 대한 걱정없이 안전하게 초거대 AI를 활용하게 하며, 전문 산업 분야에 특화한 경량화 모델을 구현해 솔루션 구축과 학습, 서빙에 들어가는 비용을 절감시키고 있다. 최근에는 기업 내 보유 중인 다양한 유형의 업무 문서에 LLM을 접목한 ‘다큐에이전트42’를 선보인 바 있다. 

 

지난 8월 포티투마루는 AI 연구거점 구축 프로젝트 수행기관으로 선정돼 주목 받았다. AI 연구거점 구축 프로젝트는 세계 수준의 AI 산·학·연 협력 생태계 구축을 위해 과학기술정보통신부와 정보통신기획평가원이 추진하는 대규모 AI 연구 허브 조성 사업이다. 생성형 AI 개발에 주력해 온 포티투마루는 AI 독해 경진대회인 ‘SQuAD 2.0’에서 구글 AI팀과 공동 1위를 차지했으며, 마이크로소프트가 주관하는 생성형 AI 언어 이해 경진대회에서도 1위를 달성했다. 최근 5년간 국내·외 90여 건의 논문을 출원·등록 중인 것으로 알려졌다. 

 

올거나이즈, 도메인 특화 LLM 주목하다

 

올거나이즈는 ‘알리(Alli) 플랫폼’을 통해 기업용 LLM 인에이블러 서비스를 제공하고 있다. 다양한 오픈소스 LLM 모델을 이용한 LLM 앱 개발 도구 및 미리 개발된 LLM 앱을 앱 마켓 형태로 제공한다. 각 도메인에 적합한 LLM 서비스를 개발 중인 올거나이즈는 금융 특화 LLM ‘알파-F’를 비롯해 산업·기업별 특화 언어 모델을 제작해 기업에 공급하고 있다. 지난 8월에는 한국토지주택공사(이하 LH)와 ‘생성형 AI 기반 업무기준 질의응답 서비스’ 구축 계약을 체결했다. 올거나이즈는 ‘알파 LLM’과 RAG 솔루션을 결합해 LH 내부에 생성형 AI 서비스를 구축할 예정이다. 

 

지난 6월, 올거나이즈는 한국어 실무에 강한 LLM인 ‘알파-인스트럭트’을 출시하기도 했다. 올거나이즈의 알파-인스트럭트 모델은 메타의 오픈소스 LLM인 ‘라마3’를 기반으로 제작된 파라미터 8B 규모의 경량 LLM이다. 한국어를 잘 이해하도록 라마3를 개량한 모델과 지시사항을 따르는 데 특화한 라마3의 인스트럭트 모델을 병합하는 방식으로 제작됐다. 이후 보편적인 답변 선호도를 반영한 지시사항 데이터셋 2000개를 추가 학습시킴으로써 동일 대답 반복, 불필요한 영어 대답 등의 오류를 최소화한 것으로 알려졌다. 

 

목적별 특화 LLM 만드는 업스테이지

 

지난해 12월, 업스테이지는 그동안의 노하우와 데이터를 기반으로 자체 LLM ‘솔라’를 개발했다. 솔라는 작은 크기로 구성된 사전학습 모델로, 107억 매개변수를 보유했다. 솔라는 리더보드 평가에서 74.2점을 기록하며 전체 1위를 차지한 바 있다.

 

이후 업스테이지는 솔라를 경량화한 ‘솔라 미니’도 연이어 출시했다. 솔라 미니는 아마존 세이지메이커 점프스타트에 출시된 솔라 미니는 AWS 마켓플레이스에도 출시돼 많은 기업의 생성형 AI 도입을 가속화하고 있다. 이를 통해 AWS를 이용하는 전 세계 기업은 자체 모델을 개발할 필요 없이 솔라 미니를 활용해 자사 맞춤형 생성형 AI 서비스를 만들게 된다.

 

업스테이지는 솔라 미니의 한국어 및 영어 모델을 지원하며, 연내 일본어와 태국어까지 확장해 해외 진출 영역을 넓힐 예정이라고 밝혔다. 또한, 세계 무대에서 확인한 범용 모델의 기술력과 GPT-4를 뛰어넘는 번역 도메인에서의 성과 등을 필두로 ‘목적별 특화’ 언어 모델 고도화에 박차를 가할 계획이다. 이를 통해 금융, 보험, 의료, 교육 등 다양한 영역의 기업 맞춤형으로 적용하는 SLM을 주력으로 글로벌 시장을 공략할 것으로 보인다. 

 

헬로티 서재창 기자 |

Copyright ⓒ 첨단 & Hellot.net





상호명(명칭) : (주)첨단 | 등록번호 : 서울,자00420 | 등록일자 : 2013년05월15일 | 제호 :헬로티(helloT) | 발행인 : 이종춘 | 편집인 : 김진희 | 본점 : 서울시 마포구 양화로 127, 3층, 지점 : 경기도 파주시 심학산로 10, 3층 | 발행일자 : 2012년 4월1일 | 청소년보호책임자 : 김유활 | 대표이사 : 이준원 | 사업자등록번호 : 118-81-03520 | 전화 : 02-3142-4151 | 팩스 : 02-338-3453 | 통신판매번호 : 제 2013-서울마포-1032호 copyright(c) HelloT all right reserved.