최신뉴스 원라인에이아이, 伊 학회서 한글 언어모델 평가 데이터셋 공유
한국 특유의 지식과 문화적 맥락 평가하는 데이터셋과 성과 공유 예정 원라인에이아이가 이탈리아 토리노에서 열리는 '2024 국제 컴퓨터 언어학, 언어 자원 및 평가 공동 국제 학회(LREC-COLING 2024)'에 참가, 한글 언어모델 평가에 특화된 데이터셋 및 연구결과를 발표한다고 15일 밝혔다. 원라인에이아이는 금융 도메인 생성형 언어모델 관련한 연구 결과를 꾸준히 발표해왔다. 이번 학회에도 한국 특유의 지식과 문화적 맥락을 평가하는 데이터셋과 성과를 공유할 예정이다. 대규모 말뭉치로 훈련된 대형 언어모델(LLMs)은 다양한 작업에서 인상적인 능력을 보여주며 영어를 넘어 다른 언어로 이 모델을 적용하려는 노력이 지속된다. 하지만 그 평가 방법론에 대한 관심은 비교적 적은데, 현재 다국어 벤치마크는 주로 영어로 제작된 벤치마크를 번역하여서 사용하고 있기에 각국의 독특한 문화적 및 언어적 늬앙스를 포착하는 능력이 제한된다. 이전 한글 벤치마크가 자연어 이해나 추론 능력을 평가하는 데 중점을 둔 반면, 이번 학회에서 발표하는 한국어 벤치마크 데이터셋은 지식의 깊이 자체를 강조한다는데 차이점이 있다. 한국어 어휘, 문화, 지리, 역사에 대한 지식이 대화 상황에서