라인은 세계 최대 규모의 음성∙음향∙신호처리 학술대회인 ICASSP 2023에서 논문 8편이 채택됐다고 밝혔다.
올해로 48회차를 맞이하는 ICASSP(International Conference on Acoustics, Speech, and Signal Processing)는 국제전기전자협회 신호처리학회(IEEE Signal Processing Society)가 주최하는 음성∙음향∙신호처리 분야 내 세계 최대 규모의 국제학회다.
채택된 논문 8편 중 6편은 라인이 주저자로, 해당 학회에 채택된 라인이 주저자인 논문 수는 지난해 3편에서 두 배 늘어나는 성과를 거뒀다. 2편은 다른 저자와 공동 집필한 논문이며, 모두 학회 개최 기간인 6월 4일부터 10일 중 발표된다.
이번 ICASSP 2023에서 채택된 논문에는 감정 음성 합성 시 텍스트에서 음성 파형으로 변환하는 과정에서 음성 피치 정보(음성 높이)를 이용하는 엔드투엔드 모델에 관한 제안이 소개됐다. 기존 모델은 보다 풍부한 표현을 필요로 하는 감정 음성 합성 시 자연스러운 음성을 합성하기 어려운 사례가 많았으나, 변환 과정을 단일 모델로 수행하는 엔드투엔드 모델은 양질의 음성을 생성할 수 있다.
제안 방법에서는 감정 음성 합성 시 보다 중요한 피치 정보를 양으로 모델링했다. 이를 통해 생성 음성의 피치 정보를 보다 정확하게 표현할 수 있게 돼 기존 방법으로는 생성이 어려웠던 피치가 극단적으로 높거나 낮은 발화에서도 보다 자연스럽고 안정된 결과를 얻을 수 있음을 입증했다.
논문에서는 다수의 화자가 혼재된 음성을 분리하는 음원 분리 시 이미지 생성에도 활용되는 확산 모델을 이용하는 방식이 채택됐다. 머신러닝을 이용하는 기존의 음원 분리는 교사 데이터의 음성 분리도를 극대화하는 식별 모델을 이용하는 방식이 주류였으나, 분리도가 높은 음성이라도 인간이 듣기에는 부자연스러운 경우가 종종 있었다.
제안 방법에서는 이미지 생성에도 활용되는 생성 모델 중 하나인 확산 모델을 음원 분리에 활용함으로써 자연스러운 음성 생성을 실현했다. 확산 모델을 활용한 결과, 분리음의 왜곡이 줄어들어 인간의 지각 능력에 기반한 음성 품질 평가 지표(DNSMOS)에서 기존 방법을 상회했다.
라인은 AI 기술을 활용해 새로운 서비스를 창출하는 동시에 AI 기술 연구 개발 활동에도 적극 투자하고 있다. 특히 음성 처리 분야에서는 음성 인식 및 음성 합성 기술을 중심으로 여러 저명한 학회에서 영향력 있는 연구 성과를 발표한 바 있다.
한 예로, 고품질의 음성을 고속으로 합성할 수 있는 'Parallel WaveGAN', 고속 음성 인식을 실현하는 기법인 비 자기회귀형 음성 인식 모델 중에서도 가장 정밀도가 높은 'Self-Conditioned CTC' 등의 최첨단 기술을 개발해왔다. 환경음 분석에서는 국제 경진대회인 DCASE 2020에서 세계 1위를 차지하기도 했다.
라인은 앞으로도 AI 기술 기초 연구를 적극 추진해 기존 서비스의 품질 향상은 물론 새로운 기능 및 서비스 창출에 노력을 기울일 예정이다.
헬로티 서재창 기자 |