텍스트 음성 합성은 텍스트에서 음성을 생성하는 기술입니다. 딥러닝 기술의 발달로 평탄한 어조의 음성은 실제 육성에 필적할 만한 결과가 나오지만, 풍부한 표현력이 필요한 감정 음성은 아직 수준이 높지 않습니다.
LINE에서는 다양한 발성 스타일에 대응할 수 있는 음성 합성 시스템을 개발하고 있습니다. 이 발표에서는 이를 위한 합성 모델과 시스템 운영을 소개합니다.
먼저 INTERSPEECH 2022에 채택된 것으로 음성 변환 기술을 활용해 소량의 평탄한 어조의 음성으로 대량의 감정 음성을 인위적으로 생성해서 감정 음성 합성 모델 구축에 기여하는 방법을 소개합니다. 또한 감정 음성 합성 모델 시스템 운영에 마이크로 서비스 아키텍처를 도입해서 운영과 개발 사이클을 고속화 및 효율화한 사례를 소개합니다.