テキスト音声合成は、計算機によってテキストから音声を生成する技術です。近年の深層学習の発展により、平坦な読み上げ音声であれば、合成音声は人間の音声に匹敵する品質にまで達しています。一方、表現力豊かな感情音声においては、まだ人間のレベルには到達しているとは言えません。
LINEでは、高い表現力と多様な発話スタイル、高い制御性を併せ持つ音声合成システムを目指し、様々な技術開発に取り組んでいます。本セッションでは感情音声合成におけるモデル開発とシステム運用の側面から、一つずつテーマを取り上げてご紹介いたします。
前半は、音声処理の国際会議INTERSPEECH 2022に採択された手法を紹介します。本手法では、少量の平静音声を基に、音声変換手法を用いて大量の擬似的な感情音声を生成し、感情音声合成モデル構築のために活用します。
後半は、多数の推論モジュールから構成される感情音声合成システムの運用について、マイクロサービスアーキテクチャの導入により、保守/開発サイクルを高速化/効率化する仕組みをご紹介します。