SAC東京6期コースⅢ第10回月例会 事務局レポート

ロボットからエンターテイメントまで ~幅広い分野に応用が広がる音声対話技術~

コースⅢ第10回月例会は、大学院工学研究科、情報シナジー機構 副機構長の伊藤彰則教授による「ロボットからエンターテイメントまで~幅広い分野に応用が広がる音声対話技術~」が講義テーマです。

伊藤先生は、音声言語処理と音声信号処理を専門とし、音声認識・対話システムを研究しています。人間と機械が音声を使ってやり取りするシステムは、近年の音声認識・音声合成・言語処理技術の発展により、一般に使える技術になってきています。音声対話システムの歴史と基礎技術、様々な応用事例や今後の展望について大変興味深い講義となりました。

本日の講義は以下4つの構成です。

  1. 音声対話システムとは何か
  2. 音声対話システムに使われる技術
  3. システム開発
  4. マルチモーダル対話へ

音声対話システムとは何か

音声の研究は古く、1960年代から続きます。近年、深層学習の発展に伴い音声認識・音声合成の性能が飛躍的に向上し、様々な企業による音声インターフェースが一般化されています。

基本的な音声対話システムの構成は、音声認識+音声合成+テキスト音声対話となります。但し、対話の中身を制御する上で認識した内容の理解、不足した情報の聞き返し、理解内容の確認が必要になります。

音声対話システムは、コールセンター、スマートフォンや家電などの機器操作、エンターテイメントなど様々な用途に活用され、アクセスや操作の時間短縮に役立っています。

音声対話システムに使われる技術

音声対話システムの要素技術は下記3つとなります。

  • 音声認識:声を文字列にする(Speech-to-Text)
  • 音声合成:文字列を声にする(Text-to-Speech)
  • 対話制御:応答を決める

音声認識は、音声を受け取って最終的に文字列で表されます。最初に音声の波形を認識しやすい特徴量に変換します。次に、特徴量に変換された音声に対してデコーダ(decoder:音声認識器)の機能(音響モデル、辞書、言語モデル)により、どの文字列がこの音声に一番近いか計算します。

特徴抽出は、話者とマイクの距離や周囲の環境、声の高さなどによって変わるため、音声のスペクトル(周波数成分)に基づく量を利用します。

音響モデルは、音響特徴量から短時間の発音(音素)を推定します。高精度の認識をするために、様々な話者、様々な環境での音声を大量に用意して、音響特徴量から音素への変換を機械学習によって実現します。

辞書は単語と発音の対応表を表し、言語モデルは大量の言語データから単語の並びに誤りがないか、どの単語と単語が並びやすいのかを計算するモデルです。

デコーダによる検索は、単語の並びが音声に似ている度合いと、単語並びの出てきやすさ

の膨大な組合せを、文の最初から調べていき、確率の高い一定個数の候補だけを残しながら探索(ビーム探索)します。

実用面では従来の音声認識が普及していますが、最近の研究対象であるEnd-to-End音声認識の説明がありました。これまでの音響モデル、辞書、言語モデルの3つを統合したニューラルネットワーク(Neural Network)で音声から文字列を認識します。単語の追加などによる個別変更はできませんが、変換までの計算が早く全体最適化に向いているようです。

音声合成とは、テキストに対して形態素解析(品詞と読みの推定)を行い、その単語の読みを音声合成エンジンで音声に変換することを言います。文章の読み上げや、電車のアナウンス、歌声合成などに使われています。

形態素解析は、単語のアクセントと構文解析(どの単語がどこにかかるのか)によるアクセント句が調べられ、イントネーションが生成されます。そこから、ピッチ系列(声の高さの系列)が計算され、音声合成エンジンで音声が出来上がります。

英語とは異なり、日本語のアクセントは拍ごとの高さや型によって何種類も存在し、それを解析する必要があります。「はしをかける」でも、「端を駆ける」「箸を書ける」「橋を架ける」というように、助詞のアクセントはアクセント型で違ってきます。

この複雑なアクセント型を、音素で音声波形に変換する代表的な音声合成方式として次の3つが紹介されました。

  • 波形接続合成:短い音声波形を接続する
  • HMM合成:HMM(隠れマルコフモデル)により音響特徴量を生成する
  • DNN合成:ニューラルネットワークにより音響特徴量を生成する

また、発音推定、アクセント推定、ピッチ推定、スペクトル推定などを1つの巨大なニューラルネットワークで一度に行うEnd-to-end音声合成が紹介されました。

システム開発

音声認識、音声合成に加えて、テキスト対話が必要となります。音声対話システムの類型として、次の3つの説明がありました。

  • システムの目的:タスク指向vs.非タスク指向(雑談対話)
  • システムアーキテクチャ:対話状態ベースvs.フレームベースvs.一問一答
  • 開発手法:状態遷移を人手で記述vs.機械学習による自動応答生成

駅の券売機のようなフレームベースの対話システムの場合、目的地や数量、動作など全てのスロットが確定されるまで音声理解を行います。

用例ベース対話システムは、入力に近い用例を選んで対応する応答文を再生します。“用例文→応答の対応”をニューラルネットが数多く学習することに、応答文もより近い回答が瞬時に選択されるようになります。

マルチモーダル対話へ

音声だけによる対話は「電話での会話」に近いですが、「対面による対話」に近い対話としてのマルチモーダル対話の説明がありました。

マルチモーダル(multi-modal)とは、情報のチャンネル(modality)が複数あることを指し、音声(文字に起こせる情報)とパラ言語情報(文字に起こせない情報)、表情やジェスチャなどを使いながら対話することを言います。

相手が話を聞こうとしているのか、話に興味があるのかなどといった問題も、複数のモダリティを使うことで、音声だけでは難しかった感情や親しみの表出や、認識や音声だけで表現しにくい情報の交換(ロボットによる指差しなどの空間的情報)が可能になります。

対話エージェントのデザインによる科学的な知見はありませんが、話しかけやすさは向上します。話しかけやすい高さや、うまく発話できないユーザーの理由を視線特徴量で推定する実験結果が紹介されました。

言語的な感情に合わせて合成音声の感情を制御した研究では、ユーザーの発話のトーンに合わせて明るく返答したり、ネガティブに返答したりすることが可能です。これにより、相手に良い印象が与えられる実験結果が紹介されました。

同じシステムを同じユーザーが使い続けた場合、常に言語表現が簡素であると好感が持てなくなります。そこで、スピーチレベルシフト(親しさの変化)を制御することで、日毎に言語表現を親しくしていくとユーザーの印象が良くなることが実験で証明されました。

音声対話システムを持つロボットが人間とどのような関係を築いて共生するのか、また、機械の知能が人間の知能にどこまで近づくことができるのか、今後の研究に期待が持てました。

(以上で講義終了)

〔グループトークによる質疑〕(質疑のみ記載)

Q1.音声インターフェースの性能に差が生じる理由は何か?
Q2.音声対話システムが、場の空気を読んで対応する研究はどの程度進んでいるか?
Q3.訛りのある会話の音声認識の研究はどの程度進んでいるか?
Q4.音声で認知症や呼吸器疾患などを判定する研究は進んでいるか?
Q5.乳幼児向けや第二言語学習に音声対話システムが実用化されているか?
Q6.スピーチレベルシフトを相手に合わせてパーソナライズ化させることは可能か?
Q7.人とロボットの会話で、ストレスを取り除きながら会話する研究は進んでいるか?
Q8.研究内容がサービスやビジネスに実践された事例は何か?
Q9.チャットボットと音声対話システムによるコストの差はどれくらいか?
Q10.音声認識の際、周辺のノイズを除去する仕組みは何か?
Q11.複数人が同時に会話する場合、音声認識システムはどこまで対応可能か?
Q12.発音自体が上手くない人に対する音声認識の研究はどこまで進んでいるか?
Q13.サービスレベルで実用化されているビジュアルの良いロボットはあるか?

〔総括〕

村田特任教授よりポイント4点が示されました。

    1. 音声対話システムとは何かを学びました。近年、著しく発展した理由のひとつとして、ニューラルネットワークという人間の脳を模した計算モデルの改善によって、ディープラーニングが可能になりました。
    2. 音声対話システムの技術には、従来型とEnd-to-End型があることを学びました。End-to-End型は、ニューラルネットワークに直接学習させる手法で、用途が明確である小型化が可能になります。但し、性能の信頼性や計算パワーを比較した場合、従来型が勝っているため使い分けが重要となります。
    3. 音声認識の精度向上には、音声以外の要素となるマルチモーダルが重要となります。送受信者の状態など周辺情報を伝えるメタコミュニメーションによって、感情を込めた音声合成や親しみの制御が研究されています。
    4. 今後のビジネスヒントとして、音声対話システムとの対話から相手の健康状態を判定して、早期介入に繋がるビジネスが期待されます。ロボットとの何気ない会話から、認知機能が分かる時代が来るかもしれません。

以上

 

 

 

(文責:SAC東京事務局)

 

あわせて読みたい関連記事

サブコンテンツ

このページの先頭へ