逆教師ラベルによるパラ言語情報の推定


WEB会議が一気に広まりました。対面の会議に比べて、相手の心情を読み取りにくいと感じたことはありませんか?特に、通信回線の逼迫を防ぐためにカメラをオフにしている場合など、相手の顔の表情やしぐさ等の視覚的手掛かりが得られず、戸惑うことがあります。このような時、音声の特徴に注目してみましょう。今回取り上げるのは、音声からパラ言語情報を推定する技術(特開2020-129051、日本電信電話)です。


パラ言語とは

同じ言葉であっても、声の速さ、トーン、音量、抑揚が変わるとコミュニケーションの意味や感情はずいぶん変わります。例えば、「ありがとう」という言葉を、明るく大きな声で言われるのと、低くボソボソと言われるのでは、断然、前者の方が嬉しいものです。このように、声の速さ、トーン、音量、抑揚などの音声の特徴のことを、言語学ではパラ言語(paralanguae)と言います。パラ言語をどう理解するかは、相手の意図や心情を理解する上でとても重要です。

パラ言語情報を正しく推定することができれば、音声対話における話し相手の感情を考慮した対話制御(例えば、相手が怒っていれば話題を変えるなど)や、音声を用いたメンタルヘルス診断(例えば、毎日の音声を収録し、悲しみや怒り音声の頻度からメンタルヘルス状況を予測するなど)が応用できるようになります。上述のWEB会議でのコミュニケーションも円滑になるでしょう。



パラ言語の推定

従来のパラ言語情報の推定技術では、音声から抽出した短時間ごとの音響特徴(例えば、声の高さなど)の時系列情報を入力とし、話者のパラ言語情報を推定します(例えば、発話末尾で声の大きさが急激に低くなったことから、悲しみ感情であると推定する)。近年では、深層学習に基づくパラ言語情報推定モデルが主流となっています。

しかし、実際には、正解感情の特定が困難である発話が多く存在します。例えば、3名が聴取した際に、2名が「喜び」、1名が「平静」と判定するような発話があります(この場合、従来技術では「喜び」が正解感情)。このような場合、正解感情(すなわち「喜び」)に固有の特性を学習することは困難です。この結果、推定モデルを正しく学習することが困難となり、パラ言語情報推定精度が低下するおそれがあります。



「絶対に正解ではないパラ言語情報」逆教師

この発明のポイントは、あえて「絶対に正解ではないパラ言語情報」を推定することで、正解となるパラ言語情報の特定に貢献しようとする点です。ここでは、唯一の正解となるパラ言語情報を「従来教師」、絶対に正解ではないパラ言語情報を「逆教師」と呼びます。絶対に正解ではないパラ言語情報の推定は、正解のパラ言語情報の特定に比べて容易である可能性があり、絶対に正解ではないパラ言語情報を高精度に推定できると考えられます。このような消去法的な枠組みを用いることで、唯一の正解となるパラ言語情報の特定にも貢献できます。

逆教師とは、推定対象となるパラ言語情報のうち、予め定めた閾値(逆教師閾値」)以下(例えば、1割以下)の聴取者が判定したパラ言語情報を指すものとします。逆教師ラベルは、逆教師のパラ言語情報クラスが1、それ以外は0となるベクトルを指します。すなわち、従来教師のようにいずれか一つのパラ言語情報クラスが1、それ以外が0となるベクトルではなく、少なくとも一つ以上のパラ言語情報クラスが1となるベクトルが逆教師ラベルです。例えば、喜び・悲しみ・怒り・平静の4クラスの感情推定において、逆教師閾値を0.1とし、3名の聴取者がある音声に対して「喜び」「喜び」「平静」と判定した場合、その音声の逆教師ラベルは「悲しみ」「怒り」の2クラスが1、「喜び」「平静」の2クラスが0となる4次元のベクトルを指す。逆教師ラベルは、具体的には以下のように表されます。


ここで、hkn はn番目の聴取者がk番目のパラ言語情報クラスを感じたか否か(感じた場合は1、感じなかった場合は0)を表します。Kはパラ言語情報クラスの総数です。Nは聴取者の総数である。βは0以上1以下の逆教師閾値です。



この発明では、逆教師の推定モデルを単独で用いたパラ言語情報の推定、学習済みの逆教師推定モデルと従来教師推定モデルの両方を用いた入力された発話のパラ言語情報の推定の例があげられています。
さらに、従来教師の推定と逆教師の推定とを同時に行うマルチタスク推定モデルを用いてパラ言語情報の推定する例もあります(図14)。
このとき、モデル学習において、従来教師の推定と逆教師の推定をマルチタスク学習として同時に学習します。
マルチタスク学習は、異なる課題を単一のモデルで解くことにより、課題間で共通する知識を獲得でき、各課題の推定精度が向上することが知られています。



逆教師の考え方

逆教師の考え方は、パラ言語情報以外に、他にも応用できそうです。特に、人間の感情は、人によって判断が異なったり、同じ人でも時や場所に応じて変化したりします。また、私たちを取り巻く複雑な社会には、唯一の正解がある問題は少なく、複雑に要素が絡み合っています。逆教師のような考え方は、様々な状況に応じた社会課題に取り組む参考になるのではないでしょうか。


感情レポートご案内

ネオテクノロジーでは、2020年9月に「感情」を扱う最新特許レポート三部作を発売します。
ひとの感情を定量化する感情推定、感情を価値変換する感情表現、そして、ロボットやスマート端末を価値化する感情のビジネス活用の三部作です。ご関心のあるお客様は、ぜひお問い合わせください。


特許レポート オンラインショップ