ユーザが会話に詰まったとき、会話の文脈に基づいて言葉を促す


AIと音声認識技術によって、言語コミュニケーションに課題を持つ人を支援し、言葉の障壁を低くする発明を取り上げます。失語症による発話の不均衡をサポートする技術(US2019/0378501A1、IBM)です。



テクノロジーによって、言語コミュニケーション能力が拡張される

最近は、機械翻訳や自動翻訳が手軽に活用できるようになりました。その背景には、AIや音声認識技術の向上があります。簡単な文章であれば、辞書を使わずにインターネットの翻訳サイトで調べれば済みます。今夏に開催されるオリンピックでも威力を発揮することでしょう。これらの便利な翻訳技術によって、私たちは様々な国の言語を手軽に理解でき、私たちの言語コミュニケーション能力は拡張されています。

しかし、これらは、あくまでも標準語を話す健常者のためのものです。言語に障害を持つ人や地方特有の方言を持つ人は、言葉コミュニケーション支援を必要としています。これらの人たちの言語の障壁を低くし、言語コミュニケーションを拡張させる取り組みが望まれています。



ユーザが会話に詰まったとき、会話の文脈に基づいてユーザを促す

AIや音声認識技術を用いることで、失語症による発話の不均衡をサポートする技術(US2019/0378501A1、IBM)があります。ユーザが会話に詰まったときに、会話の文脈に基づいて、ユーザに適切な語句を促すというものです。

会話が詰まることとは、会話中に発生する中断または不規則を指します。発話の不均衡には、発話の一時停止または繋ぎ言葉(「えっ」、「ええ」、または「あー」など)などです。ユーザは、特定の発話内容の詳細を思い出すため、中断したり、次に話すことを忘れた時に会話に詰まったりする場合があります。脳の影響を与える失語症などの障害は、異常な発語を引き起こし、発話の不均衡が生じやすなります。

このような時、多くの場合は、特定の単語やフレーズを促してあげることで、ユーザは会話の詰まりを克服できます。ただし、ユーザに適切に促してあげるためには、ユーザの記憶を正常に呼び起こし、ユーザに促す単語やフレーズを適切に選択する必要があります。このような下記の手順で行われます。

1)ユーザの音声パターンを生成する

ユーザの音声のサンプルを分析して、ユーザの音声サンプルをテキストに変換し、ユーザの音声パターンを構成する言語設定を決定します。ユーザの言語設定には、単語の選択、特定の質問への回答、特定の発言への反応、簡潔さ、俗語、地域主義、スラングの使用、その他の設定が含まれます。

2)促す単語・フレーズを選択する

ユーザと会話している相手との関係に基づいて、促す単語・フレーズを選択することができます。例えば、ユーザが発声する単語・フレーズと、ユーザが話している人との間の相関分析などです。また、その他の相関も分析します。ユーザの環境(例えば、職場、自宅など)、時刻(例えば、ユーザが「おはよう」を午前中の挨拶として使用する)、天気や気温、通話履歴など。ユーザのスピーチを分析して、スピーチのコンテキストおよび特定の単語の使用頻度とともに、ユーザのスピーチに現れる単語やフレーズの辞書またはリストを生成・更新します。

3)単語・フレーズを促す

会話に詰まってしまったユーザを、適切な単語・フレーズを用いて促します。不明瞭な会話のコンテキストとともに、ユーザが発話の詰まりに遭遇した情報を受け取り、会話のコンテキストを使用して、ユーザが次に話す可能性が高い単語・フレーズをユーザに推奨します。ユーザの促しに使用された単語・フレーズの履歴を保存し、ユーザを首尾よく促すことができた場合は、ユーザが同様の状況で発話の詰まったときに再利用し、促しが失敗した場合は、次に推奨しないようにします。会話の相手によってなされた質問に応答して、ユーザが会話の詰まりを生じた場合、(ユーザの言語ソースに応じて)質問に対する回答である可能性が最も高い単語・フレーズを提案します。機械学習技術を使用してユーザの特定の会話傾向を識別することができます。

これによって、失語症などの言語障害に苦しむユーザを支援することができ、会話中にユーザがより明瞭に会話をすることを支援することが可能になります。