複数話者の音声コミュニケーションの意図・状況理解

了解多说话者语音通信的意图和情况

基本信息

批准号：
16016250
负责人：
河原達也
金额：
$ 5.95万
依托单位：
Kyoto University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research on Priority Areas
财政年份：
2004
资助国家：
日本
起止时间：
2004 至 2005
项目状态：
已结题

项目摘要

人間と共生する機械を実現するためには、システムがユーザのモデルを知覚し、それに応じて適応的に行動することが重要であると考えられる。本研究ではまず、音声対話によるインタフェースにおいて、協調的な応答を生成するためのユーザモデルについて検討を進めてきた。具体的には、システムに対する習熟度、タスクドメインに関する知識レベル、性急度の3つのユーザモデルを導入し、それに応じて対話制御を行う戦略を提案した。京都市バス運行情報案内システム(現在試験運用中:075-326-3116)において実装・評価を行った結果、各ユーザに適応した協調的応答が、習熟したユーザに対する対話時間を増加させることなく、初心者に対して適切なガイダンスとなることが示された。本研究で用いているユーザモデルは自動判別を行うが、そのための特徴として音声認識結果に含まれる意味情報以外に、発話間間隔やバージインの有無などの音声対話特有の特徴も用いている。特に、習熟度と性急度の学習・判別に用いる特徴はドメイン知識に依存していないため、これらのユーザデルは他のドメインにも応用できる汎用的なものである。ただし、対話制御については人手で規則を記述する必要があり、大規模なドメインやモデルへの適用が困難であった。そこで次に、ユーザや状況のモデルに基づいて、プランニングにより対話制御・応答生成を行う枠組みを考え、このプランニング(プランを動的に選択する機構)を機械学習により行うことを研究した。プランはドメインプランと発話プランの2階層からなり、ドメインプランを決定することで次に提供する情報内容を決定し、発話プランを決定して具体的な応答を生成する。これらのプランは、前記のようなユーザ・状況のモデルをパラメータとする線形の評価関数で規定される。ロールプレイ形式で行う模擬対話サンプルによりこの学習を行うことにより、ユーザに適応した対話プランの選択を実現することができた。

为了实现与人类共存的机器，系统感知用户的模型并相应地自适应行动被认为很重要。在这项研究中，我们首先研究了在语音对话界面中生成合作响应的用户模型。具体来说，我们引入了三种用户模型：对系统的熟悉程度、任务领域的知识水平和紧迫性，并提出了相应的控制交互的策略。在京都市巴士运行信息引导系统（目前正在试运行：075-326-3116）中实施和评估的结果表明，适合每个用户的协作响应可以让初学者轻松使用，而无需增加交互时间事实证明，它为有经验的用户提供了适当的指导。本研究中使用的用户模型进行自动判别，为此，除了语音识别结果中包含的语义信息外，还使用了口语对话特有的特征，例如话语之间的间隔以及是否存在打断。特别是，用于学习和确定熟练程度和紧急程度的特征不依赖于领域知识，因此这些用户模型是通用的，可以应用于其他领域。然而，对话控制的规则必须手动编写，这使得它很难应用于大规模领域和模型。接下来，我们考虑了一个通过基于用户和情况模型的规划来控制对话和生成响应的框架，并研究了如何使用机器学习来执行该规划（动态选择计划的机制）。计划由两层组成：领域计划和话语计划，通过确定领域计划，确定接下来要提供的信息内容，通过确定话语计划，生成具体的响应。这些计划由线性评估函数定义，其参数是上述用户/情境模型。通过使用以角色扮演形式执行的模拟对话样本进行学习，我们能够选择适合用户的对话计划。