アクティブ視聴覚統合に関する研究

主动视听集成研究

基本信息

批准号：
11J09496
负责人：
吉田尚水
金额：
$ 0.83万
依托单位：
Tokyo Institute of Technology
依托单位国家：
日本
项目类别：
Grant-in-Aid for JSPS Fellows
财政年份：
2011
资助国家：
日本
起止时间：
2011 至 2012
项目状态：
已结题

项目摘要

平成23年度は,話者が発話している区間を切り出す発話区間検出を行う際に,視覚・聴覚情報がどの程度有効であるかを因果ベイジアンネットワーク[1]を用いて推定する手法を提案した.平成24年度は,その推定にロボットの能動的な動作による影響を考慮するように拡張した.具体的には,能動的な動作としてロボットの移動を扱い,因果ベイジアンネットワークを用いて予測した結果から動作を生成する部分を含めた枠組みを構築した.ロボットの動作生成は,(1)現在の位置の近傍に離散グリッドを設定する,(2)離散グリッドの格子点上に移動した場合の発話区間検出性能の期待値を因果ベイジアンネットワークを用いて予測する,(3)期待値が最大となる点へ移動する,という3つのステップによりモデル化した.この提案手法を,全方位台車の上に上半身が設置されている台車ベースのヒューマノイドロボットHearboに実装し評価実験を行った.このロボットはマイクロホンアレイから聴覚情報を,カメラから視覚情報を取得する.また,台車のタイヤに取り付けられたエンコーダからロボットの位置情報を取得する.これらの情報を因果ベイジアンネットワークの入力となり,動作を生成する.評価では,部屋の中に話者が一人と雑音源が一つある状態を想定し,提案したアクティブ視聴覚統合の有効性を評価した.ロボットの初期位置から因果ベイジアンネットワークを用いて予測した最適な到達点までの間で複数の中間点を設定し,それらの点で発話区間検出性能実験を行った.まず,学習用データと評価データで同じ話者の場合の簡単な評価実験を行い,提案したアクティブ視聴覚統合が発話区間検出性能の向上に有効であることを示した.本手法では,従来は扱われなかった,動作による影響を予測するステップが含まれており,音声認識などロボット聴覚で研究されている様々なタスクへの応用が期待できる.[1]J.Pearl,"Causality:Models, Reasoning and Inference,"Cambridge University Press.

在2011年，我们提出了一种方法，以使用因果贝叶斯网络[1]估算视觉和听觉信息的有效性[1]，以检测说话者说的语音间隔，并估计视觉和听觉信息有效的程度。 2012年，我们扩展了估计，以考虑机器人主动运动的影响。具体而言，我们创建了一个框架，其中包括使用因果贝叶斯网络预测的结果产生动作的零件。使用三个步骤对基于T的运动的运动产生进行建模：（1）将离散的网格设置在当前位置，（2）当移动到使用因果贝叶斯网络的离散网格的网格点时，预测说话间隔检测性能的期望值，（3）移动到预期值的最大值。这种提出的方法是在基于车的类人机器人赫尔博（Hearbo）上实现的，其上半身安装在全向车上，并进行了评估实验。该机器人是麦克风轴向推车。声学信息是从射线和相机的视觉信息中获得的。机器人的位置信息也是从附着在购车轮胎上的编码器获得的。此信息用作因果贝叶斯网络的输入，并生成动议。在评估中，我们假设房间中有一个扬声器和一个噪声源，并且评估了提出的主动视听整合的有效性。在机器人的初始位置和使用因果贝叶斯网络预测的最佳覆盖范围之间设置了多个中点。我们在这些点上进行了语音间隔的检测性能测试。首先，我们使用培训数据和评估数据对同一说话者进行了简单的评估实验，并表明所提出的主动视听整合可有效提高语音间隔的检测性能。该方法包括预测运动效果的步骤，该运动的影响（以前尚未处理过），并且可以预计将应用于机器人听力中研究的各种任务，例如语音识别。[1] J.Pearl，“因果关系：模型，推理和推理，”剑桥大学出版社。