移動体からの情報アクセスのための音声インタフェースの開発

开发用于从移动设备访问信息的语音接口

基本信息

批准号：
18049037
负责人：
伊藤克亘
金额：
$ 1.92万
依托单位：
Hosei University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research on Priority Areas
财政年份：
2006
资助国家：
日本
起止时间：
2006 至无数据
项目状态：
已结题

来源：
https://kaken.nii.ac.jp/en/grant/KAKENHI-PROJECT-18049037/
关键词：
音声認識大語彙コーパス

项目摘要

情報サービスの発展で提供される選択肢が数万以上のサービスが増加している。このようなサービスに対する音声インタフェースでは、従来のように事前知識による重み付けは、サービスの妨げにもなりかねない。本研究では、現在の音声認識では、安定した性能が得られない多選択肢に対して、高性能な音声認識を実現することを目的とする。これらの課題を実証的にすすめるため、本研究では、楽曲検索というタスクを設定する。このタスクは、インターネット上での音楽配信サービスのためのインタフェースである。実際の商用サービスにおいて、アーティスト名は1万内外、アルバム名は数万程度、曲名は数十万程度、となっており、多選択肢のタスクとして十分な規模である。音楽配信サービスなどの大量の固有名を対象とするアプリケーションでは、どの名称がよく使われるというような事前の確率情報が利用できないため、認識率が悪い。その原因を明らかにするために、一人当たり150単語(個別単語100単語、共通単語50単語)を50名が発話したデータを収録する。また、一般ユーザが様々な環境で音声認識を利用する場合には、マイクロホンやその使い方などの要素が大きく変動すると考えられる。そこで、オンライン環境で多数の被験者のデータを収集する。判明している問題点のうち、学習データにない音素については、音声合成手法を用いて学習データから補間する方法を提案した。辞書の分岐数が大きくなると認識率が悪くなる点については、辞書のサイズを実質的に圧縮する方法で対処する方法を提案する。辞書を分析したところ、外来語が多いため、音響モデルの学習に用いるデータに含まれないような音素(「フェ」「ディ」「ピュ」など)が多く含まれることがわかった。また、辞書のサイズが大きくなると認識性能が悪化するが、認識率の変化は一定ではなく、辞書や話者によって、5000語から10,000語程度のととろで急激に、認識率が低下する場合があることがわかった。オンライン環境で収録したデータに関しては、マイクロホンおよびその使用方法に変動が大きく、雑音区間を発話と誤って検出してしまう例が30%にのぼっており、検出モデルの性能向上が必要である。今年度は、多選択肢の音声コーパスを整備した。多選択肢のタスクにおいては、学習データに余り出現しない音素が多用されることがわかった。そのコーパスを用いて認識率を評価し、辞書のサイズが5000語を越えると悪化することがわかった。

信息服务的开发已经增加了服务的增长，其中超过数千种选择。在此类服务的语音界面中，像过去一样的先验知识加权也会干扰该服务。这项研究旨在实现多种选择无法通过当前语音识别来实现稳定表现的高性能语音识别。为了从经验上推动这些挑战，这项研究设定了音乐搜索的任务。此任务是通过Internet进行音乐发行服务的接口。在实际的商业服务中，艺术家名称在10,000范围内，专辑名称约为数万，歌曲名称约为数十万，使其成为多个选择任务的足够规模。针对大量专有名称的应用程序（例如音乐发行服务）不能使用先前的概率信息，例如通常使用哪个名称，因此识别率很差。为了澄清原因，包括数据，其中50个人每人说150个单词（100个单词，50个常用单词）。此外，当一般用户在各种环境中使用语音识别时，麦克风及其用法等因素可能会大不相同。因此，在在线环境中收集了来自大量主题的数据。在已知的问题中，提出了训练数据中不在训练数据中的音素，以使用语音合成技术从训练数据中插值。关于识别率随着字典中的分支数量的增加而变得较差的事实，我们提出了一种处理词典大小的实质性压缩问题的方法。在分析字典时，发现由于有很多外语，它包含许多音素（例如“ fe”，“ di”和“ pu”），这些音素未包含在用于训练声学模型的数据中。此外，尽管识别性能随字典大小的增加而恶化，但识别率的变化并不恒定，并且发现根据词典和说话者的不同，识别率可能突然在5,000至10,000个单词下降低。关于在在线环境中记录的数据，麦克风及其用法存在很大差异，并且有30％的案例错误地将噪声间隔视为语音，并且必须进行检测模型的性能。今年，我们开发了多项选择音频语料库。已经发现，在训练数据中没有出现太多的音素在多选项任务中经常使用。语料库用于评估识别率，发现字典的大小超过5,000个单词，将会恶化。