移動体からの情報アクセスのための音声インタフェースの開発

开发用于从移动设备访问信息的语音接口

基本信息

  • 批准号:
    18049037
  • 负责人:
  • 金额:
    $ 1.92万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
  • 财政年份:
    2006
  • 资助国家:
    日本
  • 起止时间:
    2006 至 无数据
  • 项目状态:
    已结题

项目摘要

情報サービスの発展で提供される選択肢が数万以上のサービスが増加している。このようなサービスに対する音声インタフェースでは、従来のように事前知識による重み付けは、サービスの妨げにもなりかねない。本研究では、現在の音声認識では、安定した性能が得られない多選択肢に対して、高性能な音声認識を実現することを目的とする。これらの課題を実証的にすすめるため、本研究では、楽曲検索というタスクを設定する。このタスクは、インターネット上での音楽配信サービスのためのインタフェースである。実際の商用サービスにおいて、アーティスト名は1万内外、アルバム名は数万程度、曲名は数十万程度、となっており、多選択肢のタスクとして十分な規模である。音楽配信サービスなどの大量の固有名を対象とするアプリケーションでは、どの名称がよく使われるというような事前の確率情報が利用できないため、認識率が悪い。その原因を明らかにするために、一人当たり150単語(個別単語100単語、共通単語50単語)を50名が発話したデータを収録する。また、一般ユーザが様々な環境で音声認識を利用する場合には、マイクロホンやその使い方などの要素が大きく変動すると考えられる。そこで、オンライン環境で多数の被験者のデータを収集する。判明している問題点のうち、学習データにない音素については、音声合成手法を用いて学習データから補間する方法を提案した。辞書の分岐数が大きくなると認識率が悪くなる点については、辞書のサイズを実質的に圧縮する方法で対処する方法を提案する。辞書を分析したところ、外来語が多いため、音響モデルの学習に用いるデータに含まれないような音素(「フェ」「ディ」「ピュ」など)が多く含まれることがわかった。また、辞書のサイズが大きくなると認識性能が悪化するが、認識率の変化は一定ではなく、辞書や話者によって、5000語から10,000語程度のととろで急激に、認識率が低下する場合があることがわかった。オンライン環境で収録したデータに関しては、マイクロホンおよびその使用方法に変動が大きく、雑音区間を発話と誤って検出してしまう例が30%にのぼっており、検出モデルの性能向上が必要である。今年度は、多選択肢の音声コーパスを整備した。多選択肢のタスクにおいては、学習データに余り出現しない音素が多用されることがわかった。そのコーパスを用いて認識率を評価し、辞書のサイズが5000語を越えると悪化することがわかった。
信息服务的开发已经增加了服务的增长,其中超过数千种选择。在此类服务的语音界面中,像过去一样的先验知识加权也会干扰该服务。这项研究旨在实现多种选择无法通过当前语音识别来实现稳定表现的高性能语音识别。为了从经验上推动这些​​挑战,这项研究设定了音乐搜索的任务。此任务是通过Internet进行音乐发行服务的接口。在实际的商业服务中,艺术家名称在10,000范围内,专辑名称约为数万,歌曲名称约为数十万,使其成为多个选择任务的足够规模。针对大量专有名称的应用程序(例如音乐发行服务)不能使用先前的概率信息,例如通常使用哪个名称,因此识别率很差。为了澄清原因,包括数据,其中50个人每人说150个单词(100个单词,50个常用单词)。此外,当一般用户在各种环境中使用语音识别时,麦克风及其用法等因素可能会大不相同。因此,在在线环境中收集了来自大量主题的数据。在已知的问题中,提出了训练数据中不在训练数据中的音素,以使用语音合成技术从训练数据中插值。关于识别率随着字典中的分支数量的增加而变得较差的事实,我们提出了一种处理词典大小的实质性压缩问题的方法。在分析字典时,发现由于有很多外语,它包含许多音素(例如“ fe”,“ di”和“ pu”),这些音素未包含在用于训练声学模型的数据中。此外,尽管识别性能随字典大小的增加而恶化,但识别率的变化并不恒定,并且发现根据词典和说话者的不同,识别率可能突然在5,000至10,000个单词下降低。关于在在线环境中记录的数据,麦克风及其用法存在很大差异,并且有30%的案例错误地将噪声间隔视为语音,并且必须进行检测模型的性能。今年,我们开发了多项选择音频语料库。已经发现,在训练数据中没有出现太多的音素在多选项任务中经常使用。语料库用于评估识别率,发现字典的大小超过5,000个单词,将会恶化。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
An online customizable music retrieval system with a spoken dialogue interface
具有语音对话界面的在线可定制音乐检索系统
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

伊藤 克亘其他文献

有声・無声休止区間の自動検出を考慮したデコーディングによる自由発話音声認識の性能改善
通过考虑自动检测有声和无声停顿的解码来提高自由语音识别的性能
Colloidal nanoparticles from poly (N-isopropylacrylamide)-graft-DNA for single nucleotide discrimination based on salt-induced aggregation
来自聚(N-异丙基丙烯酰胺)-移植物-DNA 的胶体纳米粒子,用于基于盐诱导聚集的单核苷酸辨别
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    山田 善之;宮島 千代美;伊藤 克亘;武田 一哉;Zhonglan Tang et al.
  • 通讯作者:
    Zhonglan Tang et al.
Analysis of genome function by mutagenesis (in Japanese)
通过诱变分析基因组功能(日语)
  • DOI:
  • 发表时间:
    2003
  • 期刊:
  • 影响因子:
    0
  • 作者:
    原 直;勅使河原 三保子;伊藤 克亘;武田 一哉;Y.Gondo
  • 通讯作者:
    Y.Gondo

伊藤 克亘的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('伊藤 克亘', 18)}}的其他基金

能の謡の音楽的分析のための音響分析基盤の高度化
推进能乐歌曲音乐分析的声学分析平台
  • 批准号:
    24K03475
  • 财政年份:
    2024
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
音楽的分析のための能楽の謡の多層的なモデル化
用于音乐分析的能乐歌曲的多层建模
  • 批准号:
    20K00136
  • 财政年份:
    2020
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)

相似海外基金

Tungusic Elements in Old Japanese: From the Perspective of Contact Linguistics
古日语中的通古斯元素:接触语言学的视角
  • 批准号:
    20K00647
  • 财政年份:
    2020
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Detecting an enemy items utilizing an NLP approach: development and evaluation for language testing
利用 NLP 方法检测敌方物品:语言测试的开发和评估
  • 批准号:
    20K20821
  • 财政年份:
    2020
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
「Exam Corpus」の構築と、コーパスの言語テスト作成・改良への応用
“考试语料库”的构建及其在语言考试创建和改进中的应用
  • 批准号:
    20K00814
  • 财政年份:
    2020
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Synchronic and diachronic studies of French connectors based on corpora
基于语料库的法语连接词的共时性和历时性研究
  • 批准号:
    17K02677
  • 财政年份:
    2017
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Empirical Studies on Adjectivization Based on Distributed Morphology
基于分布式形态学的形容词化实证研究
  • 批准号:
    17K02697
  • 财政年份:
    2017
  • 资助金额:
    $ 1.92万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了