元音声の音声言語情報を逐次的に考慮する同時音声翻訳の研究
顺序考虑原始语音的语音语言信息的同步语音翻译研究
基本信息
- 批准号:22KJ0838
- 负责人:
- 金额:$ 1.09万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for JSPS Fellows
- 财政年份:2023
- 资助国家:日本
- 起止时间:2023-03-08 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
今年度,私は特別研究員として多様な言語間での音声翻訳のための音声合成技術・音声復元技術の研究を行った.さらに,国内外の学会で積極的に研究成果を発信した.私は2022年10月から2023年1月にかけてカーネギーメロン大学のLanguage Technologies Instituteに渡航し,東京大学とも連携しながら多言語音声合成の研究に従事した.テキスト資源を用いた自己教師あり事前学習により,テキスト資源しか得られない言語で音声合成システムを構築する新たな枠組みを提案した.これは,音声合成システムのカバーする言語数を増やし,同時音声翻訳システムの多様化に寄与する研究成果である.この研究成果は,人工知能分野の難関国際会議として知られるIJCAI2023に採択された.また,劣化音声の復元モデルを自己教師あり学習によって構築する新たな枠組みを提案し,Interspeech 2022で口頭発表を行った.これは今後の多様な音声資源の活用に向けて重要な貢献であり,情報処理学会山下記念研究賞やGoogle East Asia Student Travel Grantを受賞した.音声合成機構を持つ音声翻訳システムの評価に向けて,合成音声の自動評価システムの研究を実施した.我々の評価システムであるUTMOSは,合成音声品質の自動評価の国際コンペティションであるVoiceMOS Challenge 2022で,16個の評価指標のうち10個の指標で1位を獲得するという非常に優れた成績を収めた.このシステムは,音声生成タスクの評価実験を行う上で大変有用なものであり,今後の音声翻訳・音声合成・音声強調など幅広い研究分野での活用が期待される.以上のように,特別研究員の研究課題に寄与する研究実績を上げることができた.
今年,我作为特约研究员,进行了多种语言间语音翻译的语音合成技术和语音恢复技术的研究。此外,他还积极在国内外学术会议上传播他的研究成果。 2022年10月至2023年1月前往卡内基梅隆大学语言技术研究所与东京大学合作从事多语言语音合成研究。我们提出了一种新的框架,用于构建仅文本资源可用的语言的语音合成系统,使用文本资源进行自监督预学习。这是一项研究成果,将增加语音合成系统覆盖的语言数量,并有助于同步语音翻译系统的多样化。该研究成果在被誉为人工智能领域高难度国际会议的IJCAI2023上被接受。我们还提出了一个使用自监督学习构建退化语音恢复模型的新框架,并在 Interspeech 2022 上进行了口头报告。这是对未来多样化音频资源利用的重要贡献,并荣获日本信息处理学会山下纪念研究奖和谷歌东亚学生旅行补助金。为了评估具有语音合成机制的语音翻译系统,我们对合成语音自动评估系统进行了研究。我们的评估系统UTMOS在国际合成语音质量自动评估竞赛VoiceMOS Challenge 2022中取得了16个评估指标中的10个第一名的优异成绩。该系统对于进行语音生成任务的评估实验非常有用,预计未来将广泛应用于语音翻译、语音合成、语音增强等研究领域。如上所述,我能够取得对特别研究员的研究问题做出贡献的研究成果。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 2022
UTMOS:2022 年 VoiceMOS 挑战赛的 UTokyo-SaruLab 系统
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Takaaki Saeki; Detai Xin; Wataru Nakata; Tomoki Koriyama; Shinnosuke Takamichi;Hiroshi Saruwatari
- 通讯作者:Hiroshi Saruwatari
Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining
学习从文本说话:通过无监督文本预训练进行零样本多语言文本到语音转换
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Takaaki Saeki; Soumi Maiti; Xinjian Li; Shinji Watanabe; Shinnosuke Takamichi; Hiroshi Saruwatari
- 通讯作者:Hiroshi Saruwatari
SelfRemaster: Self-Supervised Speech Restoration with Analysis-by-Synthesis Approach Using Channel Modeling
SelfRemaster:使用通道建模通过综合分析方法进行自监督语音恢复
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Takaaki Saeki; Shinnosuke Takamichi; Tomohiko Nakamura; Naoko Tanji;Hiroshi Saruwatari
- 通讯作者:Hiroshi Saruwatari
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
佐伯 高明其他文献
大規模言語モデルの知識蒸留によるコンテキスト推定モデルを用いた低遅延逐次音声合成
使用基于大规模语言模型知识蒸馏的上下文估计模型的低延迟顺序语音合成
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
佐伯 高明;高道 慎之介;猿渡 洋 - 通讯作者:
猿渡 洋
大規模言語モデルの知識蒸留によるコンテキスト推定モデルを用いた低遅延逐次音声合成
使用基于大规模语言模型知识蒸馏的上下文估计模型的低延迟顺序语音合成
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
佐伯 高明;高道 慎之介;猿渡 洋 - 通讯作者:
猿渡 洋
More differentiated pause insertion for phoneme-based multi-speaker TTS models
基于音素的多说话人 TTS 模型的更差异化的暂停插入
- DOI:
- 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
楊 棟;郡山 知樹;齋藤 佑樹;佐伯 高明;辛 徳泰;猿渡 洋 - 通讯作者:
猿渡 洋
佐伯 高明的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}