基于影像和语音分析的发音器官运动可视化
项目介绍
AI项目解读
基本信息
- 批准号:61273288
- 项目类别:面上项目
- 资助金额:81.0万
- 负责人:
- 依托单位:
- 学科分类:F0304.系统工程理论与技术
- 结题年份:2016
- 批准年份:2012
- 项目状态:已结题
- 起止时间:2013-01-01 至2016-12-31
- 项目参与者:于萍; 温正棋; 刘斌; 刘善峰; 李雅; 李昊; 巢林林; 张大伟; 胡永梅;
- 关键词:
项目摘要
In spite of great progress have been achieved in voice medicine recently, the situation has not changed that the diagnosis for language disorder patients depends on the personal experience of speech pathologists and speech therapists. There are mainly two reasons behind this phenomenon. (1) How speech is produced is not completely clear in physiological mechanism for speech pathologists; (2) Most speech organs are hided deeply in body, which makes them difficult to observe, so that objective voice analysis in dysphonic patients is still a huge challenge for speech pathologists and speech therapists. This study analysis the relationship between organs' movements and voice features firstly and then elaborately construct the 3D model of speech organs from the low-resolution medical video and drive the vocal tract movements based on input voice. Based on the visualization technique for speech organs movements, this study further construct the mapping model between organ movements and pathological voice by analysising and comparing the difference of organ movements and voice between language disorder sufferers and normal persons. And a speech organs' movements and voice feature database will be constructed depending on the mapping model. Finally, supported by cooperative hospital, we will verify the visualization tool and voice analysis model in clinic diagnoses and healing training, and improve the study on vocal visualization and voice disorder analysis. This research could help to improve the standard establishment on objective voice analysis, and contribute to further study on language disorder in physiology.
目前,语言病理学家和言语治疗师们对发音障碍进行诊断和康复评估时,通常依赖个人经验做出判断,其主要原因有两点:一是医学界对人类的发音机理尚不完全清楚;二是多数发音器官隐藏在人体内部,器官运动与语音的关系难以观测,缺乏客观评估依据。本课题以同步分析器官运动和对应语音之间的关系为出发点和目标,建立形状约束的发音器官三维运动离散紧凑表示和三维精细控制模型,研究器官二维残缺影像轮廓的三维形状复原方法,从低质量医学影像中重建发音器官的三维运动,实现发音器官的协同控制和可视化。在此基础上,对比典型患者与正常者语音及器官三维运动的差异,在时序上深入分析发音器官运动缺陷与异常语音的关联,在合作医院的支持下,将可视化工具和病理语音映射模型在临床中验证,提高科研成果的实用性。本课题的开展,除了为语音障碍诊断和康复训练提供客观评估依据外,也为进一步研究发音障碍的生理机理提供直观的可视化分析工具和重要的数据支持。
结项摘要
针对言语障碍诊断和口语训练缺乏有效的客观评估依据的现状,项目旨在建立语音驱动的发音器官运动可视化模型。该研究对于探索人的发音及病理语音形成机理有重要价值,也对于言语发音教学、外语发音培训等具有重要作用。项目在2012年3月申请并获批,执行时间为2013年1月到2016年12月。针对研究目标,项目分为三大研究内容:(1)多模态发音观测数据库建立及发音器官运动轮廓提取;(2)基于语音驱动的发音器官的协同驱动模型及发音器官运动可视化;(3)基于语音的不同发音人轮廓对齐及比较。在第一个研究点上,项目组建立了多模态发音多模态发音器官轮廓运动数据库以及低质量医学影像(包括MRI、超声图像等)中发音器官自动定位、轮廓跟踪方法,用于fMRI或者超声影像中的医学图像目标轮廓提取,是观测和分析人体发音是否正常的有力工具,对于探索人类发音机理具有重要价值;在第二个研究点上,项目组建立了基于GMM和DNN的声学参数与发音器官轮廓运动参数映射模型,实现了输入任意文本舌位和唇部轮廓的动画驱动展示,这对于言语发音、口语发音训练具有重要作用;在第三个研究点上,项目组建立了不同发音人的舌位运动轮廓对齐方法,实现不同发音人在发音过程中向标准轮廓对齐,能有效降低发音过程中不同发音人的生理差异,这对于评估发音、言语障碍诊断具有重要价值;最后,项目组构建了基于语音驱动的发音器官统计映射实时驱动模型,输入任何一段文本或者语音,实时生成语音声道同步运动过程。相关工作在ICASSP、InterSpeech、MTAP、JCAD等国内外重要期刊和会议上共发表论文10余篇,在2013年全国人机语音学学术会议上“多模态发音观测与分析” 分会上以及在2015年全国人机语音学学术会议上“语音产生与分析”分会上做了特邀报告,提交国家发明专利3项,获得批复1项。项目构建的语音驱动的发音器官可视化模型以“语音驱动唇动引擎”方式技术转化给了腾讯等企业。
项目成果
期刊论文数量(4)
专著数量(0)
科研奖励数量(5)
会议论文数量(13)
专利数量(0)
Fast unsupervised texture segmentation using Texel similarity map
使用 Texel 相似度图进行快速无监督纹理分割
- DOI:--
- 发表时间:2015
- 期刊:Journal of Modern Optics
- 影响因子:1.3
- 作者:Shi; Lihui;Ma; Chuanyan;Tao; Jianhua;Chen; Shengyong
- 通讯作者:Shengyong
面向X光发音视频的舌位轮廓自动提取方法
- DOI:--
- 发表时间:2014
- 期刊:计算机辅助设计与图形学学报
- 影响因子:--
- 作者:张大伟;杨明浩;陶建华
- 通讯作者:陶建华
User behavior fusion in dialog management withmulti-modal history cues
对话管理中的用户行为与多模式历史线索融合
- DOI:--
- 发表时间:2015
- 期刊:Multimedia Tools and Applications
- 影响因子:3.6
- 作者:Dawei Zhang;Hao Che;Tingli Gao;Bin Liu
- 通讯作者:Bin Liu
Emotional head motion predicting from prosodic and linguistic features
根据韵律和语言特征预测情绪头部运动
- DOI:--
- 发表时间:2016
- 期刊:Multimedia Tools and Applications
- 影响因子:3.6
- 作者:Jiang; Jinlin;Tao; Jianhua;Mu; Kaihui;Li; Hao
- 通讯作者:Hao
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
Stochastic Signal Induced Multiple Spatial Coherence Resonances and Spiral Waves in Excitable Media
可兴奋介质中随机信号引起的多重空间相干共振和螺旋波
- DOI:--
- 发表时间:2024-09-14
- 期刊:
- 影响因子:--
- 作者:李玉叶;张慧敏;魏春玲;杨明浩;古华光;任维
- 通讯作者:任维
鞍-结分岔点附近的神经自发放电节律和随机自共振
- DOI:--
- 发表时间:--
- 期刊:动力学与控制学报
- 影响因子:--
- 作者:任维;张慧敏;古华光;杨明浩;化存才
- 通讯作者:化存才
A Simulation Study of Global Evapotranspiration Components Using the Community Land Model
利用社区土地模型对全球蒸散分量进行模拟研究
- DOI:10.3390/atmos9050178
- 发表时间:2018
- 期刊:Atmosphere
- 影响因子:2.9
- 作者:杨明浩;左瑞亭;王丽琼;陈雄
- 通讯作者:陈雄
基于可嵌入式网络结构的图像超分辨率重建方法
- DOI:10.19678/j.issn.1000-3428.0056980
- 发表时间:2020
- 期刊:计算机工程
- 影响因子:--
- 作者:强保华;庞远超;杨明浩;曾坤;郑虹;谢武;莫烨
- 通讯作者:莫烨
保持自然特征的烟雾快速生成系统
- DOI:--
- 发表时间:--
- 期刊:系统仿真学报,Vol. 19, No. 19,pp. 4460-4468,2007
- 影响因子:--
- 作者:湛永松*;杨明浩;石民勇;费广
- 通讯作者:费广
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
杨明浩的其他基金
对话交互的动态场景内容认知及规划理论和方法研究
- 批准号:61873269
- 批准年份:2018
- 资助金额:65.0 万元
- 项目类别:面上项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}