面向大词汇量连续语音的自动化唇读技术研究
项目介绍
AI项目解读
基本信息
- 批准号:61771310
- 项目类别:面上项目
- 资助金额:60.0万
- 负责人:
- 依托单位:
- 学科分类:F0116.图像信息处理
- 结题年份:2021
- 批准年份:2017
- 项目状态:已结题
- 起止时间:2018-01-01 至2021-12-31
- 项目参与者:Alan Wee-Chung Liew; 郭浩楠; 陈朔; 王西子; 顾雨舟; 胡尊丽; 程峰; 黄潇洒; 廖建国;
- 关键词:
项目摘要
It is well-known that during pronunciation, there is intrinsic relationship between the audio and visual information of the speaker. By observing and analyzing the lip movements during utterance can help infer and recognize the speaking content. The above content-related lip movements are referred to as lip features and speech recognition based on lip features is called lip-reading. In this project, the relationship between the lip features and the speech content will be studied comprehensively and a series of large-vocabulary, continuous visual speech recognition approaches will be proposed. The major research focuses of the project lie in: i) Accurate and robust lip region segmentation, modeling, and lip feature extraction techniques; ii) Content-related discriminative ability analysis on the lip features; iii) Large vocabulary, continuous visual speech recognition schemes for speaker-independent and multi-speaker scenarios. This project will help disclose the underlying mechanism of speech recognition by lipreading. Furthermore, it will also provide new ideas and feasible solutions for those challenging problems in visual speech recognition. Finally, the expected research results can have broad applications in speech recognition systems in noisy environments, human-computer interaction systems, public security systems, hearing impaired aid systems, etc.
众所周知,人类讲话时的声/视觉信息之间存在密不可分的内在联系,通过观察和分析讲话人讲话时的嘴唇运动变化可以帮助推断和识别讲话内容。上述与讲述内容密切相关的嘴唇运动变化被称为唇语特征,而依靠唇语特征进行讲话内容识别的过程被称为唇读。本项目旨在深入研究唇语特征与讲述内容之间的内在联系,并以此为基础设计面向大词汇量、连续语音的自动化唇读方法。重点研究内容包括:1)准确、鲁棒、高效的嘴唇区域建模和唇语特征提取技术;2)唇语特征语义相关性和鉴别力分析;3)针对讲话人无关和多讲话人场景,设计符合唇语特征特点的大词汇量、连续语音自动化唇读机制。通过本项目的研究,对揭示依据唇语特征进行讲话内容识别的内在机理有重要的理论意义。同时,为解决视觉语音识别领域的若干难点问题提供了新的思路和方法。最后,预期成果可望在重噪声环境下语音识别、人机交互、公共安全、辅助听觉功能障碍者等领域有广阔的应用前景。
结项摘要
McGurk效应揭示了人类对于语言的认知和理解本身是一种双模式的过程,说话人讲述过程中声/视觉信息之间存在着密不可分的内在联系。讲话过程中的嘴唇运动变化通常被称为唇语特征,而通过观察和“阅读”讲话人的唇语特征来识别讲话内容的方法被称为唇读。本项目围绕大词汇量、连续语音场景下的自动化唇读任务,开展了系统、深入的研究,提出了一系列解决方案,对推动该领域的发展提供了新的思路和方法。项目组在嘴唇区域分割,具有语义特征的唇语特征提取和分析,符合中、英文特点的自动化唇读机制设计等方面取得了一系列的成果。具有代表性的有:1)在嘴唇区域分割方面,项目组将嘴唇分割问题定义为一种嘴唇/背景像素点的二分类问题,并结合模糊理论,创新性的提出一种基于模糊神经网络的嘴唇分割方法,能够有效的应对由不同讲话人、背景、乃至标注噪声所带来的不确定性,特别在提取嘴唇内轮廓方面相比现有方法具备较明显优势;2)在唇语特征分析和具有语义特征的唇语特征提取方面,项目组通过讲话人混淆等技术排除唇语特征之中的讲话风格信息,提取与语义密切相关的唇语特征表达,进而提升在讲话人无关场景下自动化唇读的识别准确率;3)在自动化唇读机制设计方面,项目组根据嘴唇运动的特点,在Transformer框架的基础上,提出了时空信息融合模块,能够有效提取具备语义鉴别力的嘴唇运动时空域特征,进而在大词汇量、连续语音的英文唇读任务中取得优秀的结果。与此同时,根据中文的语言特点:单字数量远多于英文字母、汉语是表意文字而英语是表音文字等,项目组设计并提出了一种基于级联Transformer架构的中文唇读网络,并分别以拼音和视位作为中间结果来缓解直接从嘴唇图像序列到中文单字之间的映射过于复杂的问题,有效提升中文唇读的效果。上述研究成果表明,通过本项目的研究,为基于唇语特征的视觉语音识别领域的发展奠定了良好的基础,也为今后相关研究指明了方向。
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(17)
专利数量(1)
Visual speaker authentication with random prompt texts by a dual-task CNN framework
双任务 CNN 框架使用随机提示文本进行视觉说话人身份验证
- DOI:10.1016/j.patcog.2018.06.005
- 发表时间:2018-11
- 期刊:Pattern Recognition
- 影响因子:8
- 作者:Cheng Feng;Wang Shi-Lin;Liew Alan Wee-Chung
- 通讯作者:Liew Alan Wee-Chung
Toward adaptive BDCT feature representation based image splicing measurement in smart cities
智慧城市中基于自适应BDCT特征表示的图像拼接测量
- DOI:10.1016/j.measurement.2019.02.086
- 发表时间:2019-06
- 期刊:Measurement
- 影响因子:5.6
- 作者:Lin Xiang;Wang Shi Lin;Huang Wei Jun;Liew Alan Wee Chung;Huang Xiao Sa;Wu Jun
- 通讯作者:Wu Jun
Recent Advances in Passive Digital Image Security Forensics: A Brief Review
被动数字图像安全取证的最新进展:简要回顾
- DOI:10.1016/j.eng.2018.02.008
- 发表时间:2018-02-01
- 期刊:ENGINEERING
- 影响因子:12.8
- 作者:Lin, Xiang;Li, Jian-Hua;Huang, Xiao-Sa
- 通讯作者:Huang, Xiao-Sa
A global and local context integration DCNN for adult image classification
用于成人图像分类的全局和局部上下文集成 DCNN
- DOI:10.1016/j.patcog.2019.106983
- 发表时间:2019-12-01
- 期刊:PATTERN RECOGNITION
- 影响因子:8
- 作者:Cheng, Feng;Wang, Shi-Lin;Liu, Gong-Shen
- 通讯作者:Liu, Gong-Shen
Lip Image Segmentation Based on a Fuzzy Convolutional Neural Network
基于模糊卷积神经网络的唇部图像分割
- DOI:10.1109/tfuzz.2019.2957708
- 发表时间:2020-07-01
- 期刊:IEEE TRANSACTIONS ON FUZZY SYSTEMS
- 影响因子:11.9
- 作者:Guan, Cheng;Wang, Shilin;Liew, Alan Wee-Chung
- 通讯作者:Liew, Alan Wee-Chung
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
基于H.264/AVC的VLC域的视频水印内容认证计划
- DOI:--
- 发表时间:--
- 期刊:China Communications
- 影响因子:4.1
- 作者:林志高;孙锬锋;王士林;蒋兴浩
- 通讯作者:蒋兴浩
An Information-Based Color Feature Representation and Its Application in Detecting Adult Images
基于信息的颜色特征表示及其在成人图像检测中的应用
- DOI:--
- 发表时间:--
- 期刊:Journal of Shanghai Jiaotong University (Science)
- 影响因子:--
- 作者:王士林
- 通讯作者:王士林
基于三阶统计特征的被动图像拼接检测
- DOI:--
- 发表时间:2012
- 期刊:计算机应用研究
- 影响因子:--
- 作者:赵旭东;袁野;李生红;王士林;李建华
- 通讯作者:李建华
电动背负式风送喷雾器设计与作业性能试验
- DOI:--
- 发表时间:2016
- 期刊:农业工程学报
- 影响因子:--
- 作者:王士林;宋坚利;何雄奎
- 通讯作者:何雄奎
Visual speaker identification and authentication by joint spatiotemporal sparse coding and hierarchical pooling
通过联合时空稀疏编码和分层池化进行视觉说话人识别和认证
- DOI:10.1016/j.ins.2016.09.015
- 发表时间:2016-12
- 期刊:Information Sciences
- 影响因子:8.1
- 作者:赖俊尧;王士林;Alan Wee-Chung Liew;施行健
- 通讯作者:施行健
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
王士林的其他基金
抵御深度伪造攻击的唇语特征活体检测与身份认证技术研究
- 批准号:
- 批准年份:2022
- 资助金额:56 万元
- 项目类别:面上项目
抵御深度伪造攻击的唇语特征活体检测与身份认证技术研究
- 批准号:62271307
- 批准年份:2022
- 资助金额:56.00 万元
- 项目类别:面上项目
唇语特征在身份认证中若干关键技术研究
- 批准号:61271319
- 批准年份:2012
- 资助金额:70.0 万元
- 项目类别:面上项目
基于动态嘴唇特征分析的讲话人身份认证技术研究
- 批准号:60702043
- 批准年份:2007
- 资助金额:16.0 万元
- 项目类别:青年科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}