多模耦合的开放集视频自动解析方法研究
项目介绍
AI项目解读
基本信息
- 批准号:61772359
- 项目类别:面上项目
- 资助金额:63.0万
- 负责人:
- 依托单位:
- 学科分类:F0210.计算机图像视频处理与多媒体技术
- 结题年份:2021
- 批准年份:2017
- 项目状态:已结题
- 起止时间:2018-01-01 至2021-12-31
- 项目参与者:Mohan Shankara Kankanhalli; 聂为之; Wong Yong Kang; 徐宁; 李文辉; 路遥; 刘瑶瑶; 安阳; 师阳;
- 关键词:
项目摘要
Facing the availability of multi-domain and cross-platform big visual data, the fundamental research problem in visual analysis is how to decipher videos with natural language that aligns with human cognition (i.e., video captioning). The availability of such model can enable several applications, such as video management, information retrieval, automated question & answer, and so on. Currently, scientific research on video captioning is still in its infancy stage. In particularly, it lacks of advanced theoretical studies that systematically correlate computer vision models and natural language processing models to assist computer scientists to overcome the semantic gap in visual understanding. To handle these problems, this proposal focuses on open-domain video captioning by coupling multiple modalities. Based on this scientific problem, our primary objective is to explore the latent correlation between visual and textual data to construct the deep learning model for video captioning. Moreover, the designed video captioning model will be integrated with the transferable semantic model and the sequential attention model. The proposed model has three advantages: 1) the proposed network architecture is independent of video sources and contents; 2) model learning is not constrained by the limited semantic concepts appearing in the training data; 3) the generated video description can highlight the key semantic conepts of the video contents. Building on these techniques, we will develop a video captioning prototype based on multiple video sources and diverse user’ requirements. Furthermore, the prototype can validate the scientificity and feasibility of the proposed methods. The achievements of this proposal will contribute on the technical knowledge to support large-scale industrialization, as well as enhance smart services in the future smart living.
面对多领域和跨平台的视频大数据,如何将其自动解析为符合人类认知的自然语言描述,从而满足视频管理、信息检索和自动问答等需求,已成为当前亟待解决的问题。视频自动解析相关研究尚处于初级阶段,缺乏桥接计算机视觉与自然语言处理的成熟理论来指导人们跨越视觉语义鸿沟。针对现有问题,本课题以多模耦合的开放集视频自动解析理论研究为核心,在明确科学问题基础上,重点探索视觉和文本数据潜在关联,通过深度学习网络构建实现视频自动解析,并通过与可迁移语义模型及时序注意力模型结合,使得所构建视频解析模型不受视频来源和内容的约束,模型学习不受封闭语义集合的约束,所生成视频描述更加突出视频所包含的重要语义。在此基础上,针对多样化的数据来源和用户需求构建完整的视频自动解析系统,多角度验证所提出理论的科学性和可行性,为相关应用大规模产业化提供技术支撑,为面向智慧生活的智能服务提供技术保障。
结项摘要
将视觉大数据自动解析为符合人类认知的自然语言描述,满足信息检索和自动问答等需求,是当前跨媒体计算领域研究热点。本课题突破视觉和语言多模态潜在上下文关联挖掘,探索大规模新语义学习机制,构建面向视觉显著性分析的注意力模型,从而提升视频解析模型生成自然语言描述的内容完整性和语义关联性。创新成果包括:1)针对多模态数据关联挖掘困难,提出基于多层级上下文建模的语义识别法和基于多尺度细粒度对齐的跨模态匹配法,实现多层级语义的级联感知与共享;提出多模异步状态融合的序列生成模型和基于上下文的多步推理语义校正方法,加深模型对复杂上下文关联语义的理解。2)针对大规模新语义迁移学习的困难,提出自适应聚类驱动的多语义识别方法,实现基于聚类驱动的语义识别;提出基于跨模态图结构语义对齐和基于多层级奖惩机制的序列生成模型,提升描述语句的多样化表达能力。3)针对视频序列显著性分析的困难,提出基于图注意力卷积网络和互注意力机制的显著语义感知方法,实现可回溯推理的目标检测和复杂关系识别;提出基于区域协同关联和结构化交互融合的描述生成方法,实现由显著性区域感知引导的描述语句生成。在此基础上,集成多模态上下文关联挖掘、新语义建模、序列显著性分析等创新成果,构建面向社交网络跨媒体信息的互联网舆情分析平台,在相关合作单位开展示范应用。.研究成果:1)发表论文37篇,其中SCI检索25篇,IEEE/ACM汇刊17篇,CCF-A类国际会议论文12篇;受理中国发明专利11项,授权1项;2)奖励:以第一完成人获天津市科技进步特等奖、二等奖各一项;中国多媒体大会最佳论文一篇;3)国际交流:担任Multimedia Systems和Visual Informatics编委,组办2019年欧洲图形学会议的2D图像到3D模型检索比赛,多次担任CCF-A类国际会议ACM MULTIMEDIA的领域主席,9次参加国际会议,并做报告;4)人才培养:本人入选2021年全球顶尖前10万科学家、爱思唯尔高被引学者、天津市131创新人才;晋升副教授2名,培养讲师2名、毕业博士/硕士生3/10名、在读博士/硕士生5/8名。
项目成果
期刊论文数量(24)
专著数量(0)
科研奖励数量(3)
会议论文数量(12)
专利数量(12)
Multi-guiding long short-term memory for video captioning
用于视频字幕的多引导长短期记忆
- DOI:10.1007/s00530-018-0598-5
- 发表时间:2018-11
- 期刊:Multimedia Systems
- 影响因子:3.9
- 作者:Xu Ning;Liu An-An;Nie Weizhi;Su Yuting
- 通讯作者:Su Yuting
Dual-Stream Recurrent Neural Network for Video Captioning
用于视频字幕的双流循环神经网络
- DOI:10.1109/tcsvt.2018.2867286
- 发表时间:2019
- 期刊:IEEE Transactions on Circuits and Systems for Video Technology
- 影响因子:8.4
- 作者:Xu Ning;Liu An An;Wong Yongkang;Zhang Yongdong;Nie Weizhi;Su Yuting;Kankanhalli Mohan
- 通讯作者:Kankanhalli Mohan
Multi-View Saliency Guided Deep Neural Network for 3-D Object Retrieval and Classification
用于 3D 对象检索和分类的多视图显着性引导深度神经网络
- DOI:10.1109/tmm.2019.2943740
- 发表时间:2020
- 期刊:IEEE Transactions on Multimedia
- 影响因子:7.3
- 作者:Zhou He-Yu;Liu An-An;Nie Wei-Zhi;Nie Jie
- 通讯作者:Nie Jie
Joint Intermediate Domain Generation and Distribution Alignment for 2D Image-Based 3D Objects Retrieval
基于 2D 图像的 3D 对象检索的联合中间域生成和分布对齐
- DOI:10.1109/tmm.2020.3008056
- 发表时间:2021
- 期刊:IEEE Transactions on Multimedia
- 影响因子:7.3
- 作者:Su Yu-Ting;Li Yu-Qian;Song Dan;Liu An-An;Nie Jie
- 通讯作者:Nie Jie
Multi-Level Policy and Reward-Based Deep Reinforcement Learning Framework for Image Captioning
用于图像字幕的多级策略和基于奖励的深度强化学习框架
- DOI:10.1109/tmm.2019.2941820
- 发表时间:2020-05
- 期刊:IEEE Transactions on Multimedia
- 影响因子:7.3
- 作者:Xu Ning;Zhang Hanwang;Liu An-An;Nie Weizhi;Su Yuting;Nie Jie;Zhang Yongdong
- 通讯作者:Zhang Yongdong
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
面向海洋的多模态智能计算:挑战、进展和展望
- DOI:--
- 发表时间:2022
- 期刊:中国图象图形学报
- 影响因子:--
- 作者:聂婕;左子杰;黄磊;王志刚;孙正雅;仲国强;王鑫;王玉成;刘安安;张弘;董军宇;魏志强
- 通讯作者:魏志强
具有c轴择优的CuCr_(1-x)MgxO_2多晶的热电输运性质及Mg掺杂效应
- DOI:--
- 发表时间:2019
- 期刊:材料导报
- 影响因子:--
- 作者:崔凯;虞澜;刘安安;秦梦;宋世金;沈艳
- 通讯作者:沈艳
基于深度学习的三维模型检索算法综述
- DOI:10.16337/j.1004-9037.2021.01.001
- 发表时间:2021
- 期刊:数据采集与处理
- 影响因子:--
- 作者:刘安安;李天宝;王晓雯;宋丹
- 通讯作者:宋丹
span style=font-family:Times New Roman;color:black;font-size:10pt;Single/Cross-Camera Multiple-Person Tracking by Graph Matching/span
通过图形匹配进行单/跨摄像机多人跟踪
- DOI:--
- 发表时间:2014
- 期刊:Neurocomputing
- 影响因子:6
- 作者:聂为之;刘安安;苏育挺
- 通讯作者:苏育挺
span style=font-family:Times New Roman;color:black;font-size:10pt;Geo-location Driven Image Tagging via Cross-domain Learning/span
通过跨域学习进行地理位置驱动的图像标记
- DOI:--
- 发表时间:2014
- 期刊:Multimedia Systems
- 影响因子:3.9
- 作者:聂为之;刘安安;苏育挺
- 通讯作者:苏育挺
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
刘安安的其他基金
基于常识推理的视觉-语言相互生成技术
- 批准号:U21B2024
- 批准年份:2021
- 资助金额:252 万元
- 项目类别:联合基金项目
基于深度随机场的跨域细胞行为检测方法研究
- 批准号:61472275
- 批准年份:2014
- 资助金额:83.0 万元
- 项目类别:面上项目
基于判别式随机场的细胞分裂联合识别和定位方法研究
- 批准号:61100124
- 批准年份:2011
- 资助金额:22.0 万元
- 项目类别:青年科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}