基于关注发现、标题提取、以及语义索引的查询感知视频诠释模型
项目介绍
AI项目解读
基本信息
- 批准号:61872256
- 项目类别:面上项目
- 资助金额:63.0万
- 负责人:
- 依托单位:
- 学科分类:F0210.计算机图像视频处理与多媒体技术
- 结题年份:2022
- 批准年份:2018
- 项目状态:已结题
- 起止时间:2019-01-01 至2022-12-31
- 项目参与者:郭际香; 李雪冬; 胡鹏; 刘培; 张璐; 王泽荣;
- 关键词:
项目摘要
The ambition of this project, based upon PIs’ extensive experience in concept-based video indexing and cross-modal 0-example search, is to fill in the knowledge gap between current state-of-arts in video recounting and captioning, while applying for web video surveillance. Example of search scenario is finding videos of “A man shouting while holding a flag”, where the expected results include recounting a candidate video with: who (person name), what (audio-visual objects like shouting and flag), where and when (the location and time of event), in natural language (English and Chinese) sentences. The associated challenges are three aspects: Attention – how to dynamically select query-relevant fragments from a long video for recounting; Captioning – how to generate sentences that explain queries and contrast the visual content among the retrieved video candidates by filling in sentences with name entities; Indexing – what are the processing required for enabling real-time interactive large-scale video search. The academic value of this proposal lies in bridging the knowledge gap on empowering video recounting capability with query-aware captioning, which is a new topic not previously addressed in the literature. The proposal also has significant translational value in speeding up time required for filtering false alarms in forensic and web monitoring applications, by generating textual snippets for recounting video relevancy and diversity. In this proposal, a system prototype will be built to demonstrate the proposed works for web surveillance of online videos.
本项目将构建一个新的查询感知(Query-Aware)视频诠释模型。该模型能对用户查询的具体语义需求进行分析、提取、和展示,有针对性地生成包含4W细节信息的多语言(中文和英文)视文片段,并有效地增加视频结果展示的相关性(Relevancy)和差异性(Diversity)。利用研究团队在视频检索、语义索引、标题提取、视频摘要、交互式检索等领域长期的研究积累,项目最终将生成一个实时的、可运行的视频检索原型系统。其科学价值在于将填补传统视频内容分析与视频诠释之间的空白,使相关研究形成一个包含语义索引-视频查询-结果展示-用户交互的完整闭环。其应用价值在于本项目的成果将有效减少视频检索及网络视频监控系统中的虚警率,提高检索和过滤的效率。
结项摘要
本项目构建了一个具有查询感知力的(Query-Aware)多模态数据诠释框架。该框架主要从注意力和可解释性两方面着手。针对传统的通过优化损失为导向的、直接对权重进行学习的注意力机制,我们构建了通过查询对象来设计注意力分布函数然后让损失优化学习注意力函数的相关参数的方法。这种方法将专家对于查询的知识转化成形式化的函数表达来达到知识注入的目的,同时也避免了直接学习注意力权重的随机性。针对传统方法中使用结果注意力在目标对象上的关注情况来进行解释的定性方式,我们提出将注意力转化为决策树(森林)的知识转化方法,能够产生人类专家可以直接解读的逻辑结构。两种机制的叠加使得框架的性能和实用性都得到了显著的提升。
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(4)
专利数量(21)
DRAKE: Deep Pair-Wise Relation Alignment for Knowledge-Enhanced Multimodal Scene Graph Generation in Social Media Posts
DRAKE:社交媒体帖子中知识增强的多模态场景图生成的深度配对关系对齐
- DOI:10.1109/tcsvt.2022.3231437
- 发表时间:2023-07
- 期刊:IEEE Transactions on Circuits and Systems for Video Technology
- 影响因子:8.4
- 作者:Ze Fu;Changmeng Zheng;Junhao Feng;Yi Cai;Xiao-Yong Wei;Yaowei Wang;Qing Li
- 通讯作者:Qing Li
Large-scale Multi-modal Pre-trained Models: A Comprehensive Survey
大规模多模态预训练模型:综合调查
- DOI:10.1007/s11633-022-1410-8
- 发表时间:2023-06-06
- 期刊:MACHINE INTELLIGENCE RESEARCH
- 影响因子:--
- 作者:Wang, Xiao;Chen, Guangyao;Gao, Wen
- 通讯作者:Gao, Wen
Deep learning-based person re-identification methods: A survey and outlook of recent works
基于深度学习的行人重识别方法:近期工作综述与展望
- DOI:10.1016/j.imavis.2022.104394
- 发表时间:2022-02-03
- 期刊:IMAGE AND VISION COMPUTING
- 影响因子:4.7
- 作者:Ming, Zhangqiang;Zhu, Min;Wei, Xiaoyong
- 通讯作者:Wei, Xiaoyong
Deep Collocative Learning for Immunofixation Electrophoresis Image Analysis
用于免疫固定电泳图像分析的深度协同学习
- DOI:10.1109/tmi.2021.3068404
- 发表时间:2021
- 期刊:IEEE Transactions on Medical Imaging
- 影响因子:10.6
- 作者:Wei Xiao-Yong;Yang Zhen-Qun;Zhang Xu-Lu;Liao Ga;Sheng Ai-Lin;Zhou S. Kevin;Wu Yongkang;Du Liang
- 通讯作者:Du Liang
Region Attentive Action Unit Intensity Estimation with Uncertainty Weighted Multi-task Learning
不确定性加权多任务学习的区域注意力动作单元强度估计
- DOI:10.1109/taffc.2021.3139101
- 发表时间:2021
- 期刊:IEEE Transactions on Affective Computing
- 影响因子:11.2
- 作者:Haifeng Chen;Dongmei Jiang;Yong Zhao;Xiaoyong Wei;Ke Lu;Hichem Sahli
- 通讯作者:Hichem Sahli
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
基于掌纹的身份鉴别综述
- DOI:--
- 发表时间:--
- 期刊:云南大学学报(自然科学版)
- 影响因子:--
- 作者:袁国武;魏骁勇;徐丹
- 通讯作者:徐丹
基于掌纹的身份鉴别
- DOI:--
- 发表时间:--
- 期刊:计算机辅助设计与图形学学报
- 影响因子:--
- 作者:袁国武;魏骁勇;徐丹
- 通讯作者:徐丹
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
内容获取失败,请点击重试
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图
请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
魏骁勇的其他基金
用于交互式视频检索的教练式主动学习模型
- 批准号:61272256
- 批准年份:2012
- 资助金额:82.0 万元
- 项目类别:面上项目
由概念驱动的多模态多媒体信息融合技术
- 批准号:61001148
- 批准年份:2010
- 资助金额:25.0 万元
- 项目类别:青年科学基金项目
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}