基于关注发现、标题提取、以及语义索引的查询感知视频诠释模型

结题报告
项目介绍
AI项目解读

基本信息

  • 批准号:
    61872256
  • 项目类别:
    面上项目
  • 资助金额:
    63.0万
  • 负责人:
  • 依托单位:
  • 学科分类:
    F0210.计算机图像视频处理与多媒体技术
  • 结题年份:
    2022
  • 批准年份:
    2018
  • 项目状态:
    已结题
  • 起止时间:
    2019-01-01 至2022-12-31

项目摘要

The ambition of this project, based upon PIs’ extensive experience in concept-based video indexing and cross-modal 0-example search, is to fill in the knowledge gap between current state-of-arts in video recounting and captioning, while applying for web video surveillance. Example of search scenario is finding videos of “A man shouting while holding a flag”, where the expected results include recounting a candidate video with: who (person name), what (audio-visual objects like shouting and flag), where and when (the location and time of event), in natural language (English and Chinese) sentences. The associated challenges are three aspects: Attention – how to dynamically select query-relevant fragments from a long video for recounting; Captioning – how to generate sentences that explain queries and contrast the visual content among the retrieved video candidates by filling in sentences with name entities; Indexing – what are the processing required for enabling real-time interactive large-scale video search. The academic value of this proposal lies in bridging the knowledge gap on empowering video recounting capability with query-aware captioning, which is a new topic not previously addressed in the literature. The proposal also has significant translational value in speeding up time required for filtering false alarms in forensic and web monitoring applications, by generating textual snippets for recounting video relevancy and diversity. In this proposal, a system prototype will be built to demonstrate the proposed works for web surveillance of online videos.
本项目将构建一个新的查询感知(Query-Aware)视频诠释模型。该模型能对用户查询的具体语义需求进行分析、提取、和展示,有针对性地生成包含4W细节信息的多语言(中文和英文)视文片段,并有效地增加视频结果展示的相关性(Relevancy)和差异性(Diversity)。利用研究团队在视频检索、语义索引、标题提取、视频摘要、交互式检索等领域长期的研究积累,项目最终将生成一个实时的、可运行的视频检索原型系统。其科学价值在于将填补传统视频内容分析与视频诠释之间的空白,使相关研究形成一个包含语义索引-视频查询-结果展示-用户交互的完整闭环。其应用价值在于本项目的成果将有效减少视频检索及网络视频监控系统中的虚警率,提高检索和过滤的效率。

结项摘要

本项目构建了一个具有查询感知力的(Query-Aware)多模态数据诠释框架。该框架主要从注意力和可解释性两方面着手。针对传统的通过优化损失为导向的、直接对权重进行学习的注意力机制,我们构建了通过查询对象来设计注意力分布函数然后让损失优化学习注意力函数的相关参数的方法。这种方法将专家对于查询的知识转化成形式化的函数表达来达到知识注入的目的,同时也避免了直接学习注意力权重的随机性。针对传统方法中使用结果注意力在目标对象上的关注情况来进行解释的定性方式,我们提出将注意力转化为决策树(森林)的知识转化方法,能够产生人类专家可以直接解读的逻辑结构。两种机制的叠加使得框架的性能和实用性都得到了显著的提升。

项目成果

期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(4)
专利数量(21)
DRAKE: Deep Pair-Wise Relation Alignment for Knowledge-Enhanced Multimodal Scene Graph Generation in Social Media Posts
DRAKE:社交媒体帖子中知识增强的多模态场景图生成的深度配对关系对齐
  • DOI:
    10.1109/tcsvt.2022.3231437
  • 发表时间:
    2023-07
  • 期刊:
    IEEE Transactions on Circuits and Systems for Video Technology
  • 影响因子:
    8.4
  • 作者:
    Ze Fu;Changmeng Zheng;Junhao Feng;Yi Cai;Xiao-Yong Wei;Yaowei Wang;Qing Li
  • 通讯作者:
    Qing Li
Large-scale Multi-modal Pre-trained Models: A Comprehensive Survey
大规模多模态预训练模型:综合调查
  • DOI:
    10.1007/s11633-022-1410-8
  • 发表时间:
    2023-06-06
  • 期刊:
    MACHINE INTELLIGENCE RESEARCH
  • 影响因子:
    --
  • 作者:
    Wang, Xiao;Chen, Guangyao;Gao, Wen
  • 通讯作者:
    Gao, Wen
Deep learning-based person re-identification methods: A survey and outlook of recent works
基于深度学习的行人重识别方法:近期工作综述与展望
  • DOI:
    10.1016/j.imavis.2022.104394
  • 发表时间:
    2022-02-03
  • 期刊:
    IMAGE AND VISION COMPUTING
  • 影响因子:
    4.7
  • 作者:
    Ming, Zhangqiang;Zhu, Min;Wei, Xiaoyong
  • 通讯作者:
    Wei, Xiaoyong
Deep Collocative Learning for Immunofixation Electrophoresis Image Analysis
用于免疫固定电泳图像分析的深度协同学习
  • DOI:
    10.1109/tmi.2021.3068404
  • 发表时间:
    2021
  • 期刊:
    IEEE Transactions on Medical Imaging
  • 影响因子:
    10.6
  • 作者:
    Wei Xiao-Yong;Yang Zhen-Qun;Zhang Xu-Lu;Liao Ga;Sheng Ai-Lin;Zhou S. Kevin;Wu Yongkang;Du Liang
  • 通讯作者:
    Du Liang
Region Attentive Action Unit Intensity Estimation with Uncertainty Weighted Multi-task Learning
不确定性加权多任务学习的区域注意力动作单元强度估计
  • DOI:
    10.1109/taffc.2021.3139101
  • 发表时间:
    2021
  • 期刊:
    IEEE Transactions on Affective Computing
  • 影响因子:
    11.2
  • 作者:
    Haifeng Chen;Dongmei Jiang;Yong Zhao;Xiaoyong Wei;Ke Lu;Hichem Sahli
  • 通讯作者:
    Hichem Sahli

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--"}}
  • 发表时间:
    {{ item.publish_year || "--" }}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--"}}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.authors }}

数据更新时间:{{ patent.updateTime }}

其他文献

基于掌纹的身份鉴别综述
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    云南大学学报(自然科学版)
  • 影响因子:
    --
  • 作者:
    袁国武;魏骁勇;徐丹
  • 通讯作者:
    徐丹
基于掌纹的身份鉴别
  • DOI:
    --
  • 发表时间:
    --
  • 期刊:
    计算机辅助设计与图形学学报
  • 影响因子:
    --
  • 作者:
    袁国武;魏骁勇;徐丹
  • 通讯作者:
    徐丹

其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi || "--" }}
  • 发表时间:
    {{ item.publish_year || "--"}}
  • 期刊:
    {{ item.journal_name }}
  • 影响因子:
    {{ item.factor || "--" }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}
empty
内容获取失败,请点击重试
重试联系客服
title开始分析
查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:

AI项目思路

AI技术路线图

魏骁勇的其他基金

用于交互式视频检索的教练式主动学习模型
  • 批准号:
    61272256
  • 批准年份:
    2012
  • 资助金额:
    82.0 万元
  • 项目类别:
    面上项目
由概念驱动的多模态多媒体信息融合技术
  • 批准号:
    61001148
  • 批准年份:
    2010
  • 资助金额:
    25.0 万元
  • 项目类别:
    青年科学基金项目

相似国自然基金

{{ item.name }}
  • 批准号:
    {{ item.ratify_no }}
  • 批准年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}

相似海外基金

{{ item.name }}
{{ item.translate_name }}
  • 批准号:
    {{ item.ratify_no }}
  • 财政年份:
    {{ item.approval_year }}
  • 资助金额:
    {{ item.support_num }}
  • 项目类别:
    {{ item.project_type }}
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了

AI项目解读示例

课题项目:调控A型流感病毒诱导IFN-β表达的机制研究

AI项目摘要:

本研究聚焦于TRIM2蛋白在A型流感病毒诱导的IFN-β表达中的调控机制。A型流感病毒是全球性健康问题,其感染可导致严重的呼吸道疾病。IFN-β作为关键的抗病毒因子,其表达水平对抗病毒防御至关重要。然而,TRIM2如何调控IFN-β的表达尚未明确。本研究假设TRIM2通过与病毒RNA或宿主因子相互作用,影响IFN-β的产生。我们将采用分子生物学、细胞生物学和免疫学方法,探索TRIM2与A型流感病毒诱导IFN-β表达的关系。预期结果将揭示TRIM2在抗病毒免疫反应中的作用,为开发新的抗病毒策略提供理论基础。该研究对理解宿主抗病毒机制具有重要科学意义,并可能对临床治疗流感病毒感染提供新的视角。

AI项目思路:

科学问题:TRIM2如何调控A型流感病毒诱导的IFN-β表达?
前期研究:已有研究表明TRIM2参与抗病毒反应,但其具体机制尚不明确。
研究创新点:本研究将深入探讨TRIM2在IFN-β表达中的直接作用机制。
技术路线:包括病毒学、分子生物学、细胞培养和免疫检测技术。
关键技术:TRIM2与病毒RNA的相互作用分析,IFN-β启动子活性检测。
实验模型:使用A型流感病毒感染的细胞模型进行研究。

AI技术路线图

        graph TD
          A[研究起始] --> B[文献回顾与假设提出]
          B --> C[实验设计与方法学准备]
          C --> D[A型流感病毒感染模型建立]
          D --> E[TRIM2与病毒RNA相互作用分析]
          E --> F[TRIM2对IFN-β启动子活性的影响]
          F --> G[IFN-β表达水平测定]
          G --> H[TRIM2功能丧失与获得研究]
          H --> I[数据收集与分析]
          I --> J[结果解释与科学验证]
          J --> K[研究结论与未来方向]
          K --> L[研究结束]
      
关闭
close
客服二维码