RI: Small: Learning Dynamics and Evolution towards Cognitive Understanding of Videos

RI:小:视频认知理解的学习动态和演化

基本信息

  • 批准号:
    1813709
  • 负责人:
  • 金额:
    $ 45万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-09-01 至 2021-08-31
  • 项目状态:
    已结题

项目摘要

A fundamental capability of human intelligence is being able to learn to act by watching instructional videos. Such capability is reflected in abstraction and summarization of the instructional procedures as well as in answering questions such as "why" and "how" something happened in the video. This project aims to build computational models that are able to perform well in above tasks, which require, beyond the conventional recognition of objects, actions and attributes in the scene, the higher-order inference of any relations therein. Here, the higher-order inference refers to inference that cannot be answered immediately by direct observations and thus requires stronger semantics. The developed technology will enable many applications in other fields, e.g., multimedia (video indexing and retrieval), robotics (reasoning capability of why and how questions), and healthcare (assistive devices for visually impaired people). In addition, the project will contribute to education and diversity by involving underrepresented groups in research activities, integrating research results into teaching curriculum, and conducting outreach activities to local K-12 communities. The research will develop a framework to perform higher-order inference in understanding web instructional videos, such that models devised in this framework are capable of not only discovering and captioning procedures that constitute the instructional event but also answering questions such as why and how something happened. The framework is built on a video story graph that models the dynamics (the composition of actions at different scales) and evolution (the change in object states and attributes), and it supports higher-order inference upon deep learning units and incorporation of external knowledge graph in a unified framework. Methodologies to extract such video story graphs and use them to discover, caption procedures and perform question-answering will be explored. Expected outcomes of this project include: a software package for constructing and performing inference on video story graphs and incorporating external knowledge; a web-deployed system to process user-uploaded instructional videos; and a large video dataset with procedure and question-answering annotations.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
人类智能的基本能力是能够通过观看教学视频来学习行动。这种能力反映在教学过程的抽象和汇总以及回答诸如视频中发生的“为什么”和“如何”之类的问题中。该项目旨在构建能够在上述任务中表现良好的计算模型,除了对场景中对象,动作和属性的常规识别之外,还需要其在其中任何关系中的高阶推断。在这里,高阶推断是指无法通过直接观察立即回答的推论,因此需要更强的语义。开发的技术将在其他领域中启用许多应用程序,例如多媒体(视频索引和检索),机器人技术(原因和方式的推理能力)和医疗保健(视觉受损的人的辅助设备)。此外,该项目将通过参与研究活动的代表性不足的群体,将研究成果纳入教学课程以及向当地K-12社区进行外展活动,从而为教育和多样性做出贡献。这项研究将开发一个框架以在理解Web教学视频中执行高阶推断,以便在此框架中设计的模型不仅能够发现构成教学事件的过程和字幕程序,还可以回答诸如为什么以及如何发生的问题。该框架建立在视频故事图上,该图形图表图(不同尺度上的动作组成)和进化(对象状态和属性的变化),并支持对深度学习单元的高阶推断,并在统一的框架中纳入了外部知识图。将探索方法来提取此类视频故事图并使用它们来发现,标题程序和执行问答的方法。该项目的预期结果包括:用于在视频故事图上构建和执行推断并结合外部知识的软件包;网络部署的系统,用于处理用户删除的教学视频;以及带有程序和提问注释的大型视频数据集。该奖项反映了NSF的法定任务,并且使用基金会的知识分子优点和更广泛的审查标准,被认为值得通过评估来获得支持。

项目成果

期刊论文数量(45)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Attentive Relational Networks for Mapping Images to Scene Graphs
Learning by Planning: Language-Guided Global Image Editing
Video Re-localization via Cross Gated Bilinear Matching
通过交叉门双线性匹配进行视频重新定位
Audio-Visual Event Localization in the Wild
野外视听事件定位
Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video Parsing
  • DOI:
    10.1007/978-3-030-58580-8_26
  • 发表时间:
    2020-07
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yapeng Tian;Dingzeyu Li;Chenliang Xu
  • 通讯作者:
    Yapeng Tian;Dingzeyu Li;Chenliang Xu
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Chenliang Xu其他文献

Scale-Adaptive Video Understanding
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Chenliang Xu
  • 通讯作者:
    Chenliang Xu
Deep Audio Prior
深度音频优先
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yapeng Tian;Chenliang Xu;Dingzeyu Li
  • 通讯作者:
    Dingzeyu Li
Audio-Visual Action Prediction with Soft-Boundary in Egocentric Videos
自我中心视频中具有软边界的视听动作预测
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Luchuan Song;Jing Bi;Chao Huang;Chenliang Xu
  • 通讯作者:
    Chenliang Xu
Audio-Visual Object Localization in Egocentric Videos
以自我为中心的视频中的视听对象定位
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Chao Huang;Yapeng Tian;Anurag Kumar;Chenliang Xu
  • 通讯作者:
    Chenliang Xu
A Study of Actor and Action Semantic retention in Video Supervoxel Segmentation
视频超体素分割中演员和动作语义保留的研究
  • DOI:
    10.1142/s1793351x13400114
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Chenliang Xu;Richard F. Doell;S. Hanson;C. Hanson;Jason J. Corso
  • 通讯作者:
    Jason J. Corso

Chenliang Xu的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Chenliang Xu', 18)}}的其他基金

III: Small: Collaborative Research: Scalable Deep Bayesian Tensor Decomposition
III:小:协作研究:可扩展的深贝叶斯张量分解
  • 批准号:
    1909912
  • 财政年份:
    2019
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
BIGDATA: F: Audio-Visual Scene Understanding
BIGDATA:F:视听场景理解
  • 批准号:
    1741472
  • 财政年份:
    2017
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant

相似国自然基金

基于深度学习的小样本侧扫声纳小目标探测
  • 批准号:
    42374050
  • 批准年份:
    2023
  • 资助金额:
    53 万元
  • 项目类别:
    面上项目
基于图表示深度学习的全新小分子先导化合物筛选方法研究
  • 批准号:
    62372375
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
不平衡数据下基于多源域迁移学习的小微企业信用风险评估研究
  • 批准号:
    72301093
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目
基于多时序多模态分子影像Delta深度融合学习预测非小细胞肺癌免疫治疗疗效的研究
  • 批准号:
    82371994
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于无监督深度学习的复材小尺寸缺陷热成像表征方法研究
  • 批准号:
    62301507
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

AF:RI:Small: Fairness in allocation and machine learning problems: algorithms and solution concepts
AF:RI:Small:分配公平性和机器学习问题:算法和解决方案概念
  • 批准号:
    2334461
  • 财政年份:
    2024
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Small: Foundations of Few-Round Active Learning
协作研究:RI:小型:少轮主动学习的基础
  • 批准号:
    2313131
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Small: Deep Constrained Learning for Power Systems
合作研究:RI:小型:电力系统的深度约束学习
  • 批准号:
    2345528
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Small: End-to-end Learning of Fair and Explainable Schedules for Court Systems
合作研究:RI:小型:法院系统公平且可解释的时间表的端到端学习
  • 批准号:
    2232055
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
CISE-ANR: RI: Small: Numerically efficient reinforcement learning for constrained systems with super-linear convergence (NERL)
CISE-ANR:RI:小:具有超线性收敛 (NERL) 的约束系统的数值高效强化学习
  • 批准号:
    2315396
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了