RI: Medium: Collaborative Research: Text-to-Image Reference Resolution for Image Understanding and Manipulation

RI:媒介:协作研究:用于图像理解和操作的文本到图像参考分辨率

基本信息

项目摘要

This project develops new technologies at the interface of computer vision and natural language processing to understand text-to-image relationships. For example, given a captioned image, the project develops techniques which determine which words (e.g. "woman talking on phone", "The farther vehicle") correspond to which image parts. From robotics to human-computer interaction, there are numerous real-world tasks that benefit from practical systems to identify objects in scenes based on language and understand language based on visual context. In particular, the project develops the first language-based image authoring tool which allows users to edit or synthesize realistic imagery using only natural language (e.g. "delete the garbage truck from this photo" or "make an image with three boys chasing a shaggy dog"). Beyond the immediate impact of creating new ways for users to access and author digital images, the broader impacts of this work include three focus areas: the development of new benchmarks for the vision and language communities, outreach and undergraduate research, and leadership in promoting diversity. At the core of the project are new techniques for large-scale text-to-image reference resolution (TIRR) that enable systems to automatically identify the image regions that depict entities described in natural language sentences or commands. These techniques advance image interpretation by enabling systems to perform partial matching between images and sentences, referring expression understanding, and image-based question answering. They also advance image manipulation by enabling systems that can synthesize images starting from a textual description, or modify images based on natural language commands. The main technical contributions of the project are: (1) benchmark datasets for TIRR with comprehensive large-scale gold standard annotations that will make TIRR a standard task for recognition; (2) principled new representations for text-to-image annotations that expose the compositional nature of language using the formalism of the denotation graph; (3) new models for TIRR that perform an explicit alignment (grounding) of words and phrases to image regions guided by the structure of the denotation graph; (4) applications of TIRR methods to referring expression understanding and visual question answering; and (5) applications of TIRR to image creation and manipulation based on natural language input.
该项目在计算机视觉和自然语言处理的界面上开发了新技术,以了解文本对图像的关系。例如,在给定图像的情况下,该项目开发了确定哪个单词(例如,“在电话上说话”,“更远的车辆”)的技术对应于哪个图像零件。从机器人技术到人类计算机的互动,都有许多现实世界中的任务受益于实际系统,可以根据语言识别场景中的对象,并基于视觉上下文理解语言。特别是,该项目开发了基于第一语言的图像创作工具,该工具允许用户仅使用自然语言编辑或综合现实的图像(例如,“从这张照片中删除垃圾卡车”或“与三个男孩一起追逐毛茸茸的狗的图像”)。除了为用户访问和作者数字图像创造新的方法的直接影响外,这项工作的更广泛影响还包括三个重点领域:为愿景和语言社区的新基准制定,外展和本科研究,以及促进多样性的领导力。该项目的核心是大规模文本到图像参考分辨率(TIRR)的新技术,该技术使系统能够自动识别描述自然语言句子或命令中描述的实体的图像区域。这些技术通过使系统能够在图像和句子之间执行部分匹配,参考表达理解以及基于图像的问题回答来推动图像解释。他们还通过启用可以从文本描述开始合成图像的系统来推动图像操纵,或者根据自然语言命令修改图像。该项目的主要技术贡献是:(1)具有全面的大规模黄金标准注释的TIRR基准数据集,这将使TIRR成为识别的标准任务; (2)使用eNotation图的形式主义来揭示语言的构成性质的文本到图像注释的原则新表示; (3)TIRR的新模型,这些模型对图像区域的图像区域进行了显式比对(接地),以表示图形的结构为指导; (4)TIRR方法的应用来参考表达理解和视觉问题回答; (5)TIRR在基于自然语言输入的图像创建和操作中的应用。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Svetlana Lazebnik其他文献

Departmental List of Publications for the Year
年度部门刊物清单
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    K. Kanatani;A. Al;N. Chernov;Y. Sugaya;Svetlana Lazebnik;P. Perona;Yoichi Sato
  • 通讯作者:
    Yoichi Sato
Open-vocabulary Phrase Detection
开放词汇短语检测
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Bryan A. Plummer;Kevin J. Shih;Yichen Li;Ke Xu;Svetlana Lazebnik;S. Sclaroff;Kate Saenko
  • 通讯作者:
    Kate Saenko
Recurrent Models for Situation Recognition
情境识别的循环模型
Union Visual Translation Embedding for Visual Relationship Detection and Scene Graph Generation
用于视觉关系检测和场景图生成的联合视觉翻译嵌入
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zih;Arun Mallya;Svetlana Lazebnik
  • 通讯作者:
    Svetlana Lazebnik
Towards true 3D object recognition
迈向真正的 3D 物体识别
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    J. Ponce;Svetlana Lazebnik;Fred Rothganger;C. Schmid
  • 通讯作者:
    C. Schmid

Svetlana Lazebnik的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Svetlana Lazebnik', 18)}}的其他基金

CAREER: Similarity-based Representation of Large-scale Image Collections
职业:大规模图像集合的基于相似性的表示
  • 批准号:
    1228082
  • 财政年份:
    2012
  • 资助金额:
    $ 55万
  • 项目类别:
    Continuing Grant
CAREER: Similarity-based Representation of Large-scale Image Collections
职业:大规模图像集合的基于相似性的表示
  • 批准号:
    0845629
  • 财政年份:
    2009
  • 资助金额:
    $ 55万
  • 项目类别:
    Continuing Grant

相似国自然基金

复合低维拓扑材料中等离激元增强光学响应的研究
  • 批准号:
    12374288
  • 批准年份:
    2023
  • 资助金额:
    52 万元
  • 项目类别:
    面上项目
基于管理市场和干预分工视角的消失中等企业:特征事实、内在机制和优化路径
  • 批准号:
    72374217
  • 批准年份:
    2023
  • 资助金额:
    41.00 万元
  • 项目类别:
    面上项目
托卡马克偏滤器中等离子体的多尺度算法与数值模拟研究
  • 批准号:
    12371432
  • 批准年份:
    2023
  • 资助金额:
    43.5 万元
  • 项目类别:
    面上项目
中等质量黑洞附近的暗物质分布及其IMRI系统引力波回波探测
  • 批准号:
    12365008
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目
中等垂直风切变下非对称型热带气旋快速增强的物理机制研究
  • 批准号:
    42305004
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Collaborative Research: RI: Medium: Principles for Optimization, Generalization, and Transferability via Deep Neural Collapse
合作研究:RI:中:通过深度神经崩溃实现优化、泛化和可迁移性的原理
  • 批准号:
    2312841
  • 财政年份:
    2023
  • 资助金额:
    $ 55万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Medium: Principles for Optimization, Generalization, and Transferability via Deep Neural Collapse
合作研究:RI:中:通过深度神经崩溃实现优化、泛化和可迁移性的原理
  • 批准号:
    2312842
  • 财政年份:
    2023
  • 资助金额:
    $ 55万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Medium: Lie group representation learning for vision
协作研究:RI:中:视觉的李群表示学习
  • 批准号:
    2313151
  • 财政年份:
    2023
  • 资助金额:
    $ 55万
  • 项目类别:
    Continuing Grant
Collaborative Research: RI: Medium: Principles for Optimization, Generalization, and Transferability via Deep Neural Collapse
合作研究:RI:中:通过深度神经崩溃实现优化、泛化和可迁移性的原理
  • 批准号:
    2312840
  • 财政年份:
    2023
  • 资助金额:
    $ 55万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Medium: Lie group representation learning for vision
协作研究:RI:中:视觉的李群表示学习
  • 批准号:
    2313149
  • 财政年份:
    2023
  • 资助金额:
    $ 55万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了