CAREER: Robust and Secure Multi-Modal Learning for Library-Scale Text Collections

职业:图书馆规模文本收藏的稳健且安全的多模式学习

基本信息

  • 批准号:
    1652536
  • 负责人:
  • 金额:
    $ 55万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2017
  • 资助国家:
    美国
  • 起止时间:
    2017-05-15 至 2024-04-30
  • 项目状态:
    已结题

项目摘要

The growth of social media and digitized libraries has made computational text analysis a vital tool for modern scholarship. But too often methods that work on standardized collections for expert users don't translate to real-world data analysis. In order to be useful, text mining methodologies need to balance theoretical power with practical application. Real data sets are noisy and complicated. More importantly, vast amounts of data cannot be shared directly due to copyright, including all published books after 1923. This project will develop tools that can be applied to limited, privatized views of documents. Algorithms will focus on reliability and efficiency, so that powerful techniques can be used by non-expert users on easily accessible hardware, such as the 10 million K-12 students using low-powered browser-based Chromebooks thereby increasing the societal impact of the work.Unsupervised text mining methods such as topic models and word embeddings have become popular outside of machine learning because they operate on simple, widely-available representations and identify latent variables that represent recognizable themes, events, or concepts. But standard algorithms do not scale well, require full access to potentially sensitive text collections, and cannot take advantage of non-textual data such as images. Although recent work in spectral inference has produced improvements in speed, current methods are plagued by sensitivity to noisy observations. This work will develop a unified approach to unsupervised text mining based on matrix and tensor factorization. The project will focus on data rectification methods for input matrices, enabling simple algorithms to work dramatically better, even in the presence of sparse and noisy observations, while also reducing model uncertainty. The project will develop new methods for learning from private and sensitive documents by creating public views of non-public data. These will include both noisy representations of individual documents as well as corpus-level summary matrices, and support both strong non-identifiability and weaker non-expressivity criteria. Finally, the project will develop new tools for modeling images and text optimized for the way images actually accompany text in real corpora, rather than short, artificial captions. By jointly modeling large volumes of text and semantically related images, the project will enable users to search for contextually related images, not just visually similar images, and identify topics that are grounded in the visual world, not just in text. For further information see the project web page: http://mimno.infosci.cornell.edu
社交媒体和数字化图书馆的增长使计算文本分析成为现代奖学金的重要工具。但是,对于专家用户的标准化收集的方法,通常不会转化为现实世界数据分析。为了有用,文本挖掘方法需要平衡理论能力与实际应用。真实的数据集嘈杂且复杂。更重要的是,大量数据无法直接由于版权而直接共享,包括1923年之后所有已发表的书籍。该项目将开发可应用于有限的,私有化的文档观点的工具。算法将专注于可靠性和效率,因此非专家用户可以在易于访问的硬件上使用强大的技术,例如使用低功耗的基于浏览器的Chromebooks使用的1000万K-12学生,从而增加工作的社会影响,从而提高了工作的文本挖掘方法,例如,诸如主题模型和诸如Machine of Machine的流行方式,因为他们的流行方式已经流行了,因为它们可以流行,因为它们可以流行,因为他们可以流行,因为它们的流行方式是流行的,因为他们可以流行的机动,并且可以使用。代表可识别主题,事件或概念的变量。但是,标准算法不能很好地扩展,需要完全访问潜在敏感的文本收集,并且无法利用非文本数据(例如图像)。尽管最近的光谱推断研究已经提高了速度,但当前方法对嘈杂观察的敏感性困扰着。这项工作将基于矩阵和张量分解来开发一种统一的方法来无监督的文本挖掘。该项目将重点放在输入矩阵的数据纠正方法上,即使在存在稀疏和嘈杂的观测值的情况下,简单的算法也能够更好地工作,同时还降低了模型的不确定性。该项目将通过创建非公开数据的公众观点来开发从私人和敏感文档学习的新方法。这些将包括单个文档的嘈杂表示以及语料库级的摘要矩阵,并支持强大的非识别性和较弱的非表达标准。最后,该项目将开发用于建模图像和文本的新工具,以优化图像实际上伴随的文本,而不是简短的人工字幕。通过共同建模大量文本和语义相关图像,该项目将使用户能够搜索与上下文相关的图像,而不仅仅是视觉上相似的图像,并确定在视觉世界中基于的主题,而不仅仅是文本中。有关更多信息,请参见项目网页:http://mimno.infosci.cornell.edu

项目成果

期刊论文数量(13)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
The strange geometry of skip-gram with negative sampling
  • DOI:
    10.18653/v1/d17-1308
  • 发表时间:
    2017-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    David Mimno;Laure Thompson
  • 通讯作者:
    David Mimno;Laure Thompson
Comparing Text Representations: A Theory-Driven Approach
  • DOI:
    10.18653/v1/2021.emnlp-main.449
  • 发表时间:
    2021-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Gregory Yauney;David M. Mimno
  • 通讯作者:
    Gregory Yauney;David M. Mimno
Combatting The Challenges of Local Privacy for Distributional Semantics with Compression
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Alexandra Schofield
  • 通讯作者:
    Alexandra Schofield
Computational Cut-Ups: The Influence of Dada
计算剪切:达达主义的影响
Like Two Pis in a Pod: Author Similarity Across Time in the Ancient Greek Corpus
就像豆荚里的两个 Pi:古希腊语料库中不同时间的作者相似度
  • DOI:
    10.22148/001c.13680
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Storey, Grant;Mimno, David
  • 通讯作者:
    Mimno, David
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

David Mimno其他文献

Missing Photos, Suffering Withdrawal, or Finding Freedom? How Missing Photos, Suffering Withdrawal, or Finding Freedom? How Experiences of Social Media Non-Use Influence the Likelihood of Experiences of Social Media Non-Use Influence the Likelihood of Reversion Reversion
丢失照片、遭受退缩之苦,还是寻找自由?
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Eric Baumer;Shion Guha;Emily Quan;David Mimno;Geri K. Gay
  • 通讯作者:
    Geri K. Gay
Beyond Digital Incunabula: Modeling the Next Generation of Digital Libraries
超越数字摇篮:下一代数字图书馆建模
Prior-aware Dual Decomposition: Document-specific Topic Inference for Spectral Topic Models
先验双重分解:谱主题模型的文档特定主题推理
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Moontae Lee;D. Bindel;David Mimno
  • 通讯作者:
    David Mimno
The Tell-Tale Hat: Surfacing the Uncertainty in Folklore Classification
告密帽:揭示民俗分类中的不确定性
  • DOI:
    10.22148/16.012
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Peter M. Broadwell;David Mimno;Timothy R. Tangherlini
  • 通讯作者:
    Timothy R. Tangherlini
Hierarchical Catalog Records: Implementing a FRBR Catalog
分层目录记录:实施 FRBR 目录
  • DOI:
    10.1045/october2005-crane
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    David Mimno;G. Crane;Alison Jones
  • 通讯作者:
    Alison Jones

David Mimno的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('David Mimno', 18)}}的其他基金

Conference: Text As Data Conference 2022
会议:2022 年文本即数据会议
  • 批准号:
    2232664
  • 财政年份:
    2022
  • 资助金额:
    $ 55万
  • 项目类别:
    Standard Grant

相似国自然基金

强壮前沟藻共生细菌降解膦酸酯产生促藻效应的分子机制
  • 批准号:
    42306167
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
高效率强壮消息鉴别码的分析与设计
  • 批准号:
    61202422
  • 批准年份:
    2012
  • 资助金额:
    23.0 万元
  • 项目类别:
    青年科学基金项目
半定松弛与非凸二次约束二次规划研究
  • 批准号:
    11271243
  • 批准年份:
    2012
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于复合编码脉冲串的水下主动隐蔽性探测新方法研究
  • 批准号:
    61271414
  • 批准年份:
    2012
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
民航客运网络收益管理若干问题的研究
  • 批准号:
    60776817
  • 批准年份:
    2007
  • 资助金额:
    20.0 万元
  • 项目类别:
    联合基金项目

相似海外基金

CAREER: Learning to Secure Cooperative Multi-Agent Learning Systems: Advanced Attacks and Robust Defenses
职业:学习保护协作多代理学习系统:高级攻击和强大的防御
  • 批准号:
    2146548
  • 财政年份:
    2022
  • 资助金额:
    $ 55万
  • 项目类别:
    Continuing Grant
Vending machine Naloxone Distribution for Your community (VENDY): Increasing reach and implementation of naloxone distribution
社区自动售货机纳洛酮配送 (VENDY):扩大纳洛酮配送的覆盖范围和实施
  • 批准号:
    10506767
  • 财政年份:
    2022
  • 资助金额:
    $ 55万
  • 项目类别:
Vending machine Naloxone Distribution for Your community (VENDY): Increasing reach and implementation of naloxone distribution
社区自动售货机纳洛酮配送 (VENDY):扩大纳洛酮配送的覆盖范围和实施
  • 批准号:
    10664040
  • 财政年份:
    2022
  • 资助金额:
    $ 55万
  • 项目类别:
CAREER: Research on Real-time Robust and Secure Communications for Vehicular Ad Hoc Networks
职业:车载自组织网络实时鲁棒和安全通信的研究
  • 批准号:
    1252638
  • 财政年份:
    2012
  • 资助金额:
    $ 55万
  • 项目类别:
    Standard Grant
CAREER: Efficient, Secure and Robust Control of Cyber Physical Systems
职业:网络物理系统的高效、安全和鲁棒控制
  • 批准号:
    0955111
  • 财政年份:
    2010
  • 资助金额:
    $ 55万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了