BIGDATA:F: Statistical and Computational Optimal Transport for Geometric Data Analysis

BIGDATA:F:几何数据分析的统计和计算最佳传输

基本信息

  • 批准号:
    1838071
  • 负责人:
  • 金额:
    $ 100万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-12-01 至 2023-11-30
  • 项目状态:
    已结题

项目摘要

Current approaches to big data and accompanying computational methods have left behind critical applications where the data is not a collection of individual points, but rather whole geometric objects. Such applications include medical imaging, LiDAR for self-driving cars, and single-cell RNA sequencing, to name a few. Transferring the overwhelming success of simpler data processing and statistical techniques to this regime requires not only large datasets, but also suitable models and algorithms for analysis of this more general type of data. The theory of optimal transport has proven valuable to address these limitations thanks to recent advances on the computational front. Yet, understanding optimal transport as a statistical tool is still in its infancy. This project aims at developing a "geometric data analysis" toolbox based on optimal transport to tackle these new datasets. This proposal will help create a common language to interact and collaborate across disciplines. Much of this research will be integrated in this curriculum and made available through MIT OpenCourseWare. This proposal will also enable rich interdisciplinary training of PhD and undergraduate students.The proposed methods are built around the rich mathematical theory of optimal transport (OT). This theory provides a framework for the development of new methods for geometric data analysis in addition to their rigorous statistical and computational analysis. The nascent theory of computational optimal transport is still largely dissociated from statistics, and many methods do not account properly for sampling and measurement noise. To avoid the pitfalls of overfitting, this proposal singularly and systematically takes a statistical approach to geometric data analysis. With an understanding of the theoretical advantages and drawbacks of OT for statistical modeling, it will lead to scalable OT algorithms with strong statistical guarantees. A tangible outcome of this proposal is a cohesive toolbox extending not only averaging but also regression, classification, clustering, and other notions from classical statistics in a fashion that captures global geometric features of data. It will have a direct impact on various applications in analysis of not only medical images but also point clouds gathered by LiDAR for self-driving cars, sequences of gene expressions produced by single-cell RNA sequencing, and other diverse yet large-scale sources of data. These datasets contain millions of entities but resist application of standard statistical procedures; current state-of-the-art techniques for their analysis are ad-hoc, not generalizable, and fail to reach the quality achieved by "big data" tools in other domains. Educational impact will be made by incorporating this work in new degree programs in statistics at MIT.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
当前的大数据和随附的计算方法的方法已留下了关键应用程序,其中数据不是单个点的集合,而是整个几何对象。这些应用包括医学成像,用于自动驾驶汽车的LiDAR以及单细胞RNA测序,仅举几例。将更简单的数据处理和统计技术转移到该制度的压倒性成功不仅需要大数据集,还需要合适的模型和算法,以分析这种更通用的数据类型。由于计算方面的最新进展,最佳运输理论已被证明有价值地解决这些局限性。但是,将最佳运输作为统计工具仍处于起步阶段。该项目旨在基于最佳传输来开发“几何数据分析”工具箱,以解决这些新数据集。该建议将有助于创建一种通用语言,以跨学科进行互动和协作。这项研究的大部分将集成到本课程中,并通过MIT OpenCourse软件提供。该建议还将实现对博士学位和本科生的丰富跨学科培训。拟议的方法是围绕丰富的最佳运输数学理论(OT)构建的。该理论为开发新方法提供了一个框架,除了严格的统计和计算分析外,还提供了几何数据分析。计算最佳运输的新生理论仍然与统计数据分离,许多方法在抽样和测量噪声方面却没有正确解释。为了避免过度拟合的陷阱,该提案单一而系统地采用统计方法来进行几何数据分析。在了解统计建模的OT的理论优势和缺点的基础上,它将导致具有强大统计保证的可扩展OT算法。该提案的切实结果是一个有凝聚力的工具箱,它不仅可以平均,而且还以捕获数据的全局几何特征的方式来扩展经典统计的回归,分类,聚类和其他概念。 它将直接影响在分析医学图像的分析中,而且还会对LIDAR收集的自动驾驶汽车收集的点云,单细胞RNA测序产生的基因表达序列以及其他多种多样但大规模的数据来源。 这些数据集包含数百万个实体,但拒绝应用标准统计程序的应用;当前用于分析的最新技术是临时的,不可概括,无法达到其他域中的“大数据”工具所获得的质量。 通过将这项工作纳入麻省理工学院的统计学新学位课程中,将产生教育影响。该奖项反映了NSF的法定任务,并使用基金会的知识分子优点和更广泛的影响审查标准,被认为值得通过评估来获得支持。

项目成果

期刊论文数量(67)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Entropic optimal transport is maximum-likelihood deconvolution
  • DOI:
    10.1016/j.crma.2018.10.010
  • 发表时间:
    2018-09
  • 期刊:
  • 影响因子:
    0.8
  • 作者:
    P. Rigollet;J. Weed
  • 通讯作者:
    P. Rigollet;J. Weed
Algebraic Representations for Volumetric Frame Fields
  • DOI:
    10.1145/3366786
  • 发表时间:
    2019-08
  • 期刊:
  • 影响因子:
    0
  • 作者:
    David R Palmer;D. Bommes;J. Solomon
  • 通讯作者:
    David R Palmer;D. Bommes;J. Solomon
Gaussian discrepancy: A probabilistic relaxation of vector balancing
高斯差异:矢量平衡的概率松弛
  • DOI:
    10.1016/j.dam.2022.08.007
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    1.1
  • 作者:
    Chewi, Sinho;Gerber, Patrik;Rigollet, Philippe;Turner, Paxton
  • 通讯作者:
    Turner, Paxton
Model Fusion with Kullback-Leibler Divergence
PRNet: Self-Supervised Learning for Partial-to-Partial Registration
  • DOI:
  • 发表时间:
    2019-10
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yue Wang;J. Solomon
  • 通讯作者:
    Yue Wang;J. Solomon
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Justin Solomon其他文献

Lifting Directional Fields to Minimal Sections
将方向场提升到最小截面
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    David Palmer;Albert Chern;Justin Solomon
  • 通讯作者:
    Justin Solomon
Co-Optimization of Design and Fabrication Plans for Carpentry: Supplemental Material
木工设计和制造计划的协同优化:补充材料
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Haisen Zhao;Max Willsey;Amy Zhu;Chandrakana Nandi;Zach Tatlock;Justin Solomon;Adriana Schulz
  • 通讯作者:
    Adriana Schulz

Justin Solomon的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Justin Solomon', 18)}}的其他基金

Conference: Summer Geometry Initiative 2024
会议:2024 年夏季几何倡议
  • 批准号:
    2419933
  • 财政年份:
    2024
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
Conference: Summer Geometry Initiative
会议:夏季几何倡议
  • 批准号:
    2329392
  • 财政年份:
    2023
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
Summer Geometry Initiative 2022
2022 年夏季几何计划
  • 批准号:
    2211020
  • 财政年份:
    2022
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
Geometry Processing Summer Institute 2021
几何处理暑期学院 2021
  • 批准号:
    2103933
  • 财政年份:
    2021
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
PostDoctoral Research Fellowship
博士后研究奖学金
  • 批准号:
    1502435
  • 财政年份:
    2015
  • 资助金额:
    $ 100万
  • 项目类别:
    Fellowship Award

相似国自然基金

第二十一届全国凝聚态理论与统计物理学术会议
  • 批准号:
    12342018
  • 批准年份:
    2023
  • 资助金额:
    8.00 万元
  • 项目类别:
    专项项目
高维统计模型的高效计算
  • 批准号:
    12301389
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
去中心化分布式计算中数据异质性的非监督统计模型研究
  • 批准号:
    12301336
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
异构系统计算软件性能度量方法研究
  • 批准号:
    62372428
  • 批准年份:
    2023
  • 资助金额:
    50.00 万元
  • 项目类别:
    面上项目
含有分布型输入的计算机试验统计问题研究
  • 批准号:
    12301320
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

STATISTICAL AND COMPUTATIONAL THRESHOLDS IN SPIN GLASSES AND GRAPH INFERENCE PROBLEMS
自旋玻璃和图推理问题的统计和计算阈值
  • 批准号:
    2347177
  • 财政年份:
    2024
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
Fluency from Flesh to Filament: Collation, Representation, and Analysis of Multi-Scale Neuroimaging data to Characterize and Diagnose Alzheimer's Disease
从肉体到细丝的流畅性:多尺度神经影像数据的整理、表示和分析,以表征和诊断阿尔茨海默病
  • 批准号:
    10462257
  • 财政年份:
    2023
  • 资助金额:
    $ 100万
  • 项目类别:
Data Science and Statistics Core
数据科学和统计核心
  • 批准号:
    10549489
  • 财政年份:
    2023
  • 资助金额:
    $ 100万
  • 项目类别:
Novel Computational Methods for Microbiome Data Analysis in Longitudinal Study
纵向研究中微生物组数据分析的新计算方法
  • 批准号:
    10660234
  • 财政年份:
    2023
  • 资助金额:
    $ 100万
  • 项目类别:
Generalized prediction errors in the human cerebellum
人类小脑的广义预测误差
  • 批准号:
    10715334
  • 财政年份:
    2023
  • 资助金额:
    $ 100万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了