BIGDATA: Collaborative Research: F: Big Data, It's Not So Big: Exploiting Low-Dimensional Geometry for Learning and Inference

BIGDATA:协作研究:F:大数据,它并不是那么大:利用低维几何进行学习和推理

基本信息

  • 批准号:
    1546132
  • 负责人:
  • 金额:
    $ 32.22万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2015
  • 资助国家:
    美国
  • 起止时间:
    2015-12-01 至 2018-11-30
  • 项目状态:
    已结题

项目摘要

This research will leverage ideas from algebraic and differential geometry to address core problems in modern high-dimensional and massive data science. The project will develop statistical methods and numerical tools, grounded in solid mathematical, statistical, and computational foundations, to extract low dimensional geometry from massive data with applications in clustering, data summarization, prediction, dimension reduction, and visualization. The solutions developed as part of this project can result in fundamental advances in practical applications across fields as diverse as biology, medicine, social sciences, communication networks, and engineering. In addition to internal validation via statistical and mathematical theory and simulation studies, the methods developed in the project will involve external validation via interdisciplinary applications. These applications include: (1) inference of population structure from genomic data; (2) document analysis via topic models; and (3) inference of subsets of putative gene networks relevant to drug resistance in melanoma.The research is motivated by the central premise that, even though the amount of data may be massive, a compact model can represent these data. Specifically, high-dimensional and/or massive data can be reasonably approximated by a mixture of subspaces, for which sparse representations exist. A mixture of subspaces of potentially different dimensions is a flexible, rich representation of data with nice mathematical properties that can scale to large data. There are several fundamental challenges in modeling mixtures of subspaces that will be addressed in this research: 1) the subspaces will be of different dimensions, 2) both the subspace parameters and the mixing parameters need to be inferred, 3) efficient algorithms for inference are required for both high-dimensional and massive data. The central foundational impediment in all of these challenges is that the model is a stratified space (a union of manifolds), and therefore has singularities. The key insight in this research is that there exist embeddings and representations of the model space that mitigate these singularities. These ideas are implemented as concrete Bayesian, frequentist, and numerical algorithms and models to address the real world examples listed above.
这项研究将利用代数和差异几何形状的思想来解决现代高维数据科学的核心问题。 该项目将开发以固体数学,统计和计算基础为基础的统计方法和数值工具,以从大量数据中提取低维几何形状,并在聚类,数据汇总,预测,尺寸降低和可视化中应用。 作为该项目的一部分开发的解决方案可能会导致在生物学,医学,社会科学,通信网络和工程等多样化领域的实际应用中的基本进步。 除了通过统计和数学理论和仿真研究进行内部验证外,项目中开发的方法还将涉及通过跨学科应用程序进行外部验证。 这些应用包括:(1)从基因组数据中推断人口结构; (2)通过主题模型进行文档分析; (3)推断与黑色素瘤中与耐药性相关的推定基因网络子集的推断。该研究的动机是由中心前提的,即,即使数据量可能大量,紧凑的模型也可以代表这些数据。 具体而言,高维和/或大量数据可以通过子空间的混合物合理地近似,为此存在稀疏表示。 潜在不同维度的子空间的混合物是具有具有良好数学属性的数据的灵活,丰富的数据,可以扩展到大数据。 在本研究中将解决的子空间的混合物建模时面临一些基本挑战:1)子空间将具有不同的维度,2)需要推断子空间参数和混合参数,需要推断出有效的推理算法。 所有这些挑战中的中心基础障碍是该模型是一个分层空间(一种流形的结合),因此具有奇异性。 这项研究的关键见解是,模型空间的嵌入和表示可以减轻这些奇异性。 这些想法被实现为具体的贝叶斯,频繁主义和数值算法和模型,以解决上面列出的现实示例。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Shayn Mukherjee其他文献

Shayn Mukherjee的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Shayn Mukherjee', 18)}}的其他基金

HDR TRIPODS: Innovations in Data Science: Integrating Stochastic Modeling, Data Representations, and Algorithms
HDR TRIPODS:数据科学的创新:集成随机建模、数据表示和算法
  • 批准号:
    1934964
  • 财政年份:
    2019
  • 资助金额:
    $ 32.22万
  • 项目类别:
    Continuing Grant
Beyond Riemannian Geometry in Inference
超越黎曼几何的推理
  • 批准号:
    1713012
  • 财政年份:
    2017
  • 资助金额:
    $ 32.22万
  • 项目类别:
    Continuing Grant
Collaborative Research: Topological Methods for Parsing Shapes and Networks and Modeling Variation in Structure and Function
合作研究:解析形状和网络以及建模结构和功能变化的拓扑方法
  • 批准号:
    1418261
  • 财政年份:
    2014
  • 资助金额:
    $ 32.22万
  • 项目类别:
    Continuing Grant
Collaborative Research: Numerical algebra and statistical inference
合作研究:数值代数和统计推断
  • 批准号:
    1209155
  • 财政年份:
    2012
  • 资助金额:
    $ 32.22万
  • 项目类别:
    Continuing Grant
AF: EAGER: Collaborative Research: Integration of Computational Geometry and Statistical Learning for Modern Data Analysis
AF:EAGER:协作研究:现代数据分析的计算几何与统计学习的集成
  • 批准号:
    1049290
  • 财政年份:
    2010
  • 资助金额:
    $ 32.22万
  • 项目类别:
    Standard Grant
Collaborative Research: Probabilistic models and geometry for high dimensional data
合作研究:高维数据的概率模型和几何
  • 批准号:
    0732260
  • 财政年份:
    2007
  • 资助金额:
    $ 32.22万
  • 项目类别:
    Standard Grant

相似国自然基金

临时团队协作历史对协作主动行为的影响研究:基于社会网络视角
  • 批准号:
    72302101
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
在线医疗团队协作模式与绩效提升策略研究
  • 批准号:
    72371111
  • 批准年份:
    2023
  • 资助金额:
    41 万元
  • 项目类别:
    面上项目
数智背景下的团队人力资本层级结构类型、团队协作过程与团队效能结果之间关系的研究
  • 批准号:
    72372084
  • 批准年份:
    2023
  • 资助金额:
    40 万元
  • 项目类别:
    面上项目
A-型结晶抗性淀粉调控肠道细菌协作产丁酸机制研究
  • 批准号:
    32302064
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
面向人机接触式协同作业的协作机器人交互控制方法研究
  • 批准号:
    62373044
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目

相似海外基金

BIGDATA: IA: Collaborative Research: Asynchronous Distributed Machine Learning Framework for Multi-Site Collaborative Brain Big Data Mining
BIGDATA:IA:协作研究:用于多站点协作大脑大数据挖掘的异步分布式机器学习框架
  • 批准号:
    2348159
  • 财政年份:
    2023
  • 资助金额:
    $ 32.22万
  • 项目类别:
    Standard Grant
BIGDATA: IA: Collaborative Research: Intelligent Solutions for Navigating Big Data from the Arctic and Antarctic
BIGDATA:IA:协作研究:导航北极和南极大数据的智能解决方案
  • 批准号:
    2308649
  • 财政年份:
    2022
  • 资助金额:
    $ 32.22万
  • 项目类别:
    Standard Grant
BigData:IA:Collaborative Research: TIMES: A tensor factorization platform for spatio-temporal data
BigData:IA:协作研究:TIMES:时空数据张量分解平台
  • 批准号:
    2034479
  • 财政年份:
    2020
  • 资助金额:
    $ 32.22万
  • 项目类别:
    Standard Grant
BIGDATA: Collaborative Research: F: Holistic Optimization of Data-Driven Applications
BIGDATA:协作研究:F:数据驱动应用程序的整体优化
  • 批准号:
    2027516
  • 财政年份:
    2020
  • 资助金额:
    $ 32.22万
  • 项目类别:
    Standard Grant
BIGDATA: F: Collaborative Research: Practical Analysis of Large-Scale Data with Lyme Disease Case Study
BIGDATA:F:协作研究:莱姆病案例研究大规模数据的实际分析
  • 批准号:
    1934319
  • 财政年份:
    2019
  • 资助金额:
    $ 32.22万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了