RI: Small: Statistically Sound and Computationally Efficient Data Analysis Through Algorithmic Applications of Rademacher Averages

RI:小:通过 Rademacher 平均值的算法应用进行统计上合理且计算高效的数据分析

基本信息

  • 批准号:
    1813444
  • 负责人:
  • 金额:
    $ 45万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-09-01 至 2023-08-31
  • 项目状态:
    已结题

项目摘要

Machine learning and data mining are among the most influential contributions of computer science in the last decade. Given sufficiently large datasets and computational power one can discover patterns and make reasonably accurate predictions. While there has been tremendous progress in designing efficient algorithms for analyzing massive datasets, there has been less progress in providing rigorous measures of statistical significance or robustness of the analysis. As we analyze large and noisy datasets to model complex relationships in data, it is critical to develop formally proven methods with clear performance guarantees. This project advocates a responsible approach to data analysis, based on well-founded mathematical and statistical concepts. Such an approach enhances the effectiveness and reliability of evidence- based decision making in medicine, policy and other social applications of big data analysis. Capacity-building activities of this project include: (1) Creation and dissemination of algorithms and software that implement rigorous, interpretable, and usable computational and statistical approaches to big data analysis; and (2) Educational initiatives at the graduate and undergraduate level to build a bigger and more diverse workforce of data scientists with the appropriate foundational skills both to apply analytical tools to existing datasets and to develop new approaches to future datasets.The goal of this project is developing practical data analysis algorithmic applications based on the theoretical machine learning concept of Rademacher complexity. This project is motivated by preliminary results that have shown that the analytical properties of the Rademacher complexity, combined with its efficient sampling properties, provide a unique opportunity to develop general tools to begin bridging the gap between theory and practice in large scale data analysis. In particular, the project is focused on the following aims: improve the efficiency of rigorous data analysis algorithms through better sample complexity bounds; improve multi-comparisons and overfitting control through Rademacher generalization bounds; develop theory and practical applications of Cartesian and Chaos Rademacher Complexities; develop efficient algorithms for estimating the empirical Rademacher complexity; and explore new rigorous data analysis algorithms through the application of Rademacher theory.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
机器学习和数据挖掘是过去十年中计算机科学最有影响力的贡献之一。 给定足够大的数据集和计算能力,可以发现模式并做出合理准确的预测。 尽管设计有效的算法用于分析大规模数据集,但在提供统计显着性或鲁棒性的严格度量方面取得了较少的进展。当我们分析大型和嘈杂的数据集以模拟数据中的复杂关系时,至关重要的是,开发具有明确性能保证的正式证明的方法。 该项目基于基于基础良好的数学和统计概念提倡一种负责任的数据分析方法。这种方法增强了大数据分析中基于证据的决策,政策和其他社会应用的有效性和可靠性。该项目的能力建设活动包括:(1)创建和传播算法和软件,以实施严格,可解释和可用的计算和统计方法来进行大数据分析; (2)在研究生和本科层面的教育计划,以建立具有适当基础技能的数据科学家的更大,更多样化的劳动力,既可以将分析工具应用于现有数据集应用于现有数据集,又可以为未来的数据集开发新方法。该项目的目标是开发基于理论机器学习概念的实用数据分析应用程序分析应用程序分析应用程序。该项目的激励是由初步结果激发的,这些结果表明,Rademacher复杂性的分析特性与其有效的采样属性相结合,为开发一般工具提供了一个独特的机会,以开始在大规模数据分析中开始弥合理论和实践之间的差距。特别是,该项目的重点是以下目的:通过更好的样本复杂性界限提高严格数据分析算法的效率;通过Rademacher泛化界限改善多核子和过度拟合控制;发展笛卡尔和混乱的Rademacher复杂性的理论和实际应用;开发有效的算法来估计经验降解器的复杂性;并通过应用Rademacher理论探索新的严格数据分析算法。该奖项反映了NSF的法定任务,并且使用基金会的知识分子优点和更广泛的影响标准,被认为值得通过评估来获得支持。

项目成果

期刊论文数量(17)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
RePBubLik: Reducing Polarized Bubble Radius with Link Insertions
Fast Doubly-Adaptive MCMC to Estimate the Gibbs Partition Function with Weak Mixing Time Bounds
  • DOI:
  • 发表时间:
    2021-11
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shahrzad Haddadan;Zhuang Yue;Cyrus Cousins;E. Upfal
  • 通讯作者:
    Shahrzad Haddadan;Zhuang Yue;Cyrus Cousins;E. Upfal
Nonparametric Density Estimation under Distribution Drift
分布漂移下的非参数密度估计
Tiered Sampling: An Efficient Method for Counting Sparse Motifs in Massive Graph Streams
分层采样:一种计算海量图流中稀疏图案的有效方法
Learning Simulation-Based Games from Data
  • DOI:
  • 发表时间:
    2019-05
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Enrique Areyan Viqueira;A. Greenwald;Cyrus Cousins;E. Upfal
  • 通讯作者:
    Enrique Areyan Viqueira;A. Greenwald;Cyrus Cousins;E. Upfal
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Eli Upfal其他文献

De Novo Discovery of Mutated Driver Pathways in Cancer Material Supplemental Related Content
从头发现癌症材料中突变的驱动通路材料补充相关内容
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Fabio Vandin;Eli Upfal;Benjamin J. Raphael;F. Hormozdiari;Iman Hajirasouliha;Andrew Mcpherson
  • 通讯作者:
    Andrew Mcpherson
Brain Functional Connectivity Estimation Utilizing Diffusion Kernels on a Structural Connectivity Graph
利用结构连接图上的扩散核进行大脑功能连接估计
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Nathan Tung;J. Sanes;Eli Upfal;A. Eloyan
  • 通讯作者:
    A. Eloyan
Bruisable Onions: Anonymous Communication in the Asynchronous Model
碎洋葱:异步模型中的匿名通信
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Megumi Ando;Anna Lysyanskaya;Eli Upfal
  • 通讯作者:
    Eli Upfal

Eli Upfal的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Eli Upfal', 18)}}的其他基金

BIGDATA: Mid-Scale: DA: Analytical Approaches to Massive Data Computation with Applications to Genomics
BIGDATA:中型:DA:海量数据计算的分析方法及其在基因组学中的应用
  • 批准号:
    1247581
  • 财政年份:
    2012
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Efficient Distributed Approximation Algorithms
高效的分布式逼近算法
  • 批准号:
    1023166
  • 财政年份:
    2009
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
ITR/SY Algorithmic Issues in Large Scale Dynamic Networks
大规模动态网络中的 ITR/SY 算法问题
  • 批准号:
    0121154
  • 财政年份:
    2001
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Design and Analysis of Dynamic Processes: A Stochastic Approach
动态过程的设计和分析:随机方法
  • 批准号:
    9731477
  • 财政年份:
    1998
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant

相似国自然基金

靶向Treg-FOXP3小分子抑制剂的筛选及其在肺癌免疫治疗中的作用和机制研究
  • 批准号:
    32370966
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
化学小分子激活YAP诱导染色质可塑性促进心脏祖细胞重编程的表观遗传机制研究
  • 批准号:
    82304478
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
靶向小胶质细胞的仿生甘草酸纳米颗粒构建及作用机制研究:脓毒症相关性脑病的治疗新策略
  • 批准号:
    82302422
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
HMGB1/TLR4/Cathepsin B途径介导的小胶质细胞焦亡在新生大鼠缺氧缺血脑病中的作用与机制
  • 批准号:
    82371712
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
小分子无半胱氨酸蛋白调控生防真菌杀虫活性的作用与机理
  • 批准号:
    32372613
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目

相似海外基金

CIF: Small: Statistically Optimal Subsampling for Big Data and Rare Events Data
CIF:小:大数据和稀有事件数据的统计最佳子采样
  • 批准号:
    2105571
  • 财政年份:
    2021
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
SHF: Small: Virtual Probe: A Statistically Optimal Framework for Affordable Monitoring and Tuning of Large-Scale Digital Integrated Circuits
SHF:小型:虚拟探针:经济实惠的大规模数字集成电路监控和调谐的统计最佳框架
  • 批准号:
    0915912
  • 财政年份:
    2009
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Feasibility of Hypothermic Liver Perfusion
低温肝脏灌注的可行性
  • 批准号:
    7536720
  • 财政年份:
    2008
  • 资助金额:
    $ 45万
  • 项目类别:
In Vivo Zebrafish Tyrosine Kinase ELISA
体内斑马鱼酪氨酸激酶 ELISA
  • 批准号:
    7540337
  • 财政年份:
    2008
  • 资助金额:
    $ 45万
  • 项目类别:
Monoclonal antibody mediated biomarker discovery for alcohol-induced liver damage
单克隆抗体介导的酒精性肝损伤生物标志物的发现
  • 批准号:
    7414655
  • 财政年份:
    2008
  • 资助金额:
    $ 45万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了