CRII: III: Robust Machine Learning Methods for Messy Data
CRII:III:针对杂乱数据的鲁棒机器学习方法
基本信息
- 批准号:1657155
- 负责人:
- 金额:$ 17.5万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2017
- 资助国家:美国
- 起止时间:2017-05-01 至 2019-08-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Messy data is ubiquitous in modern science. Data come from heterogeneous sources; there are many latent confounding factors; and it is often unclear what are the relevant questions to ask and models to use. This reality is in sharp contrast with the usual modeling assumptions of machine learning and statistics, where data are assumed to come from well-specified models and the hypotheses to test are clearly laid out. The glaring gap between standard theory and the actual practice of messy data is a major contributor to the reproducibility crises across science and prevents researchers from harnessing the full insights from data. This project will develop rigorous mathematical foundations and robust machine learning algorithms to address the core challenges of messy data. The PI will explore novel techniques to quantify and reduce different types of selection biases that arise from exploratory data analysis. The PI will also investigate algorithms to perform statistical inference when the model is mis- or under-specified. The project will apply these new methods to tackle challenging problems in human population genomics. The PI recently initialized a framework based on information usage to quantify the magnitude of over-fitting and bias arising from data exploration. This project will significantly expand this framework. In particular the PI will apply this information usage approach to quantify and reduce bias in data generated from adaptive experimentation, such as online A/B testing and more general multi-arm bandits. Related to over-fitting is the problem of mis- and under-specified statistical models. The PI has recently developed method-of-cumulant approaches to learn probabilistic models when the observations are perturbed by unknown and arbitrary interference. A promising direction of research is to extend this approach to more general settings that allow for nonlinear interference and to develop software tools for the broad data science community. Genomics exemplify many of the challenges of messy data-genomic data typically requires substantial exploratory analysis and faces modeling uncertainty. This makes genomics a high impact domain to apply the new messy data algorithms developed here. Bio-medical databases are interactively analyzed by many researchers and thus are particularly prone to exploration bias and overfitting. The PI will explore piloting the information usage framework on the bio-medical data hubs being created at Stanford in order to quantify and reduce exploration bias. As a part of the project, PI is also developing courses, workshops and tutorials to bring together researchers and practitioners across machine learning, statistics, information theory and bio-medical data science to address the ubiquitous challenge of messy data.
混乱的数据在现代科学中无处不在。数据来自异构源;存在许多潜在的混杂因素;而且通常不清楚要提出哪些相关问题和要使用哪些模型。这一现实与机器学习和统计学的通常建模假设形成鲜明对比,其中数据被假设来自明确指定的模型,并且清楚地列出了要测试的假设。标准理论与混乱数据的实际实践之间的明显差距是整个科学领域再现性危机的主要原因,并阻碍研究人员充分利用数据的见解。该项目将开发严格的数学基础和强大的机器学习算法,以解决混乱数据的核心挑战。 PI 将探索新技术来量化和减少探索性数据分析中产生的不同类型的选择偏差。当模型指定错误或指定不足时,PI 还将研究执行统计推断的算法。该项目将应用这些新方法来解决人类基因组学中的挑战性问题。 PI 最近初始化了一个基于信息使用的框架,以量化数据探索中产生的过度拟合和偏差的程度。该项目将显着扩展该框架。特别是,PI 将应用这种信息使用方法来量化和减少自适应实验(例如在线 A/B 测试和更常见的多臂老虎机)生成的数据中的偏差。与过度拟合相关的是统计模型指定错误和指定不足的问题。 PI 最近开发了累积方法,用于在观测受到未知和任意干扰干扰时学习概率模型。一个有前途的研究方向是将这种方法扩展到允许非线性干扰的更一般的设置,并为广泛的数据科学界开发软件工具。基因组学体现了杂乱数据的许多挑战——基因组数据通常需要大量的探索性分析,并面临建模的不确定性。这使得基因组学成为应用此处开发的新混乱数据算法的高影响力领域。生物医学数据库由许多研究人员进行交互式分析,因此特别容易出现探索偏差和过度拟合。 PI 将探索在斯坦福大学创建的生物医学数据中心上试行信息使用框架,以量化和减少探索偏差。作为该项目的一部分,PI 还在开发课程、研讨会和教程,将机器学习、统计学、信息论和生物医学数据科学领域的研究人员和从业者聚集在一起,以应对无处不在的混乱数据挑战。
项目成果
期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Exploring patterns enriched in a dataset with contrastive principal component analysis.
- DOI:10.1038/s41467-018-04608-8
- 发表时间:2018-05-30
- 期刊:
- 影响因子:16.6
- 作者:Abid A;Zhang MJ;Bagaria VK;Zou J
- 通讯作者:Zou J
Word embeddings quantify 100 years of gender and ethnic stereotypes
- DOI:10.1073/pnas.1720347115
- 发表时间:2018-04-17
- 期刊:
- 影响因子:11.1
- 作者:Garg, Nikhil;Schiebinger, Londa;Zou, James
- 通讯作者:Zou, James
NeuralFDR: learning decision threshold from hypothesis features.
NeuralFDR:从假设特征中学习决策阈值。
- DOI:
- 发表时间:2017
- 期刊:
- 影响因子:0
- 作者:Xia, Fei;Zhang, Martin;Zou, James;Tse, David
- 通讯作者:Tse, David
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
James Zou其他文献
Dynamical Systems Model of RNA Velocity Improves Inference of Single-cell Trajectory, Pseudo-time and Gene Regulation.
RNA 速度的动态系统模型改进了单细胞轨迹、伪时间和基因调控的推断。
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:5.6
- 作者:
Ruishan Liu;A. Pisco;Emelie Braun;S. Linnarsson;James Zou - 通讯作者:
James Zou
Algorithms and Models for Genome Biology
基因组生物学的算法和模型
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
James Zou - 通讯作者:
James Zou
Data Acquisition: A New Frontier in Data-centric AI
数据采集:以数据为中心的人工智能的新领域
- DOI:
- 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
Lingjiao Chen;Bilge Acun;Newsha Ardalani;Yifan Sun;Feiyang Kang;Hanrui Lyu;Yongchan Kwon;Ruoxi Jia;Carole;Matei Zaharia;James Zou - 通讯作者:
James Zou
Learning spatial cellular motifs predictive of the responses of patients to cancer treatments
学习预测患者对癌症治疗反应的空间细胞图案
- DOI:
10.1038/s41551-022-00958-3 - 发表时间:
2022 - 期刊:
- 影响因子:28.1
- 作者:
Zhenqin Wu;James Zou - 通讯作者:
James Zou
Spatial Registration Evaluation of [18F]-MK6240 PET
[18F]-MK6240 PET 的空间配准评估
- DOI:
10.7916/d8-bf13-cy63 - 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
James Zou;Aubrey Johnson;Jeanelle France;S. Bharadwaj;Zeljko Tomljanovic;Y. Stern;A. Brickman;D. Devanand;J. Luchsinger;W. Kreisl;F. Provenzano - 通讯作者:
F. Provenzano
James Zou的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('James Zou', 18)}}的其他基金
CAREER: Enabling data valuation and deletion in human-centered machine learning
职业:在以人为本的机器学习中实现数据评估和删除
- 批准号:
1942926 - 财政年份:2020
- 资助金额:
$ 17.5万 - 项目类别:
Continuing Grant
AF: MEDIUM: Collaborative Research: Foundations of Adaptive Data Analysis
AF:中:协作研究:自适应数据分析的基础
- 批准号:
1763191 - 财政年份:2018
- 资助金额:
$ 17.5万 - 项目类别:
Continuing Grant
相似国自然基金
深水重力流混合事件层的碎屑黏土驱动成因机制及其沉积动力过程响应—以西秦岭卓尼地区上三叠统为例
- 批准号:42372118
- 批准年份:2023
- 资助金额:53 万元
- 项目类别:面上项目
摇摆桥梁三维动力学行为及地震响应规律研究
- 批准号:52308494
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于瞬态成像响应的非同步相移轮廓术三维测量方法研究
- 批准号:62375078
- 批准年份:2023
- 资助金额:48 万元
- 项目类别:面上项目
高精度OFDR分布式螺旋多芯光纤三维形状传感技术
- 批准号:62375178
- 批准年份:2023
- 资助金额:54 万元
- 项目类别:面上项目
构件复杂背景下的实景三维古建筑物细节多层次语义提取方法研究
- 批准号:62306107
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
相似海外基金
CRII: III: Metadata-guided Imbalance-Modeling for Robust Computational Healthcare
CRII:III:元数据引导的稳健计算医疗保健不平衡建模
- 批准号:
2245920 - 财政年份:2023
- 资助金额:
$ 17.5万 - 项目类别:
Standard Grant
CRII: III: Advance mathematical theorems for Extreme Value and Risk Measure in Robust Intelligence
CRII:III:鲁棒智能中极值和风险度量的数学定理
- 批准号:
2153329 - 财政年份:2022
- 资助金额:
$ 17.5万 - 项目类别:
Standard Grant
CRII: III: Robust and Explainable AI Agents with Common Sense
CRII:III:具有常识的鲁棒且可解释的人工智能代理
- 批准号:
2153546 - 财政年份:2022
- 资助金额:
$ 17.5万 - 项目类别:
Standard Grant
CRII: III: Efficient and Robust Statistical Estimation from Nonlinear Compressed Measurements
CRII:III:通过非线性压缩测量进行高效且稳健的统计估计
- 批准号:
1948133 - 财政年份:2020
- 资助金额:
$ 17.5万 - 项目类别:
Standard Grant
CRII: III: Generative Models for Robust Real-Time Analysis of Complex Dynamic Networks
CRII:III:复杂动态网络鲁棒实时分析的生成模型
- 批准号:
1755824 - 财政年份:2018
- 资助金额:
$ 17.5万 - 项目类别:
Standard Grant