CAREER: Enabling data valuation and deletion in human-centered machine learning

职业:在以人为本的机器学习中实现数据评估和删除

基本信息

  • 批准号:
    1942926
  • 负责人:
  • 金额:
    $ 49.99万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-06-15 至 2025-05-31
  • 项目状态:
    未结题

项目摘要

As data becomes an essential driver of technological and economic developments, it is critical to understand the value of data in different applications. This project develops a computational approach to quantify what type of data is more or less useful when the data is used to train prediction algorithms. This characterization of data value is important because it enables users to filter out poor quality data and to identify data that are important to collect in the future. In addition to data valuation, the project also develops complementary methods to facilitate deleting data from prediction algorithms. This would allow users to quickly remove poor quality data or data that might have privacy concerns from algorithms. Data valuation and data deletion are core aspects of recent policies aimed to enable individuals control over how their data is used and monetized by third-parties. The methods developed in this project can inform the implementation of such policies. This project develops a framework for data valuation based on extending the concept of Shapley value from economics. Shapley value measures how individual components contribute to the whole group. This project will build a rigorous statistical theory of data Shapley value, together with new scalable algorithms for estimating Shapley values on large datasets. Moreover, modifications to data Shapley value by relaxing its constraints will be investigated. Computing data Shapley value involves iteratively deleting certain data points and measuring the effect of this deletion on the performance of the trained machine learning model. This formulation closely links data valuation with the data deletion subproject. The goal of the latter is to efficiently delete subsets of the training data from a machine learning model without having to retrain from scratch. The data valuation and deletion methods will be implemented and validated on large publicly available biomedical datasets.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
随着数据成为技术和经济发展的重要驱动力,了解数据在不同应用程序中的价值至关重要。该项目开发了一种计算方法,以量化哪种类型的数据或多或少是有用的,当数据用于训练预测算法。数据值的这种表征很重要,因为它使用户能够滤除质量差数据并确定将来重要的数据。除了数据评估外,该项目还开发了互补的方法,以促进预测算法中删除数据。这将使用户能够快速删除可能与算法有关的隐私问题的差异差数据或数据。数据估值和数据删除是旨在使个人控制其数据如何使用和通过第三方货币化的最新政策的核心方面。该项目中开发的方法可以告知此类政策的实施。 该项目基于从经济学中扩展了沙普利价值的概念来开发数据评估的框架。 Shapley的价值衡量单个组件如何对整个组做出贡献。该项目将建立一个严格的数据莎普利价值统计理论,以及用于估算大型数据集中沙普利值的新的可扩展算法。此外,将研究通过放松其约束来修改数据沙普利价值。计算数据沙普利值涉及迭代删除某些数据点,并测量此删除对训练的机器学习模型的性能的影响。此公式将数据估值与数据删除子标记联系起来。后者的目的是从机器学习模型中有效地删除培训数据的子集,而无需从头开始重新训练。数据估值和删除方法将在大型公开生物医学数据集上实施和验证。该奖项反映了NSF的法定任务,并被认为是值得通过基金会的知识分子优点和更广泛的影响评估审查标准来评估的。

项目成果

期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Approximate Data Deletion from Machine Learning Models
机器学习模型中的近似数据删除
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Izzo, Zach;Smart, Mary;Chaudhuri, Kamalika;Zou, James
  • 通讯作者:
    Zou, James
Efficient computation and analysis of distributional Shapley values
  • DOI:
  • 发表时间:
    2020-07
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yongchan Kwon;Manuel A. Rivas;James Y. Zou
  • 通讯作者:
    Yongchan Kwon;Manuel A. Rivas;James Y. Zou
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

James Zou其他文献

Dynamical Systems Model of RNA Velocity Improves Inference of Single-cell Trajectory, Pseudo-time and Gene Regulation.
RNA 速度的动态系统模型改进了单细胞轨迹、伪时间和基因调控的推断。
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    5.6
  • 作者:
    Ruishan Liu;A. Pisco;Emelie Braun;S. Linnarsson;James Zou
  • 通讯作者:
    James Zou
Algorithms and Models for Genome Biology
基因组生物学的算法和模型
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    James Zou
  • 通讯作者:
    James Zou
Data Acquisition: A New Frontier in Data-centric AI
数据采集​​:以数据为中心的人工智能的新领域
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Lingjiao Chen;Bilge Acun;Newsha Ardalani;Yifan Sun;Feiyang Kang;Hanrui Lyu;Yongchan Kwon;Ruoxi Jia;Carole;Matei Zaharia;James Zou
  • 通讯作者:
    James Zou
Spatial Registration Evaluation of [18F]-MK6240 PET
[18F]-MK6240 PET 的空间配准评估
  • DOI:
    10.7916/d8-bf13-cy63
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    James Zou;Aubrey Johnson;Jeanelle France;S. Bharadwaj;Zeljko Tomljanovic;Y. Stern;A. Brickman;D. Devanand;J. Luchsinger;W. Kreisl;F. Provenzano
  • 通讯作者:
    F. Provenzano
Olfactory impairment is related to tau pathology and neuroinflammation in Alzheimer's disease
嗅觉障碍与阿尔茨海默病中的 tau 蛋白病理学和神经炎症有关
  • DOI:
    10.1101/2020.08.31.20183558
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Julia Klein;Xinyu Yan;Aubrey Johnson;Zeljko Tomljanovic;James Zou;Krista Polly;L. Honig;A. Brickman;Y. Stern;D. Devanand;Seonjoo Lee;W. Kreisl
  • 通讯作者:
    W. Kreisl

James Zou的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('James Zou', 18)}}的其他基金

AF: MEDIUM: Collaborative Research: Foundations of Adaptive Data Analysis
AF:中:协作研究:自适应数据分析的基础
  • 批准号:
    1763191
  • 财政年份:
    2018
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Continuing Grant
CRII: III: Robust Machine Learning Methods for Messy Data
CRII:III:针对杂乱数据的鲁棒机器学习方法
  • 批准号:
    1657155
  • 财政年份:
    2017
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant

相似海外基金

Addressing Surgical Disparities at the Root; Working to improve diversity in the surgical workforce
从根本上解决手术差异;
  • 批准号:
    10639471
  • 财政年份:
    2023
  • 资助金额:
    $ 49.99万
  • 项目类别:
Enabling Older Adults to 'LiveWell' with Advanced Heart Failure: Development of a Palliative Rehabilitation Model
让患有晚期心力衰竭的老年人“活得更好”:姑息康复模型的开发
  • 批准号:
    10663457
  • 财政年份:
    2023
  • 资助金额:
    $ 49.99万
  • 项目类别:
Optimizing the Implementation of Whole Health Coaching for Veterans with COPD
优化患有慢性阻塞性肺病的退伍军人的整体健康指导的实施
  • 批准号:
    10634783
  • 财政年份:
    2023
  • 资助金额:
    $ 49.99万
  • 项目类别:
HARC: HIV accessory and regulatory complexes
HARC:HIV 附件和调节复合体
  • 批准号:
    10506980
  • 财政年份:
    2022
  • 资助金额:
    $ 49.99万
  • 项目类别:
CAREER: Enabling Progressive Data Analytics for High Performance Computing: Algorithms and System Support
职业:实现高性能计算的渐进式数据分析:算法和系统支持
  • 批准号:
    2144403
  • 财政年份:
    2022
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了