CAREER: Data Valuation in the Wild: Theories, Algorithms, and Applications

职业:野外数据评估:理论、算法和应用

基本信息

项目摘要

Data are essential ingredients for building machine learning (ML) applications. The ability to quantify and measure the value of data is critical to the entire ML lifecycle: from identifying useful data sources, to setting propriety over samples during training, and to interpreting the reason why certain behaviors of a model emerge during deployment. The potential of data valuation has been observed in many applications over the past few years. However, intermixed with these positive results is a vast array of applications for which existing data valuation techniques are not yet applicable, or too expensive to execute, or produce valuation results with substantial uncertainty. This project aims to enable data valuation to overcome applicability, scalability, and reproducibility challenges and transition to a practical and reliable tool for a data-centric future. This work will have a broad impact on society in terms of facilitating automated data quality management, designing incentives for data sharing, and improving the robustness of ML applications. This project will train undergraduate students to solve ML problems from both an algorithmic and a data quality perspective, while in the meantime creating useful school-age learning modules implemented at local, regional, and global scales. The project consists of four research tasks to advance data valuation from different dimensions: 1) designing data valuation techniques that are robust to overcome the randomness in modern ML training algorithms; 2) developing new frameworks to determine the value of data samples given limited information about downstream learning tasks; 3) investigating principled methods to value heterogeneous and streaming data; and 4) creating and open-sourcing a unified multi-faceted evaluation platform to spur future advances in more complex data valuation. The proposed techniques are implemented and validated on a variety of high-impact real-world applications, including autonomous driving, energy-efficient buildings, and conversational artificial intelligence.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
数据是构建机器学习(ML)应用程序的重要成分。量化和衡量数据价值的能力对整个ML生命周期至关重要:从识别有用的数据源到在训练过程中对样本设置礼节,以及解释在部署过程中某些模型的某些行为的原因。在过去的几年中,在许多应用中都观察到了数据评估的潜力。但是,与这些积极结果混合是一系列应用程序,现有的数据评估技术尚不适用,或者太昂贵而无法执行或产生具有很大不确定性的估值结果。该项目旨在使数据评估能够克服适用性,可伸缩性和可重复性挑战,并过渡到以数据为中心的实用和可靠的工具。这项工作将在促进自动数据质量管理,为数据共享设计激励措施以及改善ML应用程序的鲁棒性方面对社会产生广泛的影响。该项目将培训本科生从算法和数据质量的角度解决ML问题,同时创建在本地,区域和全球规模实施的有用的学龄儿童学习模块。该项目由四个研究任务组成,以从不同的维度中提高数据估值:1)设计数据估值技术,这些技术可靠,以克服现代ML培训算法的随机性; 2)开发新框架以确定有关下游学习任务的有限信息,以确定数据样本的价值; 3)研究有原则的方法来重视异质和流数据; 4)创建和开源一个统一的多面评估平台,以刺激更复杂的数据评估未来进步。所提出的技术将在各种高影响现实世界的应用程序上实施和验证,包括自主驾驶,节能建筑物和对话人工智能。该奖项反映了NSF的法定任务,并被认为是值得通过基金会的知识分子和更广泛的影响来通过评估来通过评估来支持的。

项目成果

期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
2D-Shapley: A Framework for Fragmented Data Valuation
  • DOI:
    10.48550/arxiv.2306.10473
  • 发表时间:
    2023-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhihong Liu;H. Just;Xiangyu Chang;X. Chen;R. Jia
  • 通讯作者:
    Zhihong Liu;H. Just;Xiangyu Chang;X. Chen;R. Jia
LAVA: Data Valuation without Pre-Specified Learning Algorithms
  • DOI:
    10.48550/arxiv.2305.00054
  • 发表时间:
    2023-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    H. Just;Feiyang Kang;Jiachen T. Wang;Yi Zeng;Myeongseob Ko;Ming Jin;R. Jia
  • 通讯作者:
    H. Just;Feiyang Kang;Jiachen T. Wang;Yi Zeng;Myeongseob Ko;Ming Jin;R. Jia
Data Banzhaf: A Robust Data Valuation Framework for Machine Learning
  • DOI:
  • 发表时间:
    2022-05
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;R. Jia
  • 通讯作者:
    Jiachen T. Wang;R. Jia
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Ruoxi Jia其他文献

Data Shapley in One Training Run
一次训练中的数据 Shapley
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;Prateek Mittal;Dawn Song;Ruoxi Jia
  • 通讯作者:
    Ruoxi Jia
Efficient Data Shapley for Weighted Nearest Neighbor Algorithms
用于加权最近邻算法的高效数据 Shapley
  • DOI:
    10.48550/arxiv.2401.11103
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;Prateek Mittal;Ruoxi Jia
  • 通讯作者:
    Ruoxi Jia
One-Round Active Learning through Data Utility Learning and Proxy Models
通过数据效用学习和代理模型进行一轮主动学习
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;Si Chen;Ruoxi Jia;Virginia Tech;T. Jiachen;Wang
  • 通讯作者:
    Wang
BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models
BEEAR:基于嵌入的对抗性删除指令调整语言模型中的安全后门
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yi Zeng;Weiyu Sun;Tran Ngoc Huynh;Dawn Song;Bo Li;Ruoxi Jia
  • 通讯作者:
    Ruoxi Jia
AI Risk Categorization Decoded (AIR 2024): From Government Regulations to Corporate Policies
人工智能风险分类解读(AIR 2024):从政府法规到企业政策
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yi Zeng;Kevin Klyman;Andy Zhou;Yu Yang;Minzhou Pan;Ruoxi Jia;Dawn Song;Percy Liang;Bo Li
  • 通讯作者:
    Bo Li

Ruoxi Jia的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Ruoxi Jia', 18)}}的其他基金

III: Medium: Towards Inclusive Recommendation Systems with Stakeholder Alignment
III:中:迈向利益相关者联盟的包容性推荐系统
  • 批准号:
    2312794
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
Collaborative Research: RI: Small: Foundations of Few-Round Active Learning
协作研究:RI:小型:少轮主动学习的基础
  • 批准号:
    2313130
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant

相似国自然基金

基于应用场景的数据估值与价值分配机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
企业数据资产的价值实现路径和估值方法
  • 批准号:
    72241425
  • 批准年份:
    2022
  • 资助金额:
    19.00 万元
  • 项目类别:
    专项项目
企业数据资产的价值实现路径和估值方法
  • 批准号:
    72241430
  • 批准年份:
    2022
  • 资助金额:
    20.00 万元
  • 项目类别:
    专项项目
基于应用场景的数据估值与价值分配机制研究
  • 批准号:
    72201160
  • 批准年份:
    2022
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目
基于大数据的“第四张报表”构建及其应用研究
  • 批准号:
    92146004
  • 批准年份:
    2021
  • 资助金额:
    60.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

Reward Valuation and Suicidal Behavior in High-Risk Adolescents
高危青少年的奖励评估和​​自杀行为
  • 批准号:
    10655103
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
Fundamental Technologies for Machine Learning Centric Data Trading
以机器学习为中心的数据交易的基础技术
  • 批准号:
    22KJ1721
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
The Role of Medial Prefrontal Cortex in Context-Dependent Valuation and Decision Processes
内侧前额叶皮层在上下文相关的评估和决策过程中的作用
  • 批准号:
    10658093
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
Heterogeneous Graph Neural Network based Federated Mobile Crowdsensing
基于异构图神经网络的联合移动群智感知
  • 批准号:
    22H03573
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
'My Nest Box' - A data-drive AI-powered online home selling portal with automated valuation.
“My Nest Box”——一个数据驱动、人工智能驱动的在线房屋销售门户,具有自动估价功能。
  • 批准号:
    60287
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Study
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了