喵ID:slCusx免责声明

What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions

您的数据对 GPT 有何价值?

基本信息

DOI:
--
发表时间:
2024
期刊:
arXiv.org
影响因子:
--
通讯作者:
Eric Xing
中科院分区:
文献类型:
--
作者: Sang Keun Choe;Hwijeen Ahn;Juhan Bae;Kewen Zhao;Minsoo Kang;Youngseog Chung;Adithya Pratapa;W. Neiswanger;Emma Strubell;Teruko Mitamura;Jeff Schneider;Eduard Hovy;Roger Grosse;Eric Xing研究方向: -- MeSH主题词: --
关键词: --
来源链接:pubmed详情页地址

文献摘要

Large language models (LLMs) are trained on a vast amount of human-written data, but data providers often remain uncredited. In response to this issue, data valuation (or data attribution), which quantifies the contribution or value of each data to the model output, has been discussed as a potential solution. Nevertheless, applying existing data valuation methods to recent LLMs and their vast training datasets has been largely limited by prohibitive compute and memory costs. In this work, we focus on influence functions, a popular gradient-based data valuation method, and significantly improve its scalability with an efficient gradient projection strategy called LoGra that leverages the gradient structure in backpropagation. We then provide a theoretical motivation of gradient projection approaches to influence functions to promote trust in the data valuation process. Lastly, we lower the barrier to implementing data valuation systems by introducing LogIX, a software package that can transform existing training code into data valuation code with minimal effort. In our data valuation experiments, LoGra achieves competitive accuracy against more expensive baselines while showing up to 6,500x improvement in throughput and 5x reduction in GPU memory usage when applied to Llama3-8B-Instruct and the 1B-token dataset.
大型语言模型(llm)是在大量的人类编写的数据上进行训练的,但数据提供者往往没有得到认可。针对这个问题,数据评估(或数据归因)作为一种潜在的解决方案进行了讨论,它量化了每个数据对模型输出的贡献或价值。然而,将现有的数据评估方法应用于最近的法学硕士及其庞大的训练数据集在很大程度上受到高昂的计算和内存成本的限制。在这项工作中,我们专注于影响函数,一种流行的基于梯度的数据评估方法,并通过一种称为LoGra的高效梯度投影策略显著提高其可扩展性,该策略利用了反向传播中的梯度结构。然后,我们提供了梯度投影方法的理论动机来影响函数,以促进数据评估过程中的信任。最后,我们通过引入LogIX降低了实现数据评估系统的障碍,LogIX是一个软件包,可以用最小的努力将现有的训练代码转换为数据评估代码。在我们的数据评估实验中,当应用于Llama3-8B-Instruct和1B-token数据集时,LoGra实现了与更昂贵的基线相比具有竞争力的准确性,同时显示吞吐量提高了6,500倍,GPU内存使用减少了5倍。
参考文献
被引文献
Data Banzhaf: A Robust Data Valuation Framework for Machine Learning
DOI:
发表时间:
2022-05
期刊:
影响因子:
0
作者:
Jiachen T. Wang;R. Jia
通讯作者:
Jiachen T. Wang;R. Jia
Influence Functions in Deep Learning Are Fragile
DOI:
发表时间:
2020-06
期刊:
ArXiv
影响因子:
0
作者:
S. Basu;Phillip E. Pope;S. Feizi
通讯作者:
S. Basu;Phillip E. Pope;S. Feizi
Impact of Pretraining Term Frequencies on Few-Shot Numerical Reasoning
预训练术语频率对少样本数值推理的影响
DOI:
10.18653/v1/2022.findings-emnlp.59
发表时间:
2022
期刊:
Findings of the Association for Computational Linguistics: EMNLP 2022
影响因子:
0
作者:
Razeghi, Yasaman;Logan IV, Robert L;Gardner, Matt;Singh, Sameer
通讯作者:
Singh, Sameer
Data-Sharing Markets: Model, Protocol, and Algorithms to Incentivize the Formation of Data-Sharing Consortia
数据共享市场:激励数据共享联盟形成的模型、协议和算法
DOI:
发表时间:
2023
期刊:
Proceedings ACMSIGMOD International Conference on Management of Data
影响因子:
0
作者:
Raul Castro Fernandez
通讯作者:
Raul Castro Fernandez

数据更新时间:{{ references.updateTime }}

Eric Xing
通讯地址:
--
所属机构:
--
电子邮件地址:
--
免责声明免责声明
1、猫眼课题宝专注于为科研工作者提供省时、高效的文献资源检索和预览服务;
2、网站中的文献信息均来自公开、合规、透明的互联网文献查询网站,可以通过页面中的“来源链接”跳转数据网站。
3、在猫眼课题宝点击“求助全文”按钮,发布文献应助需求时求助者需要支付50喵币作为应助成功后的答谢给应助者,发送到用助者账户中。若文献求助失败支付的50喵币将退还至求助者账户中。所支付的喵币仅作为答谢,而不是作为文献的“购买”费用,平台也不从中收取任何费用,
4、特别提醒用户通过求助获得的文献原文仅用户个人学习使用,不得用于商业用途,否则一切风险由用户本人承担;
5、本平台尊重知识产权,如果权利所有者认为平台内容侵犯了其合法权益,可以通过本平台提供的版权投诉渠道提出投诉。一经核实,我们将立即采取措施删除/下架/断链等措施。
我已知晓