喵ID:slCusx免责声明

What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions

您的数据对 GPT 有何价值?

基本信息

DOI:
--
发表时间:
2024
期刊:
arXiv.org
影响因子:
--
通讯作者:
Eric Xing
中科院分区:
文献类型:
--
作者: Sang Keun Choe;Hwijeen Ahn;Juhan Bae;Kewen Zhao;Minsoo Kang;Youngseog Chung;Adithya Pratapa;W. Neiswanger;Emma Strubell;Teruko Mitamura;Jeff Schneider;Eduard Hovy;Roger Grosse;Eric Xing研究方向: -- MeSH主题词: --
关键词: --
来源链接:pubmed详情页地址

文献摘要

Large language models (LLMs) are trained on a vast amount of human-written data, but data providers often remain uncredited. In response to this issue, data valuation (or data attribution), which quantifies the contribution or value of each data to the model output, has been discussed as a potential solution. Nevertheless, applying existing data valuation methods to recent LLMs and their vast training datasets has been largely limited by prohibitive compute and memory costs. In this work, we focus on influence functions, a popular gradient-based data valuation method, and significantly improve its scalability with an efficient gradient projection strategy called LoGra that leverages the gradient structure in backpropagation. We then provide a theoretical motivation of gradient projection approaches to influence functions to promote trust in the data valuation process. Lastly, we lower the barrier to implementing data valuation systems by introducing LogIX, a software package that can transform existing training code into data valuation code with minimal effort. In our data valuation experiments, LoGra achieves competitive accuracy against more expensive baselines while showing up to 6,500x improvement in throughput and 5x reduction in GPU memory usage when applied to Llama3-8B-Instruct and the 1B-token dataset.
大型语言模型(LLMS)经过大量人工编写的数据进行培训,但数据提供商通常仍然没有得到认可。为了应对此问题,已将数据评估(或数据归因)量化,该问题量化了每个数据对模型输出的贡献或价值,已被讨论为潜在的解决方案。然而,将现有的数据评估方法应用于最近的LLM及其广泛的培训数据集受到过度限制的计算和记忆成本。在这项工作中,我们专注于影响功能,这是一种流行的基于梯度的数据评估方法,并通过称为Logra的有效梯度投影策略可显着提高其可扩展性,该策略称为LOGRA,该策略利用了反向传播中的梯度结构。然后,我们提供了梯度投影方法的理论动机,以影响功能以促进对数据评估过程的信任。最后,我们通过引入Logix来降低实现数据评估系统的障碍,该软件包可以将现有的培训代码转换为数据评估代码,并以最小的努力将其转换为数据评估代码。在我们的数据估值实验中,Logra可针对更昂贵的基线实现竞争精确性,同时将吞吐量提高了6,500倍,而GPU存储器使用率则降低了5倍,而GPU存储器的使用情况则应用于LLAMA3-8B教学和1B-Token DataSet。
参考文献(5)
被引文献(0)
Data Banzhaf: A Robust Data Valuation Framework for Machine Learning
DOI:
发表时间:
2022-05
期刊:
影响因子:
0
作者:
Jiachen T. Wang;R. Jia
通讯作者:
Jiachen T. Wang;R. Jia
Influence Functions in Deep Learning Are Fragile
DOI:
发表时间:
2020-06
期刊:
ArXiv
影响因子:
0
作者:
S. Basu;Phillip E. Pope;S. Feizi
通讯作者:
S. Basu;Phillip E. Pope;S. Feizi
Data-Sharing Markets: Model, Protocol, and Algorithms to Incentivize the Formation of Data-Sharing Consortia
数据共享市场:激励数据共享联盟形成的模型、协议和算法
DOI:
发表时间:
2023
期刊:
Proceedings ACMSIGMOD International Conference on Management of Data
影响因子:
0
作者:
Raul Castro Fernandez
通讯作者:
Raul Castro Fernandez
Impact of Pretraining Term Frequencies on Few-Shot Numerical Reasoning
预训练术语频率对少样本数值推理的影响
DOI:
10.18653/v1/2022.findings-emnlp.59
发表时间:
2022
期刊:
Findings of the Association for Computational Linguistics: EMNLP 2022
影响因子:
0
作者:
Razeghi, Yasaman;Logan IV, Robert L;Gardner, Matt;Singh, Sameer
通讯作者:
Singh, Sameer

数据更新时间:{{ references.updateTime }}

Eric Xing
通讯地址:
--
所属机构:
--
电子邮件地址:
--
免责声明免责声明
1、猫眼课题宝专注于为科研工作者提供省时、高效的文献资源检索和预览服务;
2、网站中的文献信息均来自公开、合规、透明的互联网文献查询网站,可以通过页面中的“来源链接”跳转数据网站。
3、在猫眼课题宝点击“求助全文”按钮,发布文献应助需求时求助者需要支付50喵币作为应助成功后的答谢给应助者,发送到用助者账户中。若文献求助失败支付的50喵币将退还至求助者账户中。所支付的喵币仅作为答谢,而不是作为文献的“购买”费用,平台也不从中收取任何费用,
4、特别提醒用户通过求助获得的文献原文仅用户个人学习使用,不得用于商业用途,否则一切风险由用户本人承担;
5、本平台尊重知识产权,如果权利所有者认为平台内容侵犯了其合法权益,可以通过本平台提供的版权投诉渠道提出投诉。一经核实,我们将立即采取措施删除/下架/断链等措施。
我已知晓