扫一扫下载APP

下载APP

调研领500喵币

免费领取喵币

会员中心

开通猫会员

联系客服

使用教程

版本更新

ID: {{ userInfo.uid }}

复制

会员有效期至{{dayjs(userInfo?.membership_time * 1000).format('YYYY.MM.DD')}}

开通会员尊享 16+ 权益

智能选题

智能标书

加赠喵币

更多特权

剩余喵币

充值

{{userInfo.over_mew_coin || 0}}喵币将在本周失效

专属邀请码

复制

邀好友注册得200喵币/人任务中心

任务中心

个人中心

退出账号

刷新

登录即代表您同意并遵守《隐私协议》

为了保证账户安全，请在
微信「猫眼课题宝」内点击授权

重新扫码

刷新

登录即代表您同意并遵守《隐私协议》

账号注册

您好~为了给您提供更精准的分析体验，需完善基础信息！所有信息100%保密，请放心填写！
24H内注册成功得【300喵币】，用于功能体验可用于智能选题、智能标书、文献分析等功能解锁。

立即使用

切换微信登录

*注：建议或bug反馈被采纳后获得{{feedback_mew_coin}}喵币奖励，请关注公众号模版消息通知

取消

提交

已收到您的反馈，我们会尽快处理。若内容被采纳你将获得{{feedback_mew_coin}}喵币奖励。请关注《猫眼课题宝》消息通知。

喵币已到账！

*喵币用于产品体验解锁使用，有效期 30 天

在猫眼课题宝您可以：

立即体验

微信扫码添加小助理，回复“调研”
领取调研问卷

首次添加还可额外获得
{{customer_mew_coin}}喵币奖励哦！

完成问卷填写，立得{{question_mew_coin}}喵币奖励

永久回看权已生效！

直播主题

《{{latestCourse?.name}}》

立即去查看

7天猫会员

有效期至：{{dayjs(userInfo.membership_time * 1000).format('YYYY-MM-DD HH:mm')}}

已送您“7天会员体验卡+500喵币”

次数升级

享智能标书等多功能月解锁次数1次

10次

优享折扣

获会员期内充值喵币 8折等3大折扣

开心收下

永久回看权已生效！

课程

《{{giftRes?.img}}》

立即去查看

永久回看权已生效！

课程

《{{receiveTrainingCourseInfo?.name}}》

立即去查看

立即体验

猫会员

（全方位提升课题决策能力）

喵币充值

会员专属

升级猫会员：购买喵币享 8 折优惠

免费领最高 6W 喵币

请先阅读
服务协议并同意

扫码添加「专属客服」
了解团购优惠方案

客服在线时间：工作日9:00-18:00

￥

{{isVip ? '已省' : '立省'}}{{currentInfo?.discount_price}}元

支持：

支付宝/

微信

请阅读并同意《猫眼课题宝服务协议》

*购买后不支持退

开具发票

常见问题

会员权益说明

升级会员

尊享16+权益

HOT

智能选题

HOT

智能标书

基金检索

PDF

结题报告下载

立项课题分析

学科趋势分析

NEW

文献分析

科研课程

·查看权益对比·

返回开通

会员权益对比

权益分类

功能权益

普通用户

{{item.name}}会员

- 微信扫一扫 -

请添加您的「专属会员管家」
提供专属会员服务

喵ID：slCusx免责声明

What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions

您的数据对 GPT 有何价值？

基本信息

DOI：

发表时间：

2024

期刊：

arXiv.org

影响因子：

通讯作者：

Eric Xing

中科院分区：

文献类型：

作者： Sang Keun Choe;Hwijeen Ahn;Juhan Bae;Kewen Zhao;Minsoo Kang;Youngseog Chung;Adithya Pratapa;W. Neiswanger;Emma Strubell;Teruko Mitamura;Jeff Schneider;Eduard Hovy;Roger Grosse;Eric Xing

研究方向： --

MeSH主题词： --

关键词： --

来源链接：pubmed详情页地址

文献摘要

Large language models (LLMs) are trained on a vast amount of human-written data, but data providers often remain uncredited. In response to this issue, data valuation (or data attribution), which quantifies the contribution or value of each data to the model output, has been discussed as a potential solution. Nevertheless, applying existing data valuation methods to recent LLMs and their vast training datasets has been largely limited by prohibitive compute and memory costs. In this work, we focus on influence functions, a popular gradient-based data valuation method, and significantly improve its scalability with an efficient gradient projection strategy called LoGra that leverages the gradient structure in backpropagation. We then provide a theoretical motivation of gradient projection approaches to influence functions to promote trust in the data valuation process. Lastly, we lower the barrier to implementing data valuation systems by introducing LogIX, a software package that can transform existing training code into data valuation code with minimal effort. In our data valuation experiments, LoGra achieves competitive accuracy against more expensive baselines while showing up to 6,500x improvement in throughput and 5x reduction in GPU memory usage when applied to Llama3-8B-Instruct and the 1B-token dataset.

大型语言模型（LLMS）经过大量人工编写的数据进行培训，但数据提供商通常仍然没有得到认可。为了应对此问题，已将数据评估（或数据归因）量化，该问题量化了每个数据对模型输出的贡献或价值，已被讨论为潜在的解决方案。然而，将现有的数据评估方法应用于最近的LLM及其广泛的培训数据集受到过度限制的计算和记忆成本。在这项工作中，我们专注于影响功能，这是一种流行的基于梯度的数据评估方法，并通过称为Logra的有效梯度投影策略可显着提高其可扩展性，该策略称为LOGRA，该策略利用了反向传播中的梯度结构。然后，我们提供了梯度投影方法的理论动机，以影响功能以促进对数据评估过程的信任。最后，我们通过引入Logix来降低实现数据评估系统的障碍，该软件包可以将现有的培训代码转换为数据评估代码，并以最小的努力将其转换为数据评估代码。在我们的数据估值实验中，Logra可针对更昂贵的基线实现竞争精确性，同时将吞吐量提高了6,500倍，而GPU存储器使用率则降低了5倍，而GPU存储器的使用情况则应用于LLAMA3-8B教学和1B-Token DataSet。

参考文献

被引文献

Data Banzhaf: A Robust Data Valuation Framework for Machine Learning

DOI：

发表时间：

2022-05

期刊：

影响因子：

作者：

Jiachen T. Wang;R. Jia

通讯作者：

Jiachen T. Wang;R. Jia

Influence Functions in Deep Learning Are Fragile

DOI：

发表时间：

2020-06

期刊：

ArXiv

影响因子：

作者：

S. Basu;Phillip E. Pope;S. Feizi

通讯作者：

S. Basu;Phillip E. Pope;S. Feizi

Data-Sharing Markets: Model, Protocol, and Algorithms to Incentivize the Formation of Data-Sharing Consortia

数据共享市场：激励数据共享联盟形成的模型、协议和算法

DOI：

发表时间：

2023

期刊：

Proceedings ACMSIGMOD International Conference on Management of Data

影响因子：

作者：

Raul Castro Fernandez

通讯作者：

Raul Castro Fernandez

Impact of Pretraining Term Frequencies on Few-Shot Numerical Reasoning

预训练术语频率对少样本数值推理的影响

DOI：

10.18653/v1/2022.findings-emnlp.59

发表时间：

2022

期刊：

Findings of the Association for Computational Linguistics: EMNLP 2022

影响因子：

作者：

Razeghi, Yasaman;Logan IV, Robert L;Gardner, Matt;Singh, Sameer

通讯作者：

Singh, Sameer

数据更新时间：{{ references.updateTime }}

Eric Xing

通讯地址:

所属机构:

电子邮件地址：

免责声明

1、猫眼课题宝专注于为科研工作者提供省时、高效的文献资源检索和预览服务；

2、网站中的文献信息均来自公开、合规、透明的互联网文献查询网站，可以通过页面中的“来源链接”跳转数据网站。

3、在猫眼课题宝点击“求助全文”按钮，发布文献应助需求时求助者需要支付50喵币作为应助成功后的答谢给应助者，发送到用助者账户中。若文献求助失败支付的50喵币将退还至求助者账户中。所支付的喵币仅作为答谢，而不是作为文献的“购买”费用，平台也不从中收取任何费用，

4、特别提醒用户通过求助获得的文献原文仅用户个人学习使用，不得用于商业用途，否则一切风险由用户本人承担；

5、本平台尊重知识产权，如果权利所有者认为平台内容侵犯了其合法权益，可以通过本平台提供的版权投诉渠道提出投诉。一经核实，我们将立即采取措施删除/下架/断链等措施。

我已知晓

会员权益说明：

What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions

您的数据对 GPT 有何价值？

基本信息

文献摘要

求助须知：