喵ID:BqfCA2免责声明

On the Performance of Temporal Difference Learning With Neural Networks

基本信息

DOI:
10.48550/arxiv.2312.05397
发表时间:
2023-12
期刊:
ArXiv
影响因子:
--
通讯作者:
Haoxing Tian;I. Paschalidis;Alexander Olshevsky
中科院分区:
其他
文献类型:
--
作者: Haoxing Tian;I. Paschalidis;Alexander Olshevsky研究方向: -- MeSH主题词: --
关键词: --
来源链接:pubmed详情页地址

文献摘要

Neural Temporal Difference (TD) Learning is an approximate temporal difference method for policy evaluation that uses a neural network for function approximation. Analysis of Neural TD Learning has proven to be challenging. In this paper we provide a convergence analysis of Neural TD Learning with a projection onto $B(\theta_0, \omega)$, a ball of fixed radius $\omega$ around the initial point $\theta_0$. We show an approximation bound of $O(\epsilon) + \tilde{O} (1/\sqrt{m})$ where $\epsilon$ is the approximation quality of the best neural network in $B(\theta_0, \omega)$ and $m$ is the width of all hidden layers in the network.
神经时序差分(TD)学习是一种用于策略评估的近似时序差分方法,它使用神经网络进行函数逼近。对神经TD学习的分析已被证明具有挑战性。在本文中,我们对神经TD学习进行了收敛性分析,其中涉及到在$B(\theta_0, \omega)$上的投影,$B(\theta_0, \omega)$是围绕初始点$\theta_0$、半径为固定值$\omega$的球。我们展示了一个$O(\epsilon) + \tilde{O} (1/\sqrt{m})$的逼近界,其中$\epsilon$是$B(\theta_0, \omega)$中最佳神经网络的逼近质量,$m$是网络中所有隐藏层的宽度。
参考文献(26)
被引文献(3)

数据更新时间:{{ references.updateTime }}

Haoxing Tian;I. Paschalidis;Alexander Olshevsky
通讯地址:
--
所属机构:
--
电子邮件地址:
--
免责声明免责声明
1、猫眼课题宝专注于为科研工作者提供省时、高效的文献资源检索和预览服务;
2、网站中的文献信息均来自公开、合规、透明的互联网文献查询网站,可以通过页面中的“来源链接”跳转数据网站。
3、在猫眼课题宝点击“求助全文”按钮,发布文献应助需求时求助者需要支付50喵币作为应助成功后的答谢给应助者,发送到用助者账户中。若文献求助失败支付的50喵币将退还至求助者账户中。所支付的喵币仅作为答谢,而不是作为文献的“购买”费用,平台也不从中收取任何费用,
4、特别提醒用户通过求助获得的文献原文仅用户个人学习使用,不得用于商业用途,否则一切风险由用户本人承担;
5、本平台尊重知识产权,如果权利所有者认为平台内容侵犯了其合法权益,可以通过本平台提供的版权投诉渠道提出投诉。一经核实,我们将立即采取措施删除/下架/断链等措施。
我已知晓