Reinforcement Learning for Finite Horizons (ReLeaF)
有限视野强化学习 (ReLeaF)
基本信息
- 批准号:EP/X021513/1
- 负责人:
- 金额:$ 26万
- 依托单位:
- 依托单位国家:英国
- 项目类别:Fellowship
- 财政年份:2022
- 资助国家:英国
- 起止时间:2022 至 无数据
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
Reinforcement learning (RL) is a technique for learning how to take actions in an initially unknown environment in order to optimise an expected outcome, which is modelled through the notion of maximising an accumulative reward. Learning algorithms with goals written as temporal specifications have three key ingredients: the translation from the specification to appropriate finite automata; the translation of these finite automata to reward structures, such that a strategy that provides optimal rewards is guaranteed to provide optimal control; and a wrapper into a discounting scheme that, for appropriate parameters, will ensure that a learner converge to an optimal strategy.We will consider the RL problems for a popular specification language used in automation and motion planning, the finite horizon linear time temporal logic LTLf. In particular, we will study model-free RL algorithms, which are more suitable to real-world applications where the behaviour of the environment is hard to predict, than its model-based counterpart. We will propose learning algorithms that provide translations from finite horizon LTL to reward structures with formal guarantees of satisfying the given goals for environments modelled as Markov Decision Processes (MDPs). We will extend our techniques to infinite-state MDPs, including variations where formal guarantees can be provided -- like countable, finitely branching MDPs -- and study conditions for our techniques to provide guarantees in more general classes, such as smoothness guarantees for compact MDPs. We will complement these lines of research by looking at goals with constraints. This is effectively considering prioritised goals, where meeting safety constraints takes precedence, while other properties -- such as efficiency -- are considered as tie-breakers among strategies that provide the same safety guarantees.
强化学习 (RL) 是一种学习如何在最初未知的环境中采取行动以优化预期结果的技术,它通过最大化累积奖励的概念进行建模。将目标写为时间规范的学习算法具有三个关键要素:从规范到适当的有限自动机的转换;将这些有限自动机转换为奖励结构,从而保证提供最佳奖励的策略能够提供最佳控制;以及折扣方案的包装器,对于适当的参数,该方案将确保学习器收敛到最佳策略。我们将考虑自动化和运动规划中使用的流行规范语言(有限水平线性时间时序逻辑 LTLf)的 RL 问题。特别是,我们将研究无模型强化学习算法,与基于模型的对应算法相比,该算法更适合环境行为难以预测的现实世界应用。我们将提出学习算法,提供从有限水平 LTL 到奖励结构的转换,并正式保证满足建模为马尔可夫决策过程 (MDP) 的环境的给定目标。我们将把我们的技术扩展到无限状态 MDP,包括可以提供形式保证的变体(例如可数、有限分支 MDP),并研究我们的技术在更一般类别中提供保证的条件,例如紧凑 MDP 的平滑保证。我们将通过考虑有限制的目标来补充这些研究方向。这是有效地考虑优先目标,其中满足安全约束优先,而其他属性(例如效率)被视为提供相同安全保证的策略之间的决定性因素。
项目成果
期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Tools and Algorithms for the Construction and Analysis of Systems - 29th International Conference, TACAS 2023, Held as Part of the European Joint Conferences on Theory and Practice of Software, ETAPS 2023, Paris, France, April 22-27, 2023, Proceedings, Part I
系统构建和分析的工具和算法 - 第 29 届国际会议,TACAS 2023,作为欧洲软件理论与实践联合会议的一部分举行,ETAPS 2023,法国巴黎,2023 年 4 月 22-27 日,会议记录,部分
- DOI:10.1007/978-3-031-30823-9_28
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Park S
- 通讯作者:Park S
Automated Technology for Verification and Analysis - 21st International Symposium, ATVA 2023, Singapore, October 24-27, 2023, Proceedings, Part I
验证和分析自动化技术 - 第 21 届国际研讨会,ATVA 2023,新加坡,2023 年 10 月 24-27 日,会议记录,第一部分
- DOI:10.1007/978-3-031-45329-8_3
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Li Y
- 通讯作者:Li Y
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Sven Schewe其他文献
Hydrogen permeation and embrittlement behavior of ferritic SOEC/SOFC interconnect candidates
铁素体 SOEC/SOFC 互连候选材料的氢渗透和脆化行为
- DOI:
10.1016/j.ijhydene.2024.03.337 - 发表时间:
2024 - 期刊:
- 影响因子:7.2
- 作者:
David Kniep;Sven Schewe;Mario Rudolphi;Mathias Christian Galetz - 通讯作者:
Mathias Christian Galetz
Sven Schewe的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Sven Schewe', 18)}}的其他基金
TRUSTED: SecuriTy SummaRies for SecUre SofTwarE Development
值得信赖:安全软件开发的安全摘要
- 批准号:
EP/X03688X/1 - 财政年份:2023
- 资助金额:
$ 26万 - 项目类别:
Research Grant
Valuation Structures for Infinite Duration Games
无限期游戏的估值结构
- 批准号:
EP/Y027663/1 - 财政年份:2023
- 资助金额:
$ 26万 - 项目类别:
Fellowship
Solving Parity Games in Theory and Practice
从理论和实践中解决平价博弈
- 批准号:
EP/P020909/1 - 财政年份:2017
- 资助金额:
$ 26万 - 项目类别:
Research Grant
Synthesis and Verification in Markov Game Structures
马尔可夫博弈结构的综合与验证
- 批准号:
EP/H046623/1 - 财政年份:2010
- 资助金额:
$ 26万 - 项目类别:
Research Grant
相似国自然基金
基于深度学习和恰当正交分解的降阶时空有限元法研究
- 批准号:12301494
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
有限混合模型的分布式学习方法与理论性质
- 批准号:12301391
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于深度学习与双尺度有限元方法融合的泡沫铝结构冲击性能研究
- 批准号:
- 批准年份:2022
- 资助金额:54 万元
- 项目类别:面上项目
有限样本下城轨列车轴箱轴承可持续学习剩余寿命预测方法研究
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于机器学习和晶体塑形有限元的多尺度“孪晶-反孪晶-再孪晶”机理研究
- 批准号:
- 批准年份:2020
- 资助金额:24 万元
- 项目类别:
相似海外基金
A hybrid Deep Learning-assisted Finite Element technique to predict dynamic failure evolution in advanced ceramics (DeLFE)
用于预测先进陶瓷动态失效演化的混合深度学习辅助有限元技术 (DeLFE)
- 批准号:
EP/Y004671/1 - 财政年份:2024
- 资助金额:
$ 26万 - 项目类别:
Research Grant
Toward Patient-Specific Computational Modeling of Tricuspid Valve Repair in Hypoplastic Left Heart Syndrome
左心发育不全综合征三尖瓣修复的患者特异性计算模型
- 批准号:
10643122 - 财政年份:2023
- 资助金额:
$ 26万 - 项目类别:
Design of auxetic metamaterials using deep learning
使用深度学习设计拉胀超材料
- 批准号:
22KJ0407 - 财政年份:2023
- 资助金额:
$ 26万 - 项目类别:
Grant-in-Aid for JSPS Fellows
Accelerated Finite-time Learning and Control in Cyber-Physical Systems
信息物理系统中的加速有限时间学习和控制
- 批准号:
DP230101107 - 财政年份:2023
- 资助金额:
$ 26万 - 项目类别:
Discovery Projects
Medical Device Design and Innovation; Orthopaedic Implant Failure Analysis and Redesign
医疗器械设计与创新;
- 批准号:
10409163 - 财政年份:2022
- 资助金额:
$ 26万 - 项目类别: