当前位置: X-MOL 学术arXiv.cs.RO › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Continual Model-Based Reinforcement Learning with Hypernetworks
arXiv - CS - Robotics Pub Date : 2020-09-25 , DOI: arxiv-2009.11997
Yizhou Huang, Kevin Xie, Homanga Bharadhwaj and Florian Shkurti

Effective planning in model-based reinforcement learning (MBRL) and model-predictive control (MPC) relies on the accuracy of the learned dynamics model. In many instances of MBRL and MPC, this model is assumed to be stationary and is periodically re-trained from scratch on state transition experience collected from the beginning of environment interactions. This implies that the time required to train the dynamics model - and the pause required between plan executions - grows linearly with the size of the collected experience. We argue that this is too slow for lifelong robot learning and propose HyperCRL, a method that continually learns the encountered dynamics in a sequence of tasks using task-conditional hypernetworks. Our method has three main attributes: first, it enables constant-time dynamics learning sessions between planning and only needs to store the most recent fixed-size portion of the state transition experience; second, it uses fixed-capacity hypernetworks to represent non-stationary and task-aware dynamics; third, it outperforms existing continual learning alternatives that rely on fixed-capacity networks, and does competitively with baselines that remember an ever increasing coreset of past experience. We show that HyperCRL is effective in continual model-based reinforcement learning in robot locomotion and manipulation scenarios, such as tasks involving pushing and door opening. Our project website with code and videos is at this link http://rvl.cs.toronto.edu/blog/2020/hypercrl/

中文翻译:

使用超网络进行基于模型的持续强化学习

基于模型的强化学习 (MBRL) 和模型预测控制 (MPC) 中的有效规划依赖于所学动态模型的准确性。在 MBRL 和 MPC 的许多实例中,该模型被假定为静止的,并且会根据从环境交互开始时收集的状态转换经验从头开始定期重新训练。这意味着训练动态模型所需的时间 - 以及计划执行之间所需的停顿 - 随着所收集经验的大小呈线性增长。我们认为这对于终身机器人学习来说太慢了,并提出了 HyperCRL,这是一种使用任务条件超网络不断学习一系列任务中遇到的动态的方法。我们的方法具有三个主要属性:第一,它可以在计划之间实现恒定时间动态学习会话,并且只需要存储状态转换经验的最新固定大小部分;其次,它使用固定容量的超网络来表示非平稳和任务感知动态;第三,它优于依赖固定容量网络的现有持续学习替代方案,并且与记住不断增加的过去经验核心集的基线相比具有竞争力。我们表明 HyperCRL 在机器人运动和操纵场景中基于模型的持续强化学习中是有效的,例如涉及推动和开门的任务。我们带有代码和视频的项目网站位于此链接 http://rvl.cs.toronto.edu/blog/2020/hypercrl/ 它使用固定容量的超网络来表示非平稳和任务感知动态;第三,它优于依赖固定容量网络的现有持续学习替代方案,并且与记住不断增加的过去经验核心集的基线相比具有竞争力。我们表明 HyperCRL 在机器人运动和操纵场景中基于模型的持续强化学习中是有效的,例如涉及推动和开门的任务。我们带有代码和视频的项目网站位于此链接 http://rvl.cs.toronto.edu/blog/2020/hypercrl/ 它使用固定容量的超网络来表示非平稳和任务感知动态;第三,它优于依赖固定容量网络的现有持续学习替代方案,并且与记住不断增加的过去经验核心集的基线相比具有竞争力。我们表明 HyperCRL 在机器人运动和操纵场景中基于模型的持续强化学习中是有效的,例如涉及推动和开门的任务。我们带有代码和视频的项目网站位于此链接 http://rvl.cs.toronto.edu/blog/2020/hypercrl/ 我们表明 HyperCRL 在机器人运动和操纵场景中基于模型的持续强化学习中是有效的,例如涉及推动和开门的任务。我们带有代码和视频的项目网站位于此链接 http://rvl.cs.toronto.edu/blog/2020/hypercrl/ 我们表明 HyperCRL 在机器人运动和操纵场景中基于模型的持续强化学习中是有效的,例如涉及推动和开门的任务。我们带有代码和视频的项目网站位于此链接 http://rvl.cs.toronto.edu/blog/2020/hypercrl/
更新日期:2020-09-28
down
wechat
bug