当前位置: X-MOL 学术arXiv.cs.RO › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Nested Mixture of Experts: Cooperative and Competitive Learning of Hybrid Dynamical System
arXiv - CS - Robotics Pub Date : 2020-11-20 , DOI: arxiv-2011.10605
Junhyeok Ahn, Luis Sentis

Model-based reinforcement learning (MBRL) algorithms can attain significant sample efficiency but require an appropriate network structure to represent system dynamics. Current approaches include white-box modeling using analytic parameterizations and black-box modeling using deep neural networks. However, both can suffer from a bias-variance trade-off in the learning process, and neither provides a structured method for injecting domain knowledge into the network. As an alternative, gray-box modeling leverages prior knowledge in neural network training but only for simple systems. In this paper, we devise a nested mixture of experts (NMOE) for representing and learning hybrid dynamical systems. An NMOE combines both white-box and black-box models while optimizing bias-variance trade-off. Moreover, an NMOE provides a structured method for incorporating various types of prior knowledge by training the associative experts cooperatively or competitively. The prior knowledge includes information on robots' physical contacts with the environments as well as their kinematic and dynamic properties. In this paper, we demonstrate how to incorporate prior knowledge into our NMOE in various continuous control domains, including hybrid dynamical systems. We also show the effectiveness of our method in terms of data-efficiency, generalization to unseen data, and bias-variance trade-off. Finally, we evaluate our NMOE using an MBRL setup, where the model is integrated with a model-based controller and trained online.

中文翻译:

专家混合嵌套:混合动力系统的合作与竞争学习

基于模型的强化学习(MBRL)算法可以实现显着的样本效率,但是需要适当的网络结构来表示系统动态。当前的方法包括使用解析参数化的白盒建模和使用深度神经网络的黑盒建模。然而,两者都可能在学习过程中遭受偏差方差的折衷,并且都没有提供用于将领域知识注入网络的结构化方法。作为替代方案,灰盒建模利用了神经网络训练中的先验知识,但仅适用于简单的系统。在本文中,我们设计了一个嵌套的专家混合(NMOE)来表示和学习混合动力系统。NMOE结合了白盒模型和黑盒模型,同时优化了偏差方差的权衡。此外,NMOE提供了一种结构化的方法,可以通过合作或竞争地培训关联专家来整合各种类型的先验知识。先验知识包括有关机器人与环境的物理接触及其运动和动态特性的信息。在本文中,我们演示了如何在各种连续控制领域(包括混合动力系统)中将先验知识纳入我们的NMOE。我们还显示了我们的方法在数据效率,泛化到看不见的数据以及偏差方差折中方面的有效性。最后,我们使用MBRL设置评估我们的NMOE,其中该模型与基于模型的控制器集成在一起并且在线进行了培训。先验知识包括有关机器人与环境的物理接触及其运动和动态特性的信息。在本文中,我们演示了如何将各种混合控制系统(包括混合动力系统)中的先验知识纳入我们的NMOE。我们还显示了我们的方法在数据效率,泛化到看不见的数据以及偏差方差折中方面的有效性。最后,我们使用MBRL设置评估我们的NMOE,其中该模型与基于模型的控制器集成在一起并且在线进行了培训。先验知识包括有关机器人与环境的物理接触及其运动和动态特性的信息。在本文中,我们演示了如何将各种混合控制系统(包括混合动力系统)中的先验知识纳入我们的NMOE。我们还显示了我们的方法在数据效率,泛化到看不见的数据以及偏差方差折中方面的有效性。最后,我们使用MBRL设置评估我们的NMOE,其中该模型与基于模型的控制器集成在一起并且在线进行了培训。我们还显示了我们的方法在数据效率,泛化到看不见的数据以及偏差方差折中方面的有效性。最后,我们使用MBRL设置评估我们的NMOE,其中该模型与基于模型的控制器集成在一起并且在线进行了培训。我们还显示了我们的方法在数据效率,泛化到看不见的数据以及偏差方差折中方面的有效性。最后,我们使用MBRL设置评估我们的NMOE,其中该模型与基于模型的控制器集成在一起并且在线进行了培训。
更新日期:2020-11-25
down
wechat
bug