当前位置: X-MOL 学术Neural Netw. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Encoding primitives generation policy learning for robotic arm to overcome catastrophic forgetting in sequential multi-tasks learning.
Neural Networks ( IF 6.0 ) Pub Date : 2020-06-05 , DOI: 10.1016/j.neunet.2020.06.003
Fangzhou Xiong 1 , Zhiyong Liu 2 , Kaizhu Huang 3 , Xu Yang 1 , Hong Qiao 2 , Amir Hussain 4
Affiliation  

Continual learning, a widespread ability in people and animals, aims to learn and acquire new knowledge and skills continuously. Catastrophic forgetting usually occurs in continual learning when an agent attempts to learn different tasks sequentially without storing or accessing previous task information. Unfortunately, current learning systems, e.g., neural networks, are prone to deviate the weights learned in previous tasks after training new tasks, leading to catastrophic forgetting, especially in a sequential multi-tasks scenario. To address this problem, in this paper, we propose to overcome catastrophic forgetting with the focus on learning a series of robotic tasks sequentially. Particularly, a novel hierarchical neural network’s framework called Encoding Primitives Generation Policy Learning (E-PGPL) is developed to enable continual learning with two components. By employing a variational autoencoder to project the original state space into a meaningful low-dimensional feature space, representative state primitives could be sampled to help learn corresponding policies for different tasks. In learning a new task, the feature space is required to be close to the previous ones so that previously learned tasks can be protected. Extensive experiments on several simulated robotic tasks demonstrate our method’s efficacy to learn control policies for handling sequentially arriving multi-tasks, delivering improvement substantially over some other continual learning methods, especially for the tasks with more diversity.



中文翻译:

机器人手臂的编码原语生成策略学习可克服顺序多任务学​​习中的灾难性遗忘。

持续学习是人类和动物中广泛的一种能力,旨在不断学习和获得新的知识和技能。灾难性的遗忘通常发生在持续学习中,这是因为代理尝试依次学习不同的任务而不存储或访问以前的任务信息。不幸的是,在训练新任务之后,当前的学习系统(例如神经网络)易于偏离先前任务中学习的权重,从而导致灾难性的遗忘,尤其是在顺序多任务场景中。为了解决这个问题,在本文中,我们提出了克服灾难性遗忘的方法,重点是依次学习一系列机器人任务。尤其,开发了一种称为“编码基元生成策略学习”(E-PGPL)的新颖的分层神经网络框架,以实现具有两个组成部分的连续学习。通过使用变体自动编码器将原始状态空间投影到有意义的低维特征空间中,可以对代表性的状态基元进行采样,以帮助学习针对不同任务的相应策略。在学习新任务时,功能空间必须与以前的空间接近,以便可以保护以前学习的任务。在几个模拟的机器人任务上进行的大量实验证明了我们的方法可有效学习控制策略,以处理顺序到达的多任务,与其他一些持续学习方法相比,尤其是对于具有更多多样性的任务,其有效性得到了显着提高。通过使用变体自动编码器将原始状态空间投影到有意义的低维特征空间中,可以对代表性的状态基元进行采样,以帮助学习针对不同任务的相应策略。在学习新任务时,要求特征空间与先前的特征空间接近,以便可以保护先前学习的任务。在几个模拟的机器人任务上进行的大量实验证明了我们的方法可有效学习控制策略,以处理顺序到达的多任务,与其他一些持续学习方法相比,尤其是对于具有更多多样性的任务,其有效性得到了显着提高。通过使用变体自动编码器将原始状态空间投影到有意义的低维特征空间中,可以对代表性的状态基元进行采样,以帮助学习针对不同任务的相应策略。在学习新任务时,功能空间必须与以前的空间接近,以便可以保护以前学习的任务。在几个模拟的机器人任务上进行的大量实验证明了我们的方法可有效学习控制策略,以处理顺序到达的多任务,与其他一些持续学习方法相比,尤其是对于具有更多多样性的任务,其有效性得到了显着提高。可以对代表性的状态原语进行采样,以帮助学习针对不同任务的相应策略。在学习新任务时,功能空间必须与以前的空间接近,以便可以保护以前学习的任务。在几个模拟的机器人任务上进行的大量实验证明了我们的方法可有效学习控制策略,以处理顺序到达的多任务,与其他一些持续学习方法相比,尤其是对于具有更多多样性的任务,其有效性得到了显着提高。可以对代表性的状态原语进行采样,以帮助学习针对不同任务的相应策略。在学习新任务时,要求特征空间与先前的特征空间接近,以便可以保护先前学习的任务。在几个模拟的机器人任务上进行的大量实验证明了我们的方法可有效学习控制策略,以处理顺序到达的多任务,与其他一些持续学习方法相比,尤其是对于具有更多多样性的任务,其有效性得到了显着提高。

更新日期:2020-06-05
down
wechat
bug