当前位置: X-MOL 学术Int. J. Robot. Res. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Concept2Robot: Learning manipulation concepts from instructions and human demonstrations
The International Journal of Robotics Research ( IF 7.5 ) Pub Date : 2021-10-11 , DOI: 10.1177/02783649211046285
Lin Shao 1 , Toki Migimatsu 1 , Qiang Zhang 2 , Karen Yang 1 , Jeannette Bohg 1
Affiliation  

We aim to endow a robot with the ability to learn manipulation concepts that link natural language instructions to motor skills. Our goal is to learn a single multi-task policy that takes as input a natural language instruction and an image of the initial scene and outputs a robot motion trajectory to achieve the specified task. This policy has to generalize over different instructions and environments. Our insight is that we can approach this problem through learning from demonstration by leveraging large-scale video datasets of humans performing manipulation actions. Thereby, we avoid more time-consuming processes such as teleoperation or kinesthetic teaching. We also avoid having to manually design task-specific rewards. We propose a two-stage learning process where we first learn single-task policies through reinforcement learning. The reward is provided by scoring how well the robot visually appears to perform the task. This score is given by a video-based action classifier trained on a large-scale human activity dataset. In the second stage, we train a multi-task policy through imitation learning to imitate all the single-task policies. In extensive simulation experiments, we show that the multi-task policy learns to perform a large percentage of the 78 different manipulation tasks on which it was trained. The tasks are of greater variety and complexity than previously considered robot manipulation tasks. We show that the policy generalizes over variations of the environment. We also show examples of successful generalization over novel but similar instructions.



中文翻译:

Concept2Robot:从指令和人类演示中学习操作概念

我们的目标是赋予机器人学习将自然语言指令与运动技能联系起来的操作概念的能力。我们的目标是学习一个单一的多任务策略,该策略将自然语言指令和初始场景的图像作为输入,并输出机器人运动轨迹以实现指定的任务。该策略必须概括不同的指令和环境。我们的见解是,我们可以通过利用人类执行操作动作的大规模视频数据集从演示中学习来解决这个问题。因此,我们避免了更耗时的过程,例如远程操作或动觉教学。我们还避免了必须手动设计特定于任务的奖励。我们提出了一个两阶段的学习过程,首先通过强化学习来学习单任务策略。奖励是通过对机器人在视觉上看起来如何执行任务进行评分来提供的。该分数由在大规模人类活动数据集上训练的基于视频的动作分类器给出。在第二阶段,我们通过模仿学习训练多任务策略来模仿所有单任务策略。在广泛的模拟实验中,我们表明多任务策略学习执行其训练的 78 种不同操作任务中的很大一部分。与以前考虑的机器人操作任务相比,这些任务具有更大的多样性和复杂性。我们表明该策略可以泛化环境的变化。我们还展示了在新颖但相似的指令上成功泛化的例子。该分数由在大规模人类活动数据集上训练的基于视频的动作分类器给出。在第二阶段,我们通过模仿学习训练多任务策略来模仿所有单任务策略。在广泛的模拟实验中,我们表明多任务策略学习执行其训练的 78 种不同操作任务中的很大一部分。与以前考虑的机器人操作任务相比,这些任务具有更大的多样性和复杂性。我们表明该策略可以泛化环境的变化。我们还展示了在新颖但相似的指令上成功泛化的例子。该分数由在大规模人类活动数据集上训练的基于视频的动作分类器给出。在第二阶段,我们通过模仿学习训练多任务策略来模仿所有单任务策略。在广泛的模拟实验中,我们表明多任务策略学习执行其训练的 78 种不同操作任务中的很大一部分。与以前考虑的机器人操作任务相比,这些任务具有更大的多样性和复杂性。我们表明该策略可以泛化环境的变化。我们还展示了在新颖但相似的指令上成功泛化的例子。在广泛的模拟实验中,我们表明多任务策略学习执行其训练的 78 种不同操作任务中的很大一部分。与以前考虑的机器人操作任务相比,这些任务具有更大的多样性和复杂性。我们表明该策略可以泛化环境的变化。我们还展示了在新颖但相似的指令上成功泛化的例子。在广泛的模拟实验中,我们表明多任务策略学习执行其训练的 78 种不同操作任务中的很大一部分。与以前考虑的机器人操作任务相比,这些任务具有更大的多样性和复杂性。我们表明该策略可以泛化环境的变化。我们还展示了在新颖但相似的指令上成功泛化的例子。

更新日期:2021-10-11
down
wechat
bug