当前位置: X-MOL 学术Auton. Agent. Multi-Agent Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
I2RL: online inverse reinforcement learning under occlusion
Autonomous Agents and Multi-Agent Systems ( IF 1.9 ) Pub Date : 2020-11-05 , DOI: 10.1007/s10458-020-09485-4
Saurabh Arora , Prashant Doshi , Bikramjit Banerjee

Inverse reinforcement learning (IRL) is the problem of learning the preferences of an agent from observing its behavior on a task. It inverts RL which focuses on learning an agent’s behavior on a task based on the reward signals received. IRL is witnessing sustained attention due to promising applications in robotics, computer games, and finance, as well as in other sectors. Methods for IRL have, for the most part, focused on batch settings where the observed agent’s behavioral data has already been collected. However, the related problem of online IRL—where observations are incrementally accrued, yet the real-time demands of the application often prohibit a full rerun of an IRL method—has received significantly less attention. We introduce the first formal framework for online IRL, called incremental IRL (I2RL), which can serve as a common ground for online IRL methods. We demonstrate the usefulness of this framework by casting existing online IRL techniques into this framework. Importantly, we present a new method that advances maximum entropy IRL with hidden variables to the online setting. Our analysis shows that the new method has monotonically improving performance with more demonstration data as well as probabilistically bounded error, both under full and partial observability. Simulated and physical robot experiments in a multi-robot patrolling application situated in varied-sized worlds, which involves learning under high levels of occlusion, show a significantly improved performance of I2RL as compared to both batch IRL and an online imitation learning method.



中文翻译:

I2RL:遮挡下的在线逆向强化学习

逆向强化学习(IRL)是通过观察代理在任务上的行为来学习其偏好的问题。它使RL反转,RL专注于基于收到的奖励信号来学习代理在任务上的行为。由于在机器人技术,计算机游戏,金融以及其他领域的应用前景广阔,IRL受到了持续关注。IRL的方法主要集中于批处理设置,在该批处理设置中已收集了观察到的业务代表的行为数据。但是,在线IRL的相关问题(观察值逐渐增加,但是应用程序的实时需求通常会阻止IRL方法的完全重新运行)受到的关注大大减少。我们介绍了第一个在线IRL正式框架,称为增量IRL(I2RL),可以作为在线IRL方法的共同基础。我们通过将现有的在线IRL技术投射到此框架中来证明此框架的有用性。重要的是,我们提出了一种新方法,可将具有隐藏变量的最大熵IRL提升到在线设置。我们的分析表明,在完全和部分可观察性的情况下,该新方法通过更多的演示数据单调提高了性能,并且概率上有界误差。在不同大小的世界中的多机器人巡逻应用程序中进行的仿真和物理机器人实验(涉及在高度遮挡下进行学习)显示,与批处理IRL和在线模仿学习方法相比,I2RL的性能有了显着提高。我们通过将现有的在线IRL技术投射到此框架中来证明此框架的有用性。重要的是,我们提出了一种新方法,可将具有隐藏变量的最大熵IRL提升到在线设置。我们的分析表明,在完全和部分可观察性的情况下,该新方法通过更多的演示数据单调提高了性能,并且概率上有界误差。在不同大小的世界中的多机器人巡逻应用程序中进行的仿真和物理机器人实验(涉及在高度遮挡下进行学习)显示,与批处理IRL和在线模仿学习方法相比,I2RL的性能有了显着提高。我们通过将现有的在线IRL技术投射到此框架中来证明此框架的有用性。重要的是,我们提出了一种新方法,可将具有隐藏变量的最大熵IRL提升到在线设置。我们的分析表明,在完全和部分可观察性的情况下,该新方法通过更多的演示数据单调提高了性能,并且概率上有界误差。在不同大小的世界中的多机器人巡逻应用程序中进行的仿真和物理机器人实验(涉及在高度遮挡下进行学习)显示,与批处理IRL和在线模仿学习方法相比,I2RL的性能有了显着提高。我们提出了一种新方法,可将具有隐藏变量的最大熵IRL提升到在线设置。我们的分析表明,在完全和部分可观察性的情况下,该新方法通过更多的演示数据单调提高了性能,并且概率上有界误差。在不同大小的世界中的多机器人巡逻应用程序中进行的仿真和物理机器人实验(涉及在高度遮挡下进行学习)显示,与批处理IRL和在线模仿学习方法相比,I2RL的性能有了显着提高。我们提出了一种新方法,可将具有隐藏变量的最大熵IRL提升到在线设置。我们的分析表明,在完全和部分可观察性的情况下,该新方法通过更多的演示数据单调提高了性能,并且概率上有界误差。在不同大小的世界中的多机器人巡逻应用程序中进行的仿真和物理机器人实验(涉及在高度遮挡下进行学习)显示,与批处理IRL和在线模仿学习方法相比,I2RL的性能有了显着提高。

更新日期:2020-11-05
down
wechat
bug