当前位置: X-MOL 学术arXiv.cs.AI › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Planning on the fast lane: Learning to interact using attention mechanisms in path integral inverse reinforcement learning
arXiv - CS - Artificial Intelligence Pub Date : 2020-07-11 , DOI: arxiv-2007.05798
Sascha Rosbach, Xing Li, Simon Gro{\ss}johann, Silviu Homoceanu and Stefan Roth

General-purpose trajectory planning algorithms for automated driving utilize complex reward functions to perform a combined optimization of strategic, behavioral, and kinematic features. The specification and tuning of a single reward function is a tedious task and does not generalize over a large set of traffic situations. Deep learning approaches based on path integral inverse reinforcement learning have been successfully applied to predict local situation-dependent reward functions using features of a set of sampled driving policies. Sample-based trajectory planning algorithms are able to approximate a spatio-temporal subspace of feasible driving policies that can be used to encode the context of a situation. However, the interaction with dynamic objects requires an extended planning horizon, which depends on sequential context modeling. In this work, we are concerned with the sequential reward prediction over an extended time horizon. We present a neural network architecture that uses a policy attention mechanism to generate a low-dimensional context vector by concentrating on trajectories with a human-like driving style. Apart from this, we propose a temporal attention mechanism to identify context switches and allow for stable adaptation of rewards. We evaluate our results on complex simulated driving situations, including other moving vehicles. Our evaluation shows that our policy attention mechanism learns to focus on collision-free policies in the configuration space. Furthermore, the temporal attention mechanism learns persistent interaction with other vehicles over an extended planning horizon.

中文翻译:

规划快车道:学习在路径积分逆强化学习中使用注意力机制进行交互

用于自动驾驶的通用轨迹规划算法利用复杂的奖励函数来执行战略、行为和运动学特征的组合优化。单个奖励函数的规范和调整是一项乏味的任务,并且不能在大量交通情况下泛化。基于路径积分逆强化学习的深度学习方法已成功应用于使用一组采样驾驶策略的特征预测局部情况相关的奖励函数。基于样本的轨迹规划算法能够近似可行驾驶策略的时空子空间,可用于对情况的上下文进行编码。但是,与动态对象的交互需要扩展的规划范围,这取决于顺序上下文建模。在这项工作中,我们关注延长时间范围内的顺序奖励预测。我们提出了一种神经网络架构,该架构使用策略注意机制通过专注于具有类人驾驶风格的轨迹来生成低维上下文向量。除此之外,我们提出了一种时间注意力机制来识别上下文切换并允许稳定地适应奖励。我们在复杂的模拟驾驶情况下评估我们的结果,包括其他移动的车辆。我们的评估表明,我们的策略注意力机制学会了专注于配置空间中的无碰撞策略。此外,时间注意力机制在扩展的规划范围内学习与其他车辆的持续交互。我们关注延长时间范围内的顺序奖励预测。我们提出了一种神经网络架构,该架构使用策略注意机制通过专注于具有类人驾驶风格的轨迹来生成低维上下文向量。除此之外,我们提出了一种时间注意力机制来识别上下文切换并允许稳定地适应奖励。我们在复杂的模拟驾驶情况下评估我们的结果,包括其他移动的车辆。我们的评估表明,我们的策略注意力机制学会了专注于配置空间中的无碰撞策略。此外,时间注意力机制在扩展的规划范围内学习与其他车辆的持续交互。我们关注延长时间范围内的顺序奖励预测。我们提出了一种神经网络架构,该架构使用策略注意机制通过专注于具有类人驾驶风格的轨迹来生成低维上下文向量。除此之外,我们提出了一种时间注意力机制来识别上下文切换并允许稳定地适应奖励。我们在复杂的模拟驾驶情况下评估我们的结果,包括其他移动的车辆。我们的评估表明,我们的策略注意力机制学会了专注于配置空间中的无碰撞策略。此外,时间注意力机制在扩展的规划范围内学习与其他车辆的持续交互。我们提出了一种神经网络架构,该架构使用策略注意机制通过专注于具有类人驾驶风格的轨迹来生成低维上下文向量。除此之外,我们提出了一种时间注意力机制来识别上下文切换并允许稳定地适应奖励。我们在复杂的模拟驾驶情况下评估我们的结果,包括其他移动的车辆。我们的评估表明,我们的策略注意力机制学会了专注于配置空间中的无碰撞策略。此外,时间注意力机制在扩展的规划范围内学习与其他车辆的持续交互。我们提出了一种神经网络架构,该架构使用策略注意机制通过专注于具有类人驾驶风格的轨迹来生成低维上下文向量。除此之外,我们提出了一种时间注意力机制来识别上下文切换并允许稳定地适应奖励。我们在复杂的模拟驾驶情况下评估我们的结果,包括其他移动的车辆。我们的评估表明,我们的策略注意力机制学会了专注于配置空间中的无碰撞策略。此外,时间注意力机制在扩展的规划范围内学习与其他车辆的持续交互。我们提出了一种时间注意力机制来识别上下文切换并允许稳定地适应奖励。我们在复杂的模拟驾驶情况下评估我们的结果,包括其他移动的车辆。我们的评估表明,我们的策略注意力机制学会了专注于配置空间中的无碰撞策略。此外,时间注意力机制在扩展的规划范围内学习与其他车辆的持续交互。我们提出了一种时间注意力机制来识别上下文切换并允许稳定地适应奖励。我们在复杂的模拟驾驶情况下评估我们的结果,包括其他移动的车辆。我们的评估表明,我们的策略注意力机制学会了专注于配置空间中的无碰撞策略。此外,时间注意力机制在扩展的规划范围内学习与其他车辆的持续交互。
更新日期:2020-09-15
down
wechat
bug