当前位置: X-MOL 学术IEEE Open J. Intell. Transp. Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Robustness and Adaptability of Reinforcement Learning-Based Cooperative Autonomous Driving in Mixed-Autonomy Traffic
IEEE Open Journal of Intelligent Transportation Systems Pub Date : 2022-05-06 , DOI: 10.1109/ojits.2022.3172981
Rodolfo Valiente 1 , Behrad Toghi 1 , Ramtin Pedarsani 2 , Yaser P. Fallah 1
Affiliation  

Building autonomous vehicles (AVs) is a complex problem, but enabling them to operate in the real world where they will be surrounded by human-driven vehicles (HVs) is extremely challenging. Prior works have shown the possibilities of creating inter-agent cooperation between a group of AVs that follow a social utility. Such altruistic AVs can form alliances and affect the behavior of HVs to achieve socially desirable outcomes. We identify two major challenges in the co-existence of AVs and HVs. First, social preferences and individual traits of a given human driver, e.g., selflessness and aggressiveness are unknown to an AV, and it is almost impossible to infer them in real-time during a short AV-HV interaction. Second, contrary to AVs that are expected to follow a policy, HVs do not necessarily follow a stationary policy and therefore are extremely hard to predict. To alleviate the above-mentioned challenges, we formulate the mixed-autonomy problem as a multi-agent reinforcement learning (MARL) problem and propose a decentralized framework and reward function for training cooperative AVs. Our approach enables AVs to learn the decision-making of HVs implicitly from experience, optimizes for a social utility while prioritizing safety and allowing adaptability; robustifying altruistic AVs to different human behaviors and constraining them to a safe action space. Finally, we investigate the robustness, safety and sensitivity of AVs to various HVs behavioral traits and present the settings in which the AVs can learn cooperative policies that are adaptable to different situations.

中文翻译:

基于强化学习的协同自动驾驶在混合自动驾驶中的鲁棒性和适应性

建造自动驾驶汽车 (AV) 是一个复杂的问题,但让它们能够在现实世界中运行,在现实世界中,它们将被人类驾驶的车辆 (HV) 包围,极具挑战性。先前的工作已经显示了在遵循社会效用的一组 AV 之间创建代理间合作的可能性。这种利他的 AV 可以结成联盟并影响 HV 的行为,以实现社会期望的结果。我们确定了 AV 和 HV 共存的两个主要挑战。首先,给定人类驾驶员的社会偏好和个人特征,例如,无私和攻击性对于 AV 是未知的,并且几乎不可能在短暂的 AV-HV 交互期间实时推断它们。其次,与预期遵循政策的自动驾驶汽车相反,HV 不一定遵循固定策略,因此极难预测。为了缓解上述挑战,我们将混合自治问题表述为多智能体强化学习(MARL)问题,并提出了用于训练协作 AV 的分散框架和奖励函数。我们的方法使 AV 能够从经验中隐含地学习 HV 的决策,优化社会效用,同时优先考虑安全性并允许适应性;强化利他 AV 以适​​应不同的人类行为,并将它们限制在安全的行动空间中。最后,我们研究了 AV 对各种 HV 行为特征的鲁棒性、安全性和敏感性,并展示了 AV 可以学习适应不同情况的合作策略的设置。为了缓解上述挑战,我们将混合自治问题表述为多智能体强化学习 (MARL) 问题,并提出了用于训练协作 AV 的分散框架和奖励函数。我们的方法使 AV 能够从经验中隐含地学习 HV 的决策,优化社会效用,同时优先考虑安全性和允许适应性;强化利他 AV 以适​​应不同的人类行为,并将它们限制在安全的行动空间中。最后,我们研究了 AV 对各种 HV 行为特征的鲁棒性、安全性和敏感性,并展示了 AV 可以学习适应不同情况的合作策略的设置。为了缓解上述挑战,我们将混合自治问题表述为多智能体强化学习 (MARL) 问题,并提出了用于训练协作 AV 的分散框架和奖励函数。我们的方法使 AV 能够从经验中隐含地学习 HV 的决策,优化社会效用,同时优先考虑安全性和允许适应性;强化利他 AV 以适​​应不同的人类行为,并将它们限制在安全的行动空间中。最后,我们研究了 AV 对各种 HV 行为特征的鲁棒性、安全性和敏感性,并展示了 AV 可以学习适应不同情况的合作策略的设置。我们将混合自治问题表述为多智能体强化学习 (MARL) 问题,并提出了用于训练协作 AV 的分散框架和奖励函数。我们的方法使 AV 能够从经验中隐含地学习 HV 的决策,优化社会效用,同时优先考虑安全性和允许适应性;强化利他 AV 以适​​应不同的人类行为,并将它们限制在安全的行动空间中。最后,我们研究了 AV 对各种 HV 行为特征的鲁棒性、安全性和敏感性,并展示了 AV 可以学习适应不同情况的合作策略的设置。我们将混合自治问题表述为多智能体强化学习 (MARL) 问题,并提出了用于训练协作 AV 的分散框架和奖励函数。我们的方法使 AV 能够从经验中隐含地学习 HV 的决策,优化社会效用,同时优先考虑安全性和允许适应性;强化利他 AV 以适​​应不同的人类行为,并将它们限制在安全的行动空间中。最后,我们研究了 AV 对各种 HV 行为特征的鲁棒性、安全性和敏感性,并展示了 AV 可以学习适应不同情况的合作策略的设置。在优先考虑安全性和允许适应性的同时优化社会效用;强化利他 AV 以适​​应不同的人类行为,并将它们限制在安全的行动空间中。最后,我们研究了 AV 对各种 HV 行为特征的鲁棒性、安全性和敏感性,并展示了 AV 可以学习适应不同情况的合作策略的设置。在优先考虑安全性和允许适应性的同时优化社会效用;强化利他 AV 以适​​应不同的人类行为,并将它们限制在安全的行动空间中。最后,我们研究了 AV 对各种 HV 行为特征的鲁棒性、安全性和敏感性,并展示了 AV 可以学习适应不同情况的合作策略的设置。
更新日期:2022-05-06
down
wechat
bug