当前位置: X-MOL 学术IEEE Trans. Neural Netw. Learn. Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Hierarchical and Stable Multiagent Reinforcement Learning for Cooperative Navigation Control
IEEE Transactions on Neural Networks and Learning Systems ( IF 10.4 ) Pub Date : 2021-06-28 , DOI: 10.1109/tnnls.2021.3089834
Yue Jin 1 , Shuangqing Wei 2 , Jian Yuan 1 , Xudong Zhang 1
Affiliation  

We solve an important and challenging cooperative navigation control problem, Multiagent Navigation to Unassigned Multiple targets (MNUM) in unknown environments with minimal time and without collision. Conventional methods are based on multiagent path planning that requires building an environment map and expensive real-time path planning computations. In this article, we formulate MNUM as a stochastic game and devise a novel multiagent deep reinforcement learning (MADRL) algorithm to learn an end-to-end solution, which directly maps raw sensor data to control signals. Once learned, the policy can be deployed onto each agent, and thereby, the expensive online planning computations can be offloaded. However, to solve MNUM, traditional MADRL suffers from large policy solution space and nonstationary environment when agents make decisions independently and concurrently. Accordingly, we propose a hierarchical and stable MADRL algorithm. The hierarchical learning part introduces a two-layer policy model to reduce the solution space and uses an interlaced learning paradigm to learn two coupled policies. In the stable learning part, we propose to learn an extended action-value function that implicitly incorporates estimations of other agents’ actions, based on which the environment’s nonstationarity caused by other agents’ changing policies can be alleviated. Extensive experiments demonstrate that our method can converge in a fast way and generate more efficient cooperative navigation policies than comparable methods.

中文翻译:

用于协作导航控制的分层稳定多智能体强化学习

我们解决了一个重要且具有挑战性的协作导航控制问题,即在未知环境中以最短时间且无碰撞的多代理导航到未分配的多个目标 (MNUM)。传统方法基于多智能体路径规划,需要构建环境地图和昂贵的实时路径规划计算。在本文中,我们将 MNUM 制定为随机游戏,并设计了一种新颖的多智能体深度强化学习 (MADRL) 算法来学习端到端解决方案,该解决方案直接将原始传感器数据映射到控制信号。一旦获悉,该策略就可以部署到每个代理上,从而可以卸载昂贵的在线规划计算。然而,为了解决 MNUM,当代理人独立且同时做出决策时,传统的 MADRL 会遇到较大的策略解决方案空间和非平稳环境。因此,我们提出了一种分层稳定的 MADRL 算法。分层学习部分引入了一个两层策略模型来减少解决方案空间,并使用交错学习范式来学习两个耦合策略。在稳定学习部分,我们建议学习一个扩展的动作价值函数,该函数隐含地结合了对其他代理人行为的估计,在此基础上可以减轻其他代理人不断变化的政策引起的环境非平稳性。大量实验表明,我们的方法可以快速收敛并生成比同类方法更有效的合作导航策略。我们提出了一种分层稳定的 MADRL 算法。分层学习部分引入了一个两层策略模型来减少解决方案空间,并使用交错学习范式来学习两个耦合策略。在稳定学习部分,我们建议学习一个扩展的动作价值函数,该函数隐含地结合了对其他代理人行为的估计,在此基础上可以减轻其他代理人不断变化的政策引起的环境非平稳性。大量实验表明,我们的方法可以快速收敛并生成比同类方法更有效的合作导航策略。我们提出了一种分层稳定的 MADRL 算法。分层学习部分引入了一个两层策略模型来减少解决方案空间,并使用交错学习范式来学习两个耦合策略。在稳定学习部分,我们建议学习一个扩展的动作价值函数,该函数隐含地结合了对其他代理人行为的估计,在此基础上可以减轻其他代理人不断变化的政策引起的环境非平稳性。大量实验表明,我们的方法可以快速收敛并生成比同类方法更有效的合作导航策略。在稳定学习部分,我们建议学习一个扩展的动作价值函数,该函数隐含地结合了对其他代理人行为的估计,在此基础上可以减轻其他代理人不断变化的政策引起的环境非平稳性。大量实验表明,我们的方法可以快速收敛并生成比同类方法更有效的合作导航策略。在稳定学习部分,我们建议学习一个扩展的动作价值函数,该函数隐含地结合了对其他代理人行为的估计,在此基础上可以减轻其他代理人不断变化的政策引起的环境非平稳性。大量实验表明,我们的方法可以快速收敛并生成比同类方法更有效的合作导航策略。
更新日期:2021-06-28
down
wechat
bug