当前位置: X-MOL 学术IEEE Trans. Wirel. Commun. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Multi-Agent Reinforcement Learning Based Resource Allocation for UAV Networks
IEEE Transactions on Wireless Communications ( IF 8.9 ) Pub Date : 2020-02-01 , DOI: 10.1109/twc.2019.2935201
Jingjing Cui , Yuanwei Liu , Arumugam Nallanathan

Unmanned aerial vehicles (UAVs) are capable of serving as aerial base stations (BSs) for providing both cost-effective and on-demand wireless communications. This article investigates dynamic resource allocation of multiple UAVs enabled communication networks with the goal of maximizing long-term rewards. More particularly, each UAV communicates with a ground user by automatically selecting its communicating user, power level and subchannel without any information exchange among UAVs. To model the dynamics and uncertainty in environments, we formulate the long-term resource allocation problem as a stochastic game for maximizing the expected rewards, where each UAV becomes a learning agent and each resource allocation solution corresponds to an action taken by the UAVs. Afterwards, we develop a multi-agent reinforcement learning (MARL) framework that each agent discovers its best strategy according to its local observations using learning. More specifically, we propose an agent-independent method, for which all agents conduct a decision algorithm independently but share a common structure based on Q-learning. Finally, simulation results reveal that: 1) appropriate parameters for exploitation and exploration are capable of enhancing the performance of the proposed MARL based resource allocation algorithm; 2) the proposed MARL algorithm provides acceptable performance compared to the case with complete information exchanges among UAVs. By doing so, it strikes a good tradeoff between performance gains and information exchange overheads.

中文翻译:

基于多智能体强化学习的无人机网络资源分配

无人机 (UAV) 能够作为空中基站 (BS),提供经济高效和按需无线通信。本文研究了多个 UAV 支持的通信网络的动态资源分配,其目标是最大化长期回报。更具体地说,每架无人机通过自动选择其通信用户、功率电平和子信道与地面用户通信,而无需在无人机之间进行任何信息交换。为了模拟环境中的动态和不确定性,我们将长期资源分配问题制定为最大化预期奖励的随机博弈,其中每个无人机成为学习代理,每个资源分配解决方案对应于无人机采取的行动。然后,我们开发了一个多智能体强化学习 (MARL) 框架,每个智能体使用学习根据其局部观察发现其最佳策略。更具体地说,我们提出了一种独立于代理的方法,所有代理独立执行决策算法,但共享基于 Q 学习的公共结构。最后,仿真结果表明:1)适当的开发和探索参数能够提高所提出的基于 MARL 的资源分配算法的性能;2)与无人机之间完全信息交换的情况相比,所提出的MARL算法提供了可接受的性能。通过这样做,它在性能提升和信息交换开销之间取得了很好的平衡。更具体地说,我们提出了一种独立于代理的方法,所有代理独立执行决策算法,但共享基于 Q 学习的公共结构。最后,仿真结果表明:1)适当的开发和探索参数能够提高所提出的基于 MARL 的资源分配算法的性能;2)与无人机之间完全信息交换的情况相比,所提出的MARL算法提供了可接受的性能。通过这样做,它在性能提升和信息交换开销之间取得了很好的平衡。更具体地说,我们提出了一种独立于代理的方法,所有代理独立执行决策算法,但共享基于 Q 学习的公共结构。最后,仿真结果表明:1)适当的开发和探索参数能够提高所提出的基于 MARL 的资源分配算法的性能;2)与无人机之间完全信息交换的情况相比,所提出的MARL算法提供了可接受的性能。通过这样做,它在性能提升和信息交换开销之间取得了很好的平衡。1) 用于开发和探索的适当参数能够提高所提出的基于 MARL 的资源分配算法的性能;2)与无人机之间完全信息交换的情况相比,所提出的MARL算法提供了可接受的性能。通过这样做,它在性能提升和信息交换开销之间取得了很好的平衡。1) 用于开发和探索的适当参数能够提高所提出的基于 MARL 的资源分配算法的性能;2)与无人机之间完全信息交换的情况相比,所提出的MARL算法提供了可接受的性能。通过这样做,它在性能提升和信息交换开销之间取得了很好的平衡。
更新日期:2020-02-01
down
wechat
bug