当前位置: X-MOL 学术IEEE Trans. Wirel. Commun. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
The Application of Deep Reinforcement Learning to Distributed Spectrum Access in Dynamic Heterogeneous Environments with Partial Observations
IEEE Transactions on Wireless Communications ( IF 10.4 ) Pub Date : 2020-07-01 , DOI: 10.1109/twc.2020.2984227
Yue Xu , Jianyuan Yu , R. Michael Buehrer

This papera1 investigates deep reinforcement learning (DRL) based on a Recurrent Neural Network (RNN) for Dynamic Spectrum Access (DSA) under partial observations, referred to as a Deep Recurrent Q-Network (DRQN). Specifically, we consider a scenario with multiple independent channels and multiple heterogeneous Primary Users (PUs). Two key challenges in our problem formulation are that we assume our DRQN node does not have any prior knowledge of the other nodes’ behavior patterns and attempts to predict the future channel state based on previous observations. The goal of the DRQN is to learn a channel access strategy with a low collision rate but a high channel utilization rate. With proper definitions of the state, action and rewards, our extensive simulation results show that a DRQN-based approach can handle a variety of communication environments including dynamic environments. Further, our results show that the DRQN node is also able to cope with multi-rate and multi-agent scenarios. Importantly, we show the following benefits of using recurrent neural networks in DSA: (i) the ability to learn the optimal strategy in different environments under partial observations; (ii) robustness to imperfect observations and (iii) the ability to utilize multiple channels, and (iv) robustness in the presence of multiple agents.1A parton of this work was presented at MILCOM 2018 in [1].

中文翻译:

深度强化学习在具有部分观测的动态异构环境中分布式频谱访问中的应用

本文a1研究了基于循环神经网络(RNN)的深度强化学习(DRL),用于在部分观察下进行动态频谱访问(DSA),称为深度循环Q网络(DRQN)。具体来说,我们考虑具有多个独立通道和多个异构主用户 (PU) 的场景。我们问题表述中的两个关键挑战是我们假设我们的 DRQN 节点对其他节点的行为模式没有任何先验知识,并试图根据先前的观察预测未来的信道状态。DRQN 的目标是学习一种冲突率低但信道利用率高的信道接入策略。有了对状态、行动和奖励的正确定义,我们广泛的仿真结果表明,基于 DRQN 的方法可以处理各种通信环境,包括动态环境。此外,我们的结果表明 DRQN 节点也能够应对多速率和多代理场景。重要的是,我们展示了在 DSA 中使用循环神经网络的以下好处:(i)在部分观察下在不同环境中学习最佳策略的能力;(ii) 对不完美观察的鲁棒性和 (iii) 利用多个通道的能力,以及 (iv) 在存在多个代理的情况下的鲁棒性。 1这项工作的一部分在 MILCOM 2018 中的 [1] 中进行了介绍。我们展示了在 DSA 中使用循环神经网络的以下好处:(i)在部分观察下的不同环境中学习最佳策略的能力;(ii) 对不完美观察的鲁棒性和 (iii) 利用多个通道的能力,以及 (iv) 在存在多个代理的情况下的鲁棒性。 1这项工作的一部分在 MILCOM 2018 的 [1] 中进行了介绍。我们展示了在 DSA 中使用循环神经网络的以下好处:(i)在部分观察下的不同环境中学习最佳策略的能力;(ii) 对不完美观察的鲁棒性和 (iii) 利用多个通道的能力,以及 (iv) 在存在多个代理的情况下的鲁棒性。 1这项工作的一部分在 MILCOM 2018 的 [1] 中进行了介绍。
更新日期:2020-07-01
down
wechat
bug