当前位置: X-MOL 学术arXiv.cs.NI › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Decentralized Learning for Channel Allocation in IoT Networks over Unlicensed Bandwidth as a Contextual Multi-player Multi-armed Bandit Game
arXiv - CS - Networking and Internet Architecture Pub Date : 2020-03-30 , DOI: arxiv-2003.13314
Wenbo Wang, Amir Leshem, Dusit Niyato, Zhu Han

We study a decentralized channel allocation problem in an ad-hoc Internet of Things (IoT) network underlaying on a spectrum licensed to an existing wireless network. In the considered IoT network, the impoverished computation capability and the limited antenna number on the IoT devices make them difficult to acquire the Channel State Information (CSI) for the multi-channels over the shared spectrum. In addition, in practice, the unknown patterns of the licensed users' transmission activities and the time-varying CSI due to fast fading or mobility of the IoT devices can also cause stochastic changes in the channel quality. Therefore, decentralized IoT links are expected to learn their channel statistics online based on the partial observations, while acquiring no information about the channels that they are not operating on. Meanwhile, they also have to reach an efficient, collision-free solution of channel allocation on the basis of limited coordination or message exchange. Our study maps this problem into a contextual multi-player, multi-arm bandit game, for which we propose a purely decentralized, three-stage policy learning algorithm through trial-and-error. Our theoretical analysis shows that the proposed learning algorithm guarantees the IoT devices to jointly converge to the social-optimal channel allocation with a sub-linear (i.e., polylogarithmic) regret with respect to the operational time. Simulation results demonstrate that the proposed algorithm strikes a good balance between efficient channel allocation and network scalability when compared with the other state-of-the-art distributed multi-armed bandit algorithms.

中文翻译:

作为上下文多人多臂强盗游戏的未经许可带宽上的物联网网络中信道分配的分散学习

我们研究了一个临时物联网 (IoT) 网络中的分散式信道分配问题,该网络位于许可给现有无线网络的频谱上。在所考虑的物联网网络中,物联网设备上的计算能力和有限的天线数量使其难以获取共享频谱上多信道的信道状态信息(CSI)。此外,在实践中,由于物联网设备的快速衰落或移动性,许可用户传输活动的未知模式和随时间变化的 CSI 也会导致信道质量的随机变化。因此,分散的物联网链路有望根据部分观察在线学习其信道统计数据,而不会获取有关它们未运行的信道的信息。同时,他们还必须在有限的协调或消息交换的基础上达成有效、无冲突的信道分配解决方案。我们的研究将这个问题映射到一个上下文多玩家、多臂强盗游戏中,为此我们通过反复试验提出了一种纯粹的去中心化、三阶段策略学习算法。我们的理论分析表明,所提出的学习算法可保证物联网设备以相对于操作时间的亚线性(即多对数)遗憾共同收敛到社会最优信道分配。仿真结果表明,与其他最先进的分布式多臂老虎机算法相比,所提出的算法在有效的信道分配和网络可扩展性之间取得了良好的平衡。基于有限协调或消息交换的信道分配无冲突解决方案。我们的研究将这个问题映射到一个上下文多玩家、多臂强盗游戏中,为此我们通过反复试验提出了一种纯粹的去中心化、三阶段策略学习算法。我们的理论分析表明,所提出的学习算法可保证物联网设备以相对于操作时间的亚线性(即多对数)遗憾共同收敛到社会最优信道分配。仿真结果表明,与其他最先进的分布式多臂老虎机算法相比,所提出的算法在有效的信道分配和网络可扩展性之间取得了良好的平衡。基于有限协调或消息交换的信道分配无冲突解决方案。我们的研究将这个问题映射到一个上下文多玩家、多臂强盗游戏中,为此我们通过反复试验提出了一种纯粹的去中心化、三阶段策略学习算法。我们的理论分析表明,所提出的学习算法可保证物联网设备以相对于操作时间的亚线性(即多对数)遗憾共同收敛到社会最优信道分配。仿真结果表明,与其他最先进的分布式多臂老虎机算法相比,所提出的算法在有效的信道分配和网络可扩展性之间取得了良好的平衡。我们的研究将这个问题映射到一个上下文多玩家、多臂强盗游戏中,为此我们通过反复试验提出了一种纯粹的去中心化、三阶段策略学习算法。我们的理论分析表明,所提出的学习算法可保证物联网设备以相对于操作时间的亚线性(即多对数)遗憾共同收敛到社会最优信道分配。仿真结果表明,与其他最先进的分布式多臂老虎机算法相比,所提出的算法在有效的信道分配和网络可扩展性之间取得了良好的平衡。我们的研究将这个问题映射到一个上下文多玩家、多臂强盗游戏中,为此我们通过反复试验提出了一种纯粹的去中心化、三阶段策略学习算法。我们的理论分析表明,所提出的学习算法可保证物联网设备以相对于操作时间的亚线性(即多对数)遗憾共同收敛到社会最优信道分配。仿真结果表明,与其他最先进的分布式多臂老虎机算法相比,所提出的算法在有效的信道分配和网络可扩展性之间取得了良好的平衡。我们的理论分析表明,所提出的学习算法可保证物联网设备以相对于操作时间的亚线性(即多对数)遗憾共同收敛到社会最优信道分配。仿真结果表明,与其他最先进的分布式多臂老虎机算法相比,所提出的算法在有效的信道分配和网络可扩展性之间取得了良好的平衡。我们的理论分析表明,所提出的学习算法可保证物联网设备以相对于操作时间的亚线性(即多对数)遗憾共同收敛到社会最优信道分配。仿真结果表明,与其他最先进的分布式多臂老虎机算法相比,所提出的算法在有效的信道分配和网络可扩展性之间取得了良好的平衡。
更新日期:2020-04-07
down
wechat
bug