当前位置: X-MOL 学术EURASIP J. Wirel. Commun. Netw. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Decentralized computation offloading for multi-user mobile edge computing: a deep reinforcement learning approach
EURASIP Journal on Wireless Communications and Networking ( IF 2.6 ) Pub Date : 2020-09-29 , DOI: 10.1186/s13638-020-01801-6
Zhao Chen , Xiaodong Wang

Mobile edge computing (MEC) emerges recently as a promising solution to relieve resource-limited mobile devices from computation-intensive tasks, which enables devices to offload workloads to nearby MEC servers and improve the quality of computation experience. In this paper, an MEC enabled multi-user multi-input multi-output (MIMO) system with stochastic wireless channels and task arrivals is considered. In order to minimize long-term average computation cost in terms of power consumption and buffering delay at each user, a deep reinforcement learning (DRL)-based dynamic computation offloading strategy is investigated to build a scalable system with limited feedback. Specifically, a continuous action space-based DRL approach named deep deterministic policy gradient (DDPG) is adopted to learn decentralized computation offloading policies at all users respectively, where local execution and task offloading powers will be adaptively allocated according to each user’s local observation. Numerical results demonstrate that the proposed DDPG-based strategy can help each user learn an efficient dynamic offloading policy and also verify the superiority of its continuous power allocation capability to policies learned by conventional discrete action space-based reinforcement learning approaches like deep Q-network (DQN) as well as some other greedy strategies with reduced computation cost. Besides, power-delay tradeoff for computation offloading is also analyzed for both the DDPG-based and DQN-based strategies.



中文翻译:

多用户移动边缘计算的分散式计算分流:一种深度强化学习方法

移动边缘计算(MEC)最近作为一种有前途的解决方案而出现,可以缓解资源受限的移动设备的计算密集型任务,使设备能够将工作负载转移到附近的MEC服务器上,并提高计算体验的质量。在本文中,考虑了具有随机无线信道和任务到达的支持MEC的多用户多输入多输出(MIMO)系统。为了使每个用户的功耗和缓冲延迟方面的长期平均计算成本最小化,研究了基于深度强化学习(DRL)的动态计算卸载策略,以构建反馈有限的可扩展系统。特别,采用名为深度确定性策略梯度(DDPG)的基于连续动作空间的DRL方法分别学习所有用户的分散计算分流策略,并根据每个用户的本地观察自适应地分配本地执行和任务分流能力。数值结果表明,所提出的基于DDPG的策略可以帮助每个用户学习有效的动态卸载策略,并验证其连续功率分配能力相对于传统的基于离散行动的基于空间的强化学习方法(如深度Q网络)所学习的策略的优越性( DQN)以及其他降低计算成本的贪婪策略。此外,还针对基于DDPG的策略和基于DQN的策略分析了用于计算卸载的功率延迟权衡。其中将根据每个用户的本地观察来自适应地分配本地执行和任务卸载能力。数值结果表明,所提出的基于DDPG的策略可以帮助每个用户学习有效的动态卸载策略,并验证其连续功率分配能力相对于传统的基于离散行动的基于空间的强化学习方法(如深度Q网络)所学习的策略的优越性( DQN)以及其他降低计算成本的贪婪策略。此外,还针对基于DDPG的策略和基于DQN的策略分析了用于计算卸载的功率延迟权衡。其中将根据每个用户的本地观察来自适应地分配本地执行和任务卸载能力。数值结果表明,所提出的基于DDPG的策略可以帮助每个用户学习有效的动态卸载策略,并验证其连续功率分配能力相对于传统的基于离散行动的基于空间的强化学习方法(如深度Q网络)所学习的策略的优越性( DQN)以及其他降低计算成本的贪婪策略。此外,还针对基于DDPG的策略和基于DQN的策略分析了用于计算卸载的功率延迟权衡。数值结果表明,所提出的基于DDPG的策略可以帮助每个用户学习有效的动态卸载策略,并验证其连续功率分配能力相对于传统的基于离散行动的基于空间的强化学习方法(如深度Q网络)所学习的策略的优越性( DQN)以及其他降低计算成本的贪婪策略。此外,还针对基于DDPG的策略和基于DQN的策略分析了用于计算卸载的功率延迟权衡。数值结果表明,所提出的基于DDPG的策略可以帮助每个用户学习有效的动态卸载策略,并验证其连续功率分配能力相对于传统的基于离散行动的基于空间的强化学习方法(如深度Q网络)所学习的策略的优越性( DQN)以及其他降低计算成本的贪婪策略。此外,还针对基于DDPG的策略和基于DQN的策略分析了用于计算卸载的功率延迟权衡。

更新日期:2020-09-29
down
wechat
bug