当前位置: X-MOL 学术IEEE J. Sel. Area. Comm. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Management and Orchestration of Virtual Network Functions via Deep Reinforcement Learning
IEEE Journal on Selected Areas in Communications ( IF 16.4 ) Pub Date : 2020-02-01 , DOI: 10.1109/jsac.2019.2959263
Joan S. Pujol Roig , David M. Gutierrez-Estevez , Deniz Gunduz

Management and orchestration (MANO) of resources by virtual network functions (VNFs) represents one of the key challenges towards a fully virtualized network architecture as envisaged by 5G standards. Current threshold-based policies inefficiently over-provision network resources and under-utilize available hardware, incurring high cost for network operators, and consequently, the users. In this work, we present a MANO algorithm for VNFs allowing a central unit (CU) to learn to autonomously re-configure resources (processing power and storage), deploy new VNF instances, or offload them to the cloud, depending on the network conditions, available pool of resources, and the VNF requirements, with the goal of minimizing a cost function that takes into account the economical cost as well as latency and the quality-of-service (QoS) experienced by the users. First, we formulate the stochastic resource optimization problem as a parameterized action Markov decision process (PAMDP). Then, we propose a solution based on deep reinforcement learning (DRL). More precisely, we present a novel RL approach, called parameterized action twin (PAT) deterministic policy gradient, which leverages an actor-critic architecture to learn to provision resources to the VNFs in an online manner. Finally, we present numerical performance results, and map them to 5G key performance indicators (KPIs). To the best of our knowledge, this is the first work that considers DRL for MANO of VNFs’ physical resources.

中文翻译:

通过深度强化学习管理和编排虚拟网络功能

虚拟网络功能 (VNF) 对资源的管理和编排 (MANO) 是实现 5G 标准所设想的完全虚拟化网络架构的主要挑战之一。当前基于阈值的策略低效地过度供应网络资源并未充分利用可用硬件,从而给网络运营商以及用户带来高成本。在这项工作中,我们提出了 VNF 的 MANO 算法,允许中央单元 (CU) 学习自主重新配置资源(处理能力和存储)、部署新的 VNF 实例或将它们卸载到云,具体取决于网络条件,可用资源池和 VNF 要求,目标是最小化成本函数,该函数考虑到经济成本以及延迟和用户体验的服务质量 (QoS)。首先,我们将随机资源优化问题表述为参数化动作马尔可夫决策过程 (PAMDP)。然后,我们提出了一种基于深度强化学习(DRL)的解决方案。更准确地说,我们提出了一种新的 RL 方法,称为参数化动作孪生 (PAT) 确定性策略梯度,它利用 actor-critic 架构来学习以在线方式为 VNF 提供资源。最后,我们展示了数值性能结果,并将它们映射到 5G 关键性能指标 (KPI)。据我们所知,这是第一个考虑 VNF 物理资源 MANO 的 DRL 的工作。我们将随机资源优化问题表述为参数化动作马尔可夫决策过程 (PAMDP)。然后,我们提出了一种基于深度强化学习(DRL)的解决方案。更准确地说,我们提出了一种新的 RL 方法,称为参数化动作孪生 (PAT) 确定性策略梯度,它利用 actor-critic 架构来学习以在线方式为 VNF 提供资源。最后,我们展示了数值性能结果,并将它们映射到 5G 关键性能指标 (KPI)。据我们所知,这是第一个考虑 VNF 物理资源 MANO 的 DRL 的工作。我们将随机资源优化问题表述为参数化动作马尔可夫决策过程 (PAMDP)。然后,我们提出了一种基于深度强化学习(DRL)的解决方案。更准确地说,我们提出了一种新的 RL 方法,称为参数化动作孪生 (PAT) 确定性策略梯度,它利用 actor-critic 架构来学习以在线方式为 VNF 提供资源。最后,我们展示了数值性能结果,并将它们映射到 5G 关键性能指标 (KPI)。据我们所知,这是第一个考虑 VNF 物理资源 MANO 的 DRL 的工作。称为参数化动作孪生 (PAT) 确定性策略梯度,它利用 actor-critic 架构来学习以在线方式为 VNF 提供资源。最后,我们展示了数值性能结果,并将它们映射到 5G 关键性能指标 (KPI)。据我们所知,这是第一个考虑 VNF 物理资源 MANO 的 DRL 的工作。称为参数化动作孪生 (PAT) 确定性策略梯度,它利用 actor-critic 架构来学习以在线方式为 VNF 提供资源。最后,我们展示了数值性能结果,并将它们映射到 5G 关键性能指标 (KPI)。据我们所知,这是第一个考虑 VNF 物理资源 MANO 的 DRL 的工作。
更新日期:2020-02-01
down
wechat
bug