当前位置: X-MOL 学术arXiv.cs.MA › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
arXiv - CS - Multiagent Systems Pub Date : 2020-06-18 , DOI: arxiv-2006.10800
Tabish Rashid, Gregory Farquhar, Bei Peng, Shimon Whiteson

QMIX is a popular $Q$-learning algorithm for cooperative MARL in the centralised training and decentralised execution paradigm. In order to enable easy decentralisation, QMIX restricts the joint action $Q$-values it can represent to be a monotonic mixing of each agent's utilities. However, this restriction prevents it from representing value functions in which an agent's ordering over its actions can depend on other agents' actions. To analyse this representational limitation, we first formalise the objective QMIX optimises, which allows us to view QMIX as an operator that first computes the $Q$-learning targets and then projects them into the space representable by QMIX. This projection returns a representable $Q$-value that minimises the unweighted squared error across all joint actions. We show in particular that this projection can fail to recover the optimal policy even with access to $Q^*$, which primarily stems from the equal weighting placed on each joint action. We rectify this by introducing a weighting into the projection, in order to place more importance on the better joint actions. We propose two weighting schemes and prove that they recover the correct maximal action for any joint action $Q$-values, and therefore for $Q^*$ as well. Based on our analysis and results in the tabular setting, we introduce two scalable versions of our algorithm, Centrally-Weighted (CW) QMIX and Optimistically-Weighted (OW) QMIX and demonstrate improved performance on both predator-prey and challenging multi-agent StarCraft benchmark tasks.

中文翻译:

加权 QMIX:为深度多智能体强化学习扩展单调值函数分解

QMIX 是一种流行的 $Q$-学习算法,用于集中训练和分散执行范式中的协作 MARL。为了实现轻松的去中心化,QMIX 将联合行动 $Q$-values 限制为每个代理的效用的单调混合。然而,这个限制阻止了它表示价值函数,其中一个代理对其行为的排序可以依赖于其他代理的行为。为了分析这种表示限制,我们首先将目标 QMIX 优化形式化,这使我们能够将 QMIX 视为首先计算 $Q$-learning 目标,然后将它们投影到 QMIX 可表示的空间的运算符。该投影返回一个可表示的 $Q$ 值,该值最小化所有联合动作的未加权平方误差。我们特别表明,即使访问 $Q^*$,该预测也可能无法恢复最佳策略,这主要源于对每个联合行动的同等权重。我们通过在投影中引入权重来纠正这一点,以便更加重视更好的联合行动。我们提出了两种加权方案,并证明它们可以为任何联合动作 $Q$-values 恢复正确的最大动作,因此对于 $Q^*$ 也是如此。根据我们在表格设置中的分析和结果,我们引入了我们算法的两个可扩展版本,集中加权 (CW) QMIX 和优化加权 (OW) QMIX,并展示了在捕食者-猎物和具有挑战性的多代理星际争霸上的改进性能基准任务。这主要源于对每个联合动作的同等权重。我们通过在投影中引入权重来纠正这一点,以便更加重视更好的联合行动。我们提出了两种加权方案,并证明它们可以为任何联合动作 $Q$-values 恢复正确的最大动作,因此对于 $Q^*$ 也是如此。根据我们在表格设置中的分析和结果,我们引入了我们算法的两个可扩展版本,集中加权 (CW) QMIX 和优化加权 (OW) QMIX,并展示了在捕食者-猎物和具有挑战性的多代理星际争霸上的改进性能基准任务。这主要源于对每个联合动作的同等权重。我们通过在投影中引入权重来纠正这一点,以便更加重视更好的联合行动。我们提出了两种加权方案,并证明它们可以为任何联合动作 $Q$-values 恢复正确的最大动作,因此对于 $Q^*$ 也是如此。根据我们在表格设置中的分析和结果,我们引入了我们算法的两个可扩展版本,集中加权 (CW) QMIX 和优化加权 (OW) QMIX,并展示了在捕食者-猎物和具有挑战性的多代理星际争霸上的改进性能基准任务。我们提出了两种加权方案,并证明它们可以为任何联合动作 $Q$-values 恢复正确的最大动作,因此对于 $Q^*$ 也是如此。根据我们在表格设置中的分析和结果,我们引入了我们算法的两个可扩展版本,集中加权 (CW) QMIX 和优化加权 (OW) QMIX,并展示了在捕食者-猎物和具有挑战性的多代理星际争霸上的改进性能基准任务。我们提出了两种加权方案,并证明它们可以为任何联合动作 $Q$-values 恢复正确的最大动作,因此对于 $Q^*$ 也是如此。根据我们在表格设置中的分析和结果,我们引入了我们算法的两个可扩展版本,集中加权 (CW) QMIX 和优化加权 (OW) QMIX,并展示了在捕食者-猎物和具有挑战性的多代理星际争霸上的改进性能基准任务。
更新日期:2020-10-23
down
wechat
bug