当前位置:
X-MOL 学术
›
arXiv.cs.AI
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Information State Embedding in Partially Observable Cooperative Multi-Agent Reinforcement Learning
arXiv - CS - Artificial Intelligence Pub Date : 2020-04-02 , DOI: arxiv-2004.01098 Weichao Mao, Kaiqing Zhang, Erik Miehling, Tamer Ba\c{s}ar
arXiv - CS - Artificial Intelligence Pub Date : 2020-04-02 , DOI: arxiv-2004.01098 Weichao Mao, Kaiqing Zhang, Erik Miehling, Tamer Ba\c{s}ar
Multi-agent reinforcement learning (MARL) under partial observability has
long been considered challenging, primarily due to the requirement for each
agent to maintain a belief over all other agents' local histories -- a domain
that generally grows exponentially over time. In this work, we investigate a
partially observable MARL problem in which agents are cooperative. To enable
the development of tractable algorithms, we introduce the concept of an
information state embedding that serves to compress agents' histories. We
quantify how the compression error influences the resulting value functions for
decentralized control. Furthermore, we propose an instance of the embedding
based on recurrent neural networks (RNNs). The embedding is then used as an
approximate information state, and can be fed into any MARL algorithm. The
proposed embed-then-learn pipeline opens the black-box of existing (partially
observable) MARL algorithms, allowing us to establish some theoretical
guarantees (error bounds of value functions) while still achieving competitive
performance with many end-to-end approaches.
中文翻译:
部分可观察协作多智能体强化学习中的信息状态嵌入
长期以来,部分可观察性下的多智能体强化学习 (MARL) 一直被认为具有挑战性,这主要是因为每个智能体都需要对所有其他智能体的本地历史保持信念——这个领域通常会随着时间呈指数增长。在这项工作中,我们研究了一个部分可观察的 MARL 问题,其中代理是合作的。为了能够开发易于处理的算法,我们引入了用于压缩代理历史的信息状态嵌入的概念。我们量化了压缩误差如何影响分散控制的结果值函数。此外,我们提出了一个基于循环神经网络(RNN)的嵌入实例。然后将嵌入用作近似信息状态,并且可以将其输入到任何 MARL 算法中。
更新日期:2020-08-18
中文翻译:
部分可观察协作多智能体强化学习中的信息状态嵌入
长期以来,部分可观察性下的多智能体强化学习 (MARL) 一直被认为具有挑战性,这主要是因为每个智能体都需要对所有其他智能体的本地历史保持信念——这个领域通常会随着时间呈指数增长。在这项工作中,我们研究了一个部分可观察的 MARL 问题,其中代理是合作的。为了能够开发易于处理的算法,我们引入了用于压缩代理历史的信息状态嵌入的概念。我们量化了压缩误差如何影响分散控制的结果值函数。此外,我们提出了一个基于循环神经网络(RNN)的嵌入实例。然后将嵌入用作近似信息状态,并且可以将其输入到任何 MARL 算法中。