Coordinating Followers to Reach Better Equilibria: End-to-End Gradient Descent for Stackelberg Games,arXiv - CS - Computer Science and Game Theory

当前位置： X-MOL 学术 › arXiv.cs.GT › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

Coordinating Followers to Reach Better Equilibria: End-to-End Gradient Descent for Stackelberg Games
arXiv - CS - Computer Science and Game Theory Pub Date : 2021-06-06 , DOI: arxiv-2106.03278
Kai Wang, Lily Xu, Andrew Perrault, Michael K. Reiter, Milind Tambe

A growing body of work in game theory extends the traditional Stackelberg game to settings with one leader and multiple followers who play a Nash equilibrium. Standard approaches for computing equilibria in these games reformulate the followers' best response as constraints in the leader's optimization problem. These reformulation approaches can sometimes be effective, but often get trapped in low-quality solutions when followers' objectives are non-linear or non-quadratic. Moreover, these approaches assume a unique equilibrium or a specific equilibrium concept, e.g., optimistic or pessimistic, which is a limiting assumption in many situations. To overcome these limitations, we propose a stochastic gradient descent--based approach, where the leader's strategy is updated by differentiating through the followers' best responses. We frame the leader's optimization as a learning problem against followers' equilibrium, which allows us to decouple the followers' equilibrium constraints from the leader's problem. This approach also addresses cases with multiple equilibria and arbitrary equilibrium selection procedures by back-propagating through a sampled Nash equilibrium. To this end, this paper introduces a novel concept called equilibrium flow to formally characterize the set of equilibrium selection processes where the gradient with respect to a sampled equilibrium is an unbiased estimate of the true gradient. We evaluate our approach experimentally against existing baselines in three Stackelberg problems with multiple followers and find that in each case, our approach is able to achieve higher utility for the leader.

中文翻译：

协调追随者以达到更好的平衡：Stackelberg 游戏的端到端梯度下降

博弈论中越来越多的工作将传统的 Stackelberg 博弈扩展到一个领导者和多个追随者的环境中，他们玩纳什均衡。在这些游戏中计算均衡的标准方法将追随者的最佳反应重新表述为领导者优化问题中的约束。这些重新制定的方法有时可能是有效的，但当追随者的目标是非线性或非二次的时，往往会陷入低质量的解决方案中。此外，这些方法假设了一个独特的均衡或特定的均衡概念，例如乐观或悲观，这在许多情况下是一个限制性假设。为了克服这些限制，我们提出了一种基于随机梯度下降的方法，通过区分追随者的最佳反应来更新领导者的策略。我们将领导者的优化设计为针对追随者均衡的学习问题，这使我们能够将追随者的均衡约束与领导者的问题解耦。这种方法还通过通过采样纳什均衡进行反向传播来解决具有多个均衡和任意均衡选择程序的情况。为此，本文引入了一个称为平衡流的新概念，以正式描述一组平衡选择过程，其中相对于采样平衡的梯度是对真实梯度的无偏估计。我们在具有多个追随者的三个 Stackelberg 问题中针对现有基线对我们的方法进行了实验评估，并发现在每种情况下，我们的方法都能够为领导者实现更高的效用。s 优化作为针对追随者均衡的学习问题，这使我们能够将追随者的均衡约束与领导者的问题解耦。这种方法还通过通过采样纳什均衡进行反向传播来解决具有多个均衡和任意均衡选择程序的情况。为此，本文引入了一个称为平衡流的新概念，以正式描述一组平衡选择过程，其中相对于采样平衡的梯度是对真实梯度的无偏估计。我们在具有多个追随者的三个 Stackelberg 问题中针对现有基线对我们的方法进行了实验评估，并发现在每种情况下，我们的方法都能够为领导者实现更高的效用。s 优化作为针对追随者均衡的学习问题，这使我们能够将追随者的均衡约束与领导者的问题解耦。这种方法还通过通过采样纳什均衡进行反向传播来解决具有多个均衡和任意均衡选择程序的情况。为此，本文引入了一个称为平衡流的新概念，以正式描述一组平衡选择过程，其中相对于采样平衡的梯度是对真实梯度的无偏估计。我们在具有多个追随者的三个 Stackelberg 问题中针对现有基线对我们的方法进行了实验评估，并发现在每种情况下，我们的方法都能够为领导者实现更高的效用。这使我们能够将追随者的均衡约束与领导者的问题分离。这种方法还通过通过采样纳什均衡进行反向传播来解决具有多个均衡和任意均衡选择程序的情况。为此，本文引入了一个称为平衡流的新概念，以正式描述一组平衡选择过程，其中相对于采样平衡的梯度是对真实梯度的无偏估计。我们在具有多个追随者的三个 Stackelberg 问题中针对现有基线对我们的方法进行了实验评估，并发现在每种情况下，我们的方法都能够为领导者实现更高的效用。这使我们能够将追随者的均衡约束与领导者的问题分离。这种方法还通过通过采样纳什均衡进行反向传播来解决具有多个均衡和任意均衡选择程序的情况。为此，本文引入了一个称为平衡流的新概念，以正式描述一组平衡选择过程，其中相对于采样平衡的梯度是对真实梯度的无偏估计。我们在具有多个追随者的三个 Stackelberg 问题中针对现有基线对我们的方法进行了实验评估，并发现在每种情况下，我们的方法都能够为领导者实现更高的效用。这种方法还通过通过采样纳什均衡进行反向传播来解决具有多个均衡和任意均衡选择程序的情况。为此，本文引入了一个称为平衡流的新概念，以正式描述一组平衡选择过程，其中相对于采样平衡的梯度是对真实梯度的无偏估计。我们在具有多个追随者的三个 Stackelberg 问题中针对现有基线对我们的方法进行了实验评估，并发现在每种情况下，我们的方法都能够为领导者实现更高的效用。这种方法还通过通过采样纳什均衡进行反向传播来解决具有多个均衡和任意均衡选择程序的情况。为此，本文引入了一个称为平衡流的新概念，以正式描述一组平衡选择过程，其中相对于采样平衡的梯度是对真实梯度的无偏估计。我们在具有多个追随者的三个 Stackelberg 问题中针对现有基线对我们的方法进行了实验评估，并发现在每种情况下，我们的方法都能够为领导者实现更高的效用。本文引入了一个称为平衡流的新概念，以正式描述一组平衡选择过程，其中相对于采样平衡的梯度是对真实梯度的无偏估计。我们在具有多个追随者的三个 Stackelberg 问题中针对现有基线对我们的方法进行了实验评估，并发现在每种情况下，我们的方法都能够为领导者实现更高的效用。本文引入了一个称为平衡流的新概念，以正式描述一组平衡选择过程，其中相对于采样平衡的梯度是对真实梯度的无偏估计。我们在具有多个追随者的三个 Stackelberg 问题中针对现有基线对我们的方法进行了实验评估，并发现在每种情况下，我们的方法都能够为领导者实现更高的效用。

更新日期：2021-06-08

点击分享查看原文

点击收藏

阅读更多本刊最新论文