当前位置: X-MOL 学术Mach. Learn. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Analysis of Hannan consistent selection for Monte Carlo tree search in simultaneous move games
Machine Learning ( IF 7.5 ) Pub Date : 2019-07-25 , DOI: 10.1007/s10994-019-05832-z
Vojtěch Kovařík , Viliam Lisý

Hannan consistency, or no external regret, is a key concept for learning in games. An action selection algorithm is Hannan consistent (HC) if its performance is eventually as good as selecting the best fixed action in hindsight. If both players in a zero-sum normal form game use a Hannan consistent algorithm, their average behavior converges to a Nash equilibrium of the game. A similar result is known about extensive form games, but the played strategies need to be Hannan consistent with respect to the counterfactual values, which are often difficult to obtain. We study zero-sum extensive form games with simultaneous moves, but otherwise perfect information. These games generalize normal form games and they are a special case of extensive form games. We study whether applying HC algorithms in each decision point of these games directly to the observed payoffs leads to convergence to a Nash equilibrium. This learning process corresponds to a class of Monte Carlo Tree Search algorithms, which are popular for playing simultaneous-move games but do not have any known performance guarantees. We show that using HC algorithms directly on the observed payoffs is not sufficient to guarantee the convergence. With an additional averaging over joint actions, the convergence is guaranteed, but empirically slower. We further define an additional property of HC algorithms, which is sufficient to guarantee the convergence without the averaging and we empirically show that commonly used HC algorithms have this property.

中文翻译:

同步移动博弈中蒙特卡罗树搜索的汉南一致选择分析

Hannan 一致性,或者说没有外部遗憾,是在游戏中学习的一个关键概念。如果动作选择算法的性能最终与事后选择最佳固定动作一样好,则该动作选择算法是汉南一致 (HC)。如果零和范式博弈中的两个参与者都使用 Hannan 一致算法,则他们的平均行为收敛到博弈的纳什均衡。类似的结果在广泛的形式博弈中是已知的,但所使用的策略需要与反事实值保持一致,这通常很难获得。我们研究具有同时移动的零和广泛形式博弈,但在其他方面是完美的信息。这些游戏概括了正常形式的游戏,它们是扩展形式游戏的特例。我们研究在这些游戏的每个决策点直接应用 HC 算法到观察到的收益是否会导致收敛到纳什均衡。这个学习过程对应于一类蒙特卡洛树搜索算法,这些算法在玩同步移动游戏中很流行,但没有任何已知的性能保证。我们表明,直接在观察到的收益上使用 HC 算法不足以保证收敛。通过对联合动作进行额外平均,可以保证收敛,但根据经验会较慢。我们进一步定义了 HC 算法的附加属性,这足以保证无需平均的收敛性,并且我们凭经验证明常用的 HC 算法具有此属性。这个学习过程对应于一类蒙特卡洛树搜索算法,这些算法在玩同步移动游戏中很流行,但没有任何已知的性能保证。我们表明,直接在观察到的收益上使用 HC 算法不足以保证收敛。通过对联合动作进行额外平均,可以保证收敛,但根据经验会较慢。我们进一步定义了 HC 算法的附加属性,这足以保证无需平均的收敛性,并且我们凭经验证明常用的 HC 算法具有此属性。这个学习过程对应于一类蒙特卡洛树搜索算法,这些算法在玩同步移动游戏中很流行,但没有任何已知的性能保证。我们表明,直接在观察到的收益上使用 HC 算法不足以保证收敛。通过对联合动作进行额外平均,可以保证收敛,但根据经验会较慢。我们进一步定义了 HC 算法的附加属性,这足以保证无需平均的收敛性,并且我们凭经验证明常用的 HC 算法具有此属性。我们表明,直接在观察到的收益上使用 HC 算法不足以保证收敛。通过对联合动作进行额外平均,可以保证收敛,但根据经验会较慢。我们进一步定义了 HC 算法的附加属性,这足以保证无需平均的收敛性,并且我们凭经验证明常用的 HC 算法具有此属性。我们表明,直接在观察到的收益上使用 HC 算法不足以保证收敛。通过对联合动作进行额外平均,可以保证收敛,但根据经验会较慢。我们进一步定义了 HC 算法的附加属性,这足以保证无需平均的收敛性,并且我们凭经验证明常用的 HC 算法具有此属性。
更新日期:2019-07-25
down
wechat
bug