当前位置: X-MOL 学术Science › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play
Science ( IF 44.7 ) Pub Date : 2018-12-06 , DOI: 10.1126/science.aar6404
David Silver 1, 2 , Thomas Hubert 1 , Julian Schrittwieser 1 , Ioannis Antonoglou 1 , Matthew Lai 1 , Arthur Guez 1 , Marc Lanctot 1 , Laurent Sifre 1 , Dharshan Kumaran 1 , Thore Graepel 1 , Timothy Lillicrap 1 , Karen Simonyan 1 , Demis Hassabis 1
Affiliation  

One program to rule them all Computers can beat humans at increasingly complex games, including chess and Go. However, these programs are typically constructed for a particular game, exploiting its properties, such as the symmetries of the board on which it is played. Silver et al. developed a program called AlphaZero, which taught itself to play Go, chess, and shogi (a Japanese version of chess) (see the Editorial, and the Perspective by Campbell). AlphaZero managed to beat state-of-the-art programs specializing in these three games. The ability of AlphaZero to adapt to various game rules is a notable step toward achieving a general game-playing system. Science, this issue p. 1140; see also pp. 1087 and 1118 AlphaZero teaches itself to play three different board games and beats state-of-the-art programs in each. The game of chess is the longest-studied domain in the history of artificial intelligence. The strongest programs are based on a combination of sophisticated search techniques, domain-specific adaptations, and handcrafted evaluation functions that have been refined by human experts over several decades. By contrast, the AlphaGo Zero program recently achieved superhuman performance in the game of Go by reinforcement learning from self-play. In this paper, we generalize this approach into a single AlphaZero algorithm that can achieve superhuman performance in many challenging games. Starting from random play and given no domain knowledge except the game rules, AlphaZero convincingly defeated a world champion program in the games of chess and shogi (Japanese chess), as well as Go.

中文翻译:

掌握国际象棋、将棋和通过自我对弈的通用强化学习算法

一个程序统治所有计算机 计算机可以在越来越复杂的游戏中击败人类,包括国际象棋和围棋。然而,这些程序通常是为特定游戏构建的,利用其属性,例如玩游戏的棋盘的对称性。银等。开发了一个名为 AlphaZero 的程序,它自学下围棋、国际象棋和将棋(日本版的国际象棋)(参见 Campbell 的社论和视角)。AlphaZero 设法击败了专门针对这三款游戏的最先进程序。AlphaZero 适应各种游戏规则的能力是朝着实现通用游戏系统迈出的重要一步。科学,这个问题 p。1140; 另请参见第 1087 和 1118 页 AlphaZero 自学玩三种不同的棋盘游戏,并在每种游戏中击败最先进的程序。国际象棋是人工智能历史上研究时间最长的领域。最强大的程序基于复杂的搜索技术、特定领域的适应和人工评估功能的组合,这些功能已经由人类专家几十年来改进。相比之下,AlphaGo Zero 程序最近通过自我对弈的强化学习在围棋游戏中取得了超人的表现。在本文中,我们将这种方法推广到单个 AlphaZero 算法中,该算法可以在许多具有挑战性的游戏中实现超人的表现。从随机游戏开始,除了游戏规则外,没有任何领域知识,AlphaZero 在国际象棋和将棋(日本国际象棋)以及围棋游戏中令人信服地击败了世界冠军程序。最强大的程序基于复杂的搜索技术、特定领域的适应和人工评估功能的组合,这些功能已经由人类专家几十年来改进。相比之下,AlphaGo Zero 程序最近通过自我对弈的强化学习在围棋游戏中取得了超人的表现。在本文中,我们将这种方法推广到单个 AlphaZero 算法中,该算法可以在许多具有挑战性的游戏中实现超人的表现。从随机游戏开始,除了游戏规则外,没有任何领域知识,AlphaZero 在国际象棋和将棋(日本国际象棋)以及围棋游戏中令人信服地击败了世界冠军程序。最强大的程序基于复杂的搜索技术、特定领域的适应和人工评估功能的组合,这些功能已由人类专家几十年来改进。相比之下,AlphaGo Zero 程序最近通过自我对弈的强化学习在围棋游戏中取得了超人的表现。在本文中,我们将这种方法推广到单个 AlphaZero 算法中,该算法可以在许多具有挑战性的游戏中实现超人的表现。从随机游戏开始,除了游戏规则外,没有任何领域知识,AlphaZero 在国际象棋和将棋(日本国际象棋)以及围棋游戏中令人信服地击败了世界冠军程序。以及由人类专家几十年来改进的手工评估功能。相比之下,AlphaGo Zero 程序最近通过自我对弈的强化学习在围棋游戏中取得了超人的表现。在本文中,我们将这种方法推广到单个 AlphaZero 算法中,该算法可以在许多具有挑战性的游戏中实现超人的表现。从随机游戏开始,除了游戏规则外,没有任何领域知识,AlphaZero 在国际象棋和将棋(日本国际象棋)以及围棋游戏中令人信服地击败了世界冠军程序。以及由人类专家几十年来改进的手工评估功能。相比之下,AlphaGo Zero 程序最近通过自我对弈的强化学习在围棋游戏中取得了超人的表现。在本文中,我们将这种方法推广到单个 AlphaZero 算法中,该算法可以在许多具有挑战性的游戏中实现超人的表现。从随机游戏开始,除了游戏规则外,没有任何领域知识,AlphaZero 在国际象棋和将棋(日本国际象棋)以及围棋游戏中令人信服地击败了世界冠军程序。我们将这种方法推广到单个 AlphaZero 算法中,该算法可以在许多具有挑战性的游戏中实现超人的表现。从随机游戏开始,除了游戏规则外,没有任何领域知识,AlphaZero 在国际象棋和将棋(日本国际象棋)以及围棋游戏中令人信服地击败了世界冠军程序。我们将这种方法推广到单个 AlphaZero 算法中,该算法可以在许多具有挑战性的游戏中实现超人的表现。从随机游戏开始,除了游戏规则外,没有任何领域知识,AlphaZero 在国际象棋和将棋(日本国际象棋)以及围棋游戏中令人信服地击败了世界冠军程序。
更新日期:2018-12-06
down
wechat
bug