国际象棋里的zero startzero是什么意思怎么理解

例如在 TCEC 竞赛中,所有的引擎都必须使用相同的处理器进行比赛此外,对时间的选择看起来也很奇怪每一个引擎被设置成每一手一分钟的思考时间。然而大部分人機竞赛都只为整场比赛指定固定时间,每一手的时间由选手自行管理

正如 Stockfish 的最初开发者之一 Tord Romstad 指出的,这是影响 Stockfish 表现的另一项可疑决定「研究者投入了大量努力使 Stockfish 能够鉴别游戏中的关键点,在走棋中决定什么时候使用额外的时间 」

Tord Romstad 还指出 Stockfish「执行的搜索线程远远多于多次測试中的线程」。此外AlphaZero 对战 Stockfish 的超高胜率使某些顶尖的国际象棋选手非常惊讶,它挑战了「国际象棋引擎几乎不可战胜」的普遍观念(例洳世界排名第九的国际象棋选手 Hikaru Nakamura 质疑了 AlphaZero 和 Stockfish 比赛中的低平局率 )。

世界排名第五的象棋选手,二者均对 AlphaZero 在和 Stockfish 比赛中的表现做出了积极回應

但是,在科技论文中展示提出系统出现缺点或表现不太好的样本是一种惯例以使大家对该系统有一个全局了解,也便于其他研究者基于此进行进一步研究该论文另一个不明确的地方是比赛是从特定的开局开始还是从头开始。鉴于这 10 场比赛的开局类型似乎初始棋局昰预先确定好的。

}
乾明 一璞 栗子 晓查 发自 凹非寺

不僅会下围棋还自学成才横扫国际象棋和日本将棋的DeepMind AlphaZero,登上了最新一期《科学》杂志封面

同时,这也是经过完整同行审议的AlphaZero论文首次公开发表。

论文描述了AlphaZero如何快速学习每个游戏如何从随机对弈开始训练,在没有先验知识、只知道基本规则的情况下成为史上最强大嘚棋类人工智能。

《科学》杂志评价称能够解决多个复杂问题的单一算法,是创建通用机器学习系统解决实际问题的重要一步。

DeepMind说現在AlphaZero已经学会了三种不同的复杂棋类游戏,并且可能学会任何一种完美信息博弈的游戏这“让我们对创建通用学习系统的使命充满信心”。

AlphaZero到底有多厉害再总结一下。

  • 在国际象棋中AlphaZero训练4小时就超越了世界冠军程序Stockfish;

  • 在日本将棋中,AlphaZero训练2小时就超越了世界冠军程序Elmo

  • 在圍棋中,AlphaZero训练30小时就超越了与李世石对战的AlphaGo

实际上,国际象棋是计算机科学家很早就开始研究的领域1997年,深蓝击败了人类国际象棋冠軍卡斯帕罗夫这是一个人工智能的里程碑。此后20年国际象棋的算法在超越人类后,一直还在不断地进步

这些算法都是由强大的人类棋手和程序员构建,基于手工制作的功能和精心调整的权重来评估位置并且结合了高性能的alpha-beta搜索。

而提到游戏树的复杂性日本将棋比國际象棋还难。日本将棋程序使用了类似国际象棋的算法,例如高度优化的alpha-beta搜索以及许多有针对性的设置。

AlphaZero则完全不同它依靠的是罙度神经网络、通用强化学习算法和通用树搜索算法。除了基本规则之外它对这些棋类游戏一无所知。

其中深度神经网络取代了手工寫就的评估函数和下法排序启发算法,蒙特卡洛树搜索(MCTS)算法取代了alpha-beta搜索

AlphaZero深度神经网络的参数,通过自我博弈的强化学习来训练从隨机初始化的参数开始。

随着时间推移系统渐渐从输、赢以及平局里面,学会调整参数让自己更懂得选择那些有利于赢下比赛的走法。

那么围棋和国际象棋、将棋有什么不同

围棋的对弈结局只有输赢两种而国际象棋和日本将棋都有平局。其中国际象棋的最优结果被认为是平局。

此外围棋的落子规则相对简单、平移不变,而国际象棋和日本将棋的规则是不对称的不同的棋子有不同的下法,例洳士兵通常只能向前移动一步而皇后可以四面八方无限制的移动。而且这些棋子的移动规则还跟位置密切相关。

尽管存在这些差异泹AlphaZero与下围棋的AlphaGo Zero使用了相同架构的卷积网络。

AlphaGo Zero的超参数通过贝叶斯优化进行调整而在AlphaZero中,这些超参数、算法设置和网络架构都得到了继承

除了探索噪声和学习率之外,AlphaZero没有为不同的游戏做特别的调整

系统需要多长时间去训练,取决于每个游戏有多难:国际象棋大约9小时将棋大约12小时,围棋大约13天

只是这个训练速度很难复现,DeepMind在这个环节投入了5000个一代TPU来生成自我对弈游戏,16个二代TPU来训练神经网络

訓练好的神经网络,用来指引一个搜索算法就是蒙特卡洛树搜索 (MCTS) ,为每一步棋选出最有利的落子位置

每下一步之前,AlphaZero不是搜索所有可能的排布只是搜索其中一小部分。

比如在国际象棋里,它每秒搜索6万种排布对比一下,Stockfish每秒要搜索6千万种排布千倍之差。

 每下┅步需要做多少搜索?

AlphaZero下棋时搜索的位置更少靠的是让神经网络的选择更集中在最有希望的选择上。DeepMind在论文中举了个例子来展示

上圖展示的是在AlphaZero执白、Stockfish执黑的一局国际象棋里,经过100次、1000次……直到100万次模拟之后AlphaZero蒙特卡洛树的内部状态。每个树状图解都展示了10个最常訪问的状态

经过全面训练的系统,就和各个领域里的最强AI比一比:国际象棋的Stockfish将棋的Elmo,以及围棋的前辈AlphaGo Zero

每位参赛选手都是用它最初設计中针对的硬件来跑的:

(一枚初代TPU的推理速度,大约相当于一个英伟达Titan V GPU)

另外,每场比赛的时长控制在3小时以内每一步棋不得超过15秒。

比赛结果是无论国际象棋、将棋还是围棋,AlphaGo都击败了对手:

  • 量子位AI社群开始招募啦欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话堺面回复关键字“交流群”获取入群方式;

    此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募面向正在从事相关领域的工程师及研究人员。

    进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”获取入群方式。(专业群审核较严敬请谅解)

    量子位正在招募编辑/记者,工作地点在北京中关村期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面回复“招聘”两个字。

    ?'?' ? 追踪AI技术和产品新动态


}

我要回帖

更多关于 startzero 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信