智能

Google 新的围棋机器人不用棋谱训练，号称 3 天打败了 AlphaGo

徐弢 · 2017-10-19 12:54:13 · ♥ 58

新的围棋机器人叫 AlphaGo Zero，100:0 获胜

Google 开发的围棋人工智能机器人有了更强的版本，AlphaGo Zero。

2014 年被 Google 收购的 DeepMind 公司公布了新的围棋人工智能 AlphaGo Zero。在计算性能需求更低、没有大量围棋棋谱作训练的前提下，AlphaGo Zero 号称是自学 3 天就能以 100:0 完胜前一代的 AlphaGo。

更详细的研究报告被公布在了权威期刊《自然》上。除了功耗更低、算法更强大外，跟前代 AlphaGo 最大的差别是，AlphaGo Zero 不像前者那样使用大量的训练数据——10 万职业棋手的棋谱。

Deepmind 创始人、CEO 丹米斯·哈撒比斯（Demis Hassabis ）称： “最引人注目的是，我们不再需要任何人类的数据了。”

围棋机器人 AlphaGo 在过去 2 年取得了很大的成果。继去年击败韩国棋手李世乭后，AlphaGo 在今年 5 月份又击败了柯洁。但从其算法层面来说，AlphaGo 仍然倚重大量棋谱数据作为基础，随后再结合下棋模式和自我对战，作进一步的训练。截止去年 3 月份，AlphaGo 就对战了 3000 万个场次。

跟前代的 AlphaGo 在算法架构上有相似之处，新版的 AlphaGo Zero 也使用一种被称为强化学习的算法，再结合深度神经网络。主程序员大卫·西尔弗（David Silver）带领的一个 15 人左右的团队花了价值数百万美元的计算资源，开发了 AlphaGo Zero。

但相比之下，AlphaGo Zero 直接是从头学起，没用现成的棋谱学习数据，更依赖于算法。DeepMind 的开发团队将围棋规则输入进去后，让 AlphaGo Zero 自我对战进行学习，陪练机器人的难度也随着比赛不断提升。

从训练过程来看，AlphaGo Zero 更接近于一个初学者在逐渐增强实力。西尔弗称：“（AlphaGo Zero）它会发现人类的落子模式，并进行尝试，但最终会发现一些它偏好的模式。”

此外，AlphaGo Zero 所需要的计算性能变小了，但能力变强了。早前的 AlphaGo 需要使用 48 个 Google 开发的人工智能芯片 TPU，新版的 AlphaGo Zero 只需要使用 4 个。但算法的能力变强了，根据 Deepmind 的说法，AlphaGo Zero 经过 40 天的训练，对阵 AlphaGo 的胜率达到 90％。

对于业界来说，AlphaGo Zero 看上去有助于减少同行业的公司对于大量数据的依赖，但其算法取得的进展有多大，不少人持谨慎意见。对于计算机来说，围棋的规则相对容易理解，变量较少，研究人员也比较容易对棋谱进行模拟。

另一方面，打败职业选手，围棋机器人所需要的比赛数量远超人类。华盛顿大学的教授、机器学习的研究人员佩德罗·多明戈（Pedro Domingos）称：“假使 AlphaGo 只完成跟李世乭职业生涯差不多的比赛，还能击败他，那才是真正令人印象深刻。”

题图来自：维基百科

原文链接 (已下线): https://www.qdaily.com/articles/46274.html
Wayback 快照: http://web.archive.org/web/20180129093012/http://www.qdaily.com:80/articles/46274.html
原始截图: http://ww3.sinaimg.cn/large/007d5XDply1g3y1klue6ej30u03ck1k9

Google 新的围棋机器人不用棋谱训练，号称 3 天打败了 AlphaGo

Google 新 的 围 棋 机 器 人 不 用 棋 谱 训 练 ， 号 称 3 天 打 败 了 AlphaGo

Google 新的围棋机器人不用棋谱训练，号称 3 天打败了 AlphaGo