智能

Google 新的围棋机器人不用棋谱训练,号称 3 天打败了 AlphaGo

徐弢 · ·

新的围棋机器人叫 AlphaGo Zero,100:0 获胜

Google 开发的围棋人工智能机器人有了更强的版本,AlphaGo Zero。

2014 年被 Google 收购的 DeepMind 公司公布了新的围棋人工智能 AlphaGo Zero。在计算性能需求更低、没有大量围棋棋谱作训练的前提下,AlphaGo Zero 号称是自学 3 天就能以 100:0 完胜前一代的 AlphaGo。

更详细的研究报告被公布在了权威期刊《自然》上。除了功耗更低、算法更强大外,跟前代 AlphaGo 最大的差别是,AlphaGo Zero 不像前者那样使用大量的训练数据——10 万职业棋手的棋谱。

Deepmind 创始人、CEO 丹米斯·哈撒比斯(Demis Hassabis)称: “最引人注目的是,我们不再需要任何人类的数据了。”

围棋机器人 AlphaGo 在过去 2 年取得了很大的成果。继去年击败韩国棋手李世乭后,AlphaGo 在今年 5 月份又击败了柯洁。但从其算法层面来说,AlphaGo 仍然倚重大量棋谱数据作为基础,随后再结合下棋模式和自我对战,作进一步的训练。截止去年 3 月份,AlphaGo 就对战了 3000 万个场次。

跟前代的 AlphaGo 在算法架构上有相似之处,新版的 AlphaGo Zero 也使用一种被称为强化学习的算法,再结合深度神经网络。主程序员大卫·西尔弗(David Silver)带领的一个 15 人左右的团队花了价值数百万美元的计算资源,开发了 AlphaGo Zero。

但相比之下,AlphaGo Zero 直接是从头学起,没用现成的棋谱学习数据,更依赖于算法。DeepMind 的开发团队将围棋规则输入进去后,让 AlphaGo Zero 自我对战进行学习,陪练机器人的难度也随着比赛不断提升。

从训练过程来看,AlphaGo Zero 更接近于一个初学者在逐渐增强实力。西尔弗称:“(AlphaGo Zero)它会发现人类的落子模式,并进行尝试,但最终会发现一些它偏好的模式。”

此外,AlphaGo Zero 所需要的计算性能变小了,但能力变强了。早前的 AlphaGo 需要使用 48 个 Google 开发的人工智能芯片 TPU,新版的 AlphaGo Zero 只需要使用 4 个。但算法的能力变强了,根据 Deepmind 的说法,AlphaGo Zero 经过 40 天的训练,对阵 AlphaGo 的胜率达到 90%。

对于业界来说,AlphaGo Zero 看上去有助于减少同行业的公司对于大量数据的依赖,但其算法取得的进展有多大,不少人持谨慎意见。对于计算机来说,围棋的规则相对容易理解,变量较少,研究人员也比较容易对棋谱进行模拟。

另一方面,打败职业选手,围棋机器人所需要的比赛数量远超人类。华盛顿大学的教授、机器学习的研究人员佩德罗·多明戈(Pedro Domingos)称:“假使 AlphaGo 只完成跟李世乭职业生涯差不多的比赛,还能击败他,那才是真正令人印象深刻。”


题图来自:维基百科


原文链接 (已下线): https://www.qdaily.com/articles/46274.html
Wayback 快照: http://web.archive.org/web/20180129093012/http://www.qdaily.com:80/articles/46274.html
原始截图: http://ww3.sinaimg.cn/large/007d5XDply1g3y1klue6ej30u03ck1k9