登顶世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演讲

2016-08-01 12:38:37     作者:Blake      来源:雷锋网

最新排名显示,AlphaGo以3612分登顶世界第一,超越了所有人类棋手。

世界职业围棋排名网站GoRatings最新排名显示,连续24个月排名世界第一的中国棋手柯洁被谷歌人工智能机器人AlphaGo反超。截止目前,AlphaGo以3612分登顶世界第一,超越了所有人类棋手。

如上图所示,目前Google Deepmind AlphaGo以3611分排名世界第一,柯洁以3608分排名世界第二,而之前与AlphaGo进行“人机大战”以1:4告负的韩国棋手李世石以3557排名第四。

按照Goratings世界围棋排名的规则,如果一名新加入的棋手只赢不输的话,是不能被算入正式排名的。而此前AlphaGo正好输了李世石一盘,因此给了AlphaGo入围排名榜单的机会,此前一直排名世界第二。另外,Goratings的规则要求之前有过交手的双方,如果对手的积分发生改变,则自身积分也会相应调整。AlphaGo此前以4胜1负战胜李世石,因此只要李世石的积分提升,AlphaGo也会跟着提升。而柯洁的排名之所以下降是因为近日在金立杯两岸世界冠军争霸赛表现不佳,胜周俊勋,负时越和唐韦星,这才给了AlphaGo称为世界第一的机会。

至此,AlphaGo以3612分登顶世界第一,超越了所有人类棋手。这让我们不由得想,到底是什么使得AlphaGo如此不同,能在所有的围棋AI中拔得头筹,甚至打败人类登顶世界第一?

在刚刚过去的IJCAI2016(第25届国际人工智能联合会议)学术大会中,谷歌 DeepMind 研究员、AlphaGo幕后英雄之一David Sliver 发表了题为“使用深度神经网络和树搜索来精通围棋游戏(Mastering the Game of Go with Deep Neural Networks and Tree Search)”的特邀演讲。在演讲中,他主要阐述了AlphaGo的实现原理并对AlphaGo与人类棋手对弈结果进行了分析。

在演讲中他提到AlphaGo主要是改进了以下两种方法

l  MCTS搜索(蒙特卡洛树搜索)

l  CNN(卷曲神经网络)

 Value Networks(价值网络)和 Policy Networks(策略网络)方面:

Value Networks 评估棋盘位置,Policy Networks 选择下棋步法,这些神经网络模型通过一种新的方法进行训练,结合人类专家比赛中学到的监督学习,以及在自己和自己下棋(Self-Play)中学到强化学习,其实质是深度学习网络(CNN)跟蒙特卡罗搜索树(MCTS)进行结合。


基于全局特征和深度卷积网络(CNN)训练出来的策略网络(Policy Network),其主要作用是给定当前盘面状态作为输入,输出下一步棋在棋盘其它空地上的落子概率。

另一个是利用局部特征和线性模型训练出来的快速走棋策略(Rollout Policy),策略网络速度较慢但精度较高,快速走棋策略则反之。

策略网络上的监督学习

l  12层的卷曲神经网络

l  使用Google Cloud在超过50个GPU中训练四周的时间

l  在测试数据集上57%的准确率(目前最佳44%)

策略网络上的强化学习

l  12层的卷曲神经网络

l  使用Google Cloud在超过50个GPU中训练一周的事件

l  相比监督学习实现了80%的结果,业余3段水准

策略网络与先前训练好的策略网络互相对弈,利用增强式学习来修正策略网络的参数,最终得到增强的策略网络。


实现过程如下:

利用普通的策略网络来生成棋局的前U-1步(U是一个属于[1, 450]的随机变量),然后利用随机采样来决定第U步的位置(这是为了增加棋的多样性,防止过拟合)。

随后,利用增强的策略网络来完成后面的自我对弈过程,直至棋局结束分出胜负。此后,第U步的盘面作为特征输入,胜负作为label,学习一个价值网络(Value Network),用于判断结果的输赢概率。价值网络其实是AlphaGo的一大创新,围棋最为困难的地方在于很难根据当前的局势来判断最后的结果,这点职业棋手也很难掌握。通过大量的自我对弈,AlphaGo产生了3000万盘棋局,用来训练价值网络。但由于围棋的搜索空间太大,3000万盘棋局也不能帮AlphaGo完全攻克这个问题。 

AlphaG的一个关键之处在蒙特卡罗搜索树(MCTS)中嵌入了深度神经网络来减少搜索空间,这大大减少了不必要的搜索步骤,通过价值网络和策略网络显著提升了其胜率。

 

使用策略网络减少其宽度

使用价值网络减少深度

利用这两个改进的网络来分别判断局势,两个局势得分相加为此处最后走棋获胜的得分。这里使用快速走棋策略是一个用速度来换取量的方法,从被判断的位置出发,快速行棋至最后,每一次行棋结束后都会有个输赢结果,然后综合统计这个节点对应的胜率。而价值网络只要根据当前的状态便可直接评估出最后的结果,两者各有优缺点并进行互补。

在2015年10月5:0战胜欧洲围棋冠军樊麾(三届欧洲围棋冠军)之后,AlphaGo于2016年3月4:1战胜韩国传奇棋手李世石(近十年内围棋顶尖棋手之一)。在第四局中由于李世石棋手的“神之一手”,AlphaGo落败,也给了AlphaGo入围Goratings排名榜单的机会。

在David Silver看来,AlphaGo已超越了所有其他围棋AI程序。在首尔与李世石对弈过程中,他认为AlphaGo已经展现出超越专业9段棋手的水准,按Goratings分数来排名的话应该接近4500分左右。这个分数不仅超过中国棋手柯洁九段的最高分数,也比其自身目前分数要高。究竟这个惊人的成绩是否属实,让我们期待AlphaGo与柯洁九段的终极“人机大战“。

参考资料 

PS : 本文由雷锋网(搜索“雷锋网”公众号关注)独家编译,未经许可拒绝转载!

via David Silver IJCAI2016

返回沙发首页  
沙发管家微信
扫描关注沙发管家微信 QQ群: 沙发网官方群 微博:

资讯评论

亲,你需要登录后才能进行评论喔!

还没有评论,快来抢沙发吧!

提示

热门设备安装方法 查看更多>>

最新设备

智能电视 / 盒子评测

安装指南

应用

热门专题