自學(xué)3天,就打敗了舊版AlphaGo
除了上述的區(qū)別之外,AlphaGo Zero還在3個方面與此前版本有明顯差別。

AlphaGo-Zero的訓(xùn)練時間軸
首先,AlphaGo Zero僅用棋盤上的黑白子作為輸入,而前代則包括了小部分人工設(shè)計的特征輸入。
其次,AlphaGoZero僅用了單一的神經(jīng)網(wǎng)絡(luò)。在此前的版本中,AlphaGo用到了“策略網(wǎng)絡(luò)”來選擇下一步棋的走法,以及使用“價值網(wǎng)絡(luò)”來預(yù)測每一步棋后的贏家。而在新的版本中,這兩個神經(jīng)網(wǎng)絡(luò)合二為一,從而讓它能得到更高效的訓(xùn)練和評估。
第三,AlphaGoZero并不使用快速、隨機的走子方法。在此前的版本中,AlphaGo用的是快速走子方法,來預(yù)測哪個玩家會從當(dāng)前的局面中贏得比賽。相反,新版本依靠地是其高質(zhì)量的神經(jīng)網(wǎng)絡(luò)來評估下棋的局勢。

AlphaGo幾個版本的排名情況。
據(jù)哈薩比斯和席爾瓦介紹,以上這些不同幫助新版AlphaGo在系統(tǒng)上有了提升,而算法的改變讓系統(tǒng)變得更強更有效。
經(jīng)過短短3天的自我訓(xùn)練,AlphaGo Zero就強勢打敗了此前戰(zhàn)勝李世石的舊版AlphaGo,戰(zhàn)績是100:0的。經(jīng)過40天的自我訓(xùn)練,AlphaGo Zero又打敗了AlphaGo Master版本。“Master”曾擊敗過世界頂尖的圍棋選手,甚至包括世界排名第一的柯潔。
對于希望利用人工智能推動人類社會進(jìn)步為使命的DeepMind來說,圍棋并不是AlphaGo的終極奧義,他們的目標(biāo)始終是要利用AlphaGo打造通用的、探索宇宙的終極工具。AlphaGoZero的提升,讓DeepMind看到了利用人工智能技術(shù)改變?nèi)祟惷\的突破。他們目前正積極與英國醫(yī)療機構(gòu)和電力能源部門合作,提高看病效率和能源效率。