阿爾法狗再進(jìn)化碾壓舊狗不再受人類知識限制

小大

用微信掃描二維碼
分享至好友和朋友圈

掃描到手機×

2017-10-19 13:35:55 中國青年網(wǎng) 參與評論()人

自學(xué)3天，就打敗了舊版AlphaGo

除了上述的區(qū)別之外，AlphaGo Zero還在3個方面與此前版本有明顯差別。

AlphaGo-Zero的訓(xùn)練時間軸

首先，AlphaGo Zero僅用棋盤上的黑白子作為輸入，而前代則包括了小部分人工設(shè)計的特征輸入。

其次，AlphaGoZero僅用了單一的神經(jīng)網(wǎng)絡(luò)。在此前的版本中，AlphaGo用到了“策略網(wǎng)絡(luò)”來選擇下一步棋的走法，以及使用“價值網(wǎng)絡(luò)”來預(yù)測每一步棋后的贏家。而在新的版本中，這兩個神經(jīng)網(wǎng)絡(luò)合二為一，從而讓它能得到更高效的訓(xùn)練和評估。

第三，AlphaGoZero并不使用快速、隨機的走子方法。在此前的版本中，AlphaGo用的是快速走子方法，來預(yù)測哪個玩家會從當(dāng)前的局面中贏得比賽。相反，新版本依靠地是其高質(zhì)量的神經(jīng)網(wǎng)絡(luò)來評估下棋的局勢。

AlphaGo幾個版本的排名情況。

據(jù)哈薩比斯和席爾瓦介紹，以上這些不同幫助新版AlphaGo在系統(tǒng)上有了提升，而算法的改變讓系統(tǒng)變得更強更有效。

經(jīng)過短短3天的自我訓(xùn)練，AlphaGo Zero就強勢打敗了此前戰(zhàn)勝李世石的舊版AlphaGo，戰(zhàn)績是100:0的。經(jīng)過40天的自我訓(xùn)練，AlphaGo Zero又打敗了AlphaGo Master版本。“Master”曾擊敗過世界頂尖的圍棋選手，甚至包括世界排名第一的柯潔。

對于希望利用人工智能推動人類社會進(jìn)步為使命的DeepMind來說，圍棋并不是AlphaGo的終極奧義，他們的目標(biāo)始終是要利用AlphaGo打造通用的、探索宇宙的終極工具。AlphaGoZero的提升，讓DeepMind看到了利用人工智能技術(shù)改變?nèi)祟惷\的突破。他們目前正積極與英國醫(yī)療機構(gòu)和電力能源部門合作，提高看病效率和能源效率。