电竞下注-中国电竞赛事及体育赛事平台

當(dāng)前位置:新聞 > 國(guó)際新聞 > 正文

阿爾法狗之父揭秘最強(qiáng)“狗”如何煉成:3天走完人類千年棋史

2017-10-19 08:17:54    中國(guó)青年網(wǎng)  參與評(píng)論()人

倫敦當(dāng)?shù)貢r(shí)間10月18日18:00(北京時(shí)間19日01:00),谷歌旗下的DeepMind團(tuán)隊(duì)公布了進(jìn)化后的最強(qiáng)版AlphaGo ,代號(hào)AlphaGo Zero。

新版本的AlphaGo究竟有多厲害?打敗李世石的AlphaGo用了3000萬盤比賽作為訓(xùn)練數(shù)據(jù),AlphaGo Zero用了490萬盤比賽數(shù)據(jù)。經(jīng)過3天的訓(xùn)練,AlphaGo Zero就以100:0的比分完勝對(duì)陣?yán)钍朗哪前鍭lphaGo。

DeepMind聯(lián)合創(chuàng)始人兼CEO 、AlphaGo之父戴密斯?哈薩比斯(Demis Hassabis)和AlphaGo團(tuán)隊(duì)負(fù)責(zé)人大衛(wèi)?席爾瓦(Dave Sliver) 等人同時(shí)在官方博客上發(fā)表文章,詳解最強(qiáng)版本阿爾法狗是如何煉成的,與前代有何不同。

哈薩比斯與學(xué)習(xí)大量人類棋譜起步的前代AlphaGo不同,AlphaGo Zero是從“嬰兒般的白紙”開始,通過3天數(shù)百萬盤自我對(duì)弈,走完了人類千年的圍棋歷史,并探索出了不少橫空出世的招法。

哈薩比斯等人專文:《AlphaGo Zero:從零開始》

席爾瓦在烏鎮(zhèn)人機(jī)峰會(huì)上發(fā)言從語音識(shí)別、圖像分類到基因和藥物研究,人工智能發(fā)展迅速。這些專家系統(tǒng),很多是借用海量人類經(jīng)驗(yàn)和數(shù)據(jù)開發(fā)出來的。

然而,在有些特定問題上,人類的知識(shí)要么過于昂貴,要么不靠譜,要么無法獲得。因此,人工智能研究的一個(gè)長(zhǎng)期目標(biāo)就是跳過這一步,創(chuàng)造能在最有挑戰(zhàn)性的領(lǐng)域,不用人類輸入就達(dá)到超人水平的算法。我們發(fā)表在《自然》期刊上的最新論文,展示了實(shí)現(xiàn)該目標(biāo)的關(guān)鍵一步。

論文介紹了首個(gè)戰(zhàn)勝人類圍棋冠軍的電腦程序AlphaGo的最新進(jìn)化版本:AlphaGo Zero。AlphaGo Zero更為強(qiáng)大,可以一爭(zhēng)史上最強(qiáng)圍棋手。

AlphaGo的前幾代版本,一開始用上千盤人類業(yè)余和專業(yè)棋手的棋譜進(jìn)行訓(xùn)練,學(xué)習(xí)如何下圍棋。AlphaGo Zero則跳過了這個(gè)步驟,自我對(duì)弈學(xué)習(xí)下棋,完全從亂下開始。用這種方法,它很快超過了人類水平,對(duì)陣此前戰(zhàn)勝人類冠軍李世石的前代AlphaGo取得了100連勝。

AlphaGo Zero之所以能當(dāng)自己的老師,是用了一種叫

強(qiáng)化學(xué)習(xí)的新模式。系統(tǒng)從一個(gè)對(duì)圍棋一無所知的神經(jīng)網(wǎng)絡(luò)開始,將該神經(jīng)網(wǎng)絡(luò)和一個(gè)強(qiáng)力搜索算法結(jié)合,自我對(duì)弈。在對(duì)弈過程中,神經(jīng)網(wǎng)絡(luò)不斷調(diào)整、升級(jí),預(yù)測(cè)每一步落子和最終的勝利者。

相關(guān)報(bào)道:

    關(guān)閉