丹麥哥本哈根信息技術大學的塞巴斯蒂安·里斯(Sebastian Risi)表示:“這看起來是向前邁出的一大步。我們不知道這其間有多少創(chuàng)新,但培訓AI的方式似乎是關鍵?!崩锼沟耐履釥査埂べZ斯特森(Niels Justesen)說:“我沒想到會發(fā)生這樣的事情,尤其是因為之前的端到端學習《星際爭霸》的嘗試遠遠沒有達到人類的水平。”
殘酷的強化學習AI競技場
最終,這類工作的最終目標不是利用AI在視頻游戲中擊敗人類,而是改進AI的訓練方法,尤其是為了創(chuàng)建能夠在《星際爭霸》等復雜虛擬環(huán)境中運行的系統(tǒng)。
為了訓練AlphaStar,DeepMind的研究人員使用了被稱為強化學習的方法。AI智能體基本上是通過反復嘗試才能達到某些目標,比如贏球或者僅僅是生存下去。它們首先通過模仿人類玩家來學習,然后在類似競技比賽中相互對決。最強的AI會存活下來,最弱的則被淘汰。DeepMind估計,其每個AlphaStar智能體都以這種方式積累了大約200年的游戲時間,游戲速度也在加快。
DeepMind很清楚自己開展這項工作的目標。AlphaStar項目聯(lián)合負責人奧里爾·維尼亞斯(Oriol Vinyals)說:“首先,也是最重要的,DeepMind的任務是建立通用AI,它可以執(zhí)行人類所能完成的任何心理任務。要實現(xiàn)這個目標,最重要的就是對我們的AI智能體在各種任務中的表現(xiàn)進行基準測試。”
科技媒體Engadget評論道,谷歌旗下的AI子公司DeepMind已經轉向電腦游戲,其AI系統(tǒng)始終在進行微調,以適應《星際爭霸2》。今天的《星際爭霸2》比賽,是AlphaStar與職業(yè)玩家的第一次正面交鋒。在兩場五局的系列比賽中,AlphaStar戰(zhàn)勝了職業(yè)選手TLO和MaNa,贏得了10場勝利。而在連續(xù)十次失利后,人類玩家終于贏得了最后一場比賽。
DeepMind的野心
曼城9-0伯頓 英格蘭聯(lián)賽杯半決賽首回合繼續(xù)進行角逐,曼城坐鎮(zhèn)伊蒂哈德球場迎戰(zhàn)英甲球隊伯頓。全場比賽結束,曼城9-0狂屠伯頓。