主持人:你可能會說,它會超越人類的認(rèn)知。盡管我們看到了一些例子,但貌似尚未真正見到你說的這點。很大程度上,我們?nèi)匀惶幱诋?dāng)前的科學(xué)水平。你認(rèn)為什么能讓它開始有所超越呢?
Hinton:我覺得在特定情況中已經(jīng)看到這點了。以AlphaGo為例。與李世石的那場著名比賽中,AlphaGo的第37步,所有專家看來都覺得是錯棋,但后來他們意識到這又是一步妙棋。
這已經(jīng)是在那個有限的領(lǐng)域內(nèi),頗具創(chuàng)造力的動作。隨著模型規(guī)模增加,這樣的例子會更多的。
主持人:AlphaGo的不同之處在于,它使用了強(qiáng)化學(xué)習(xí),能夠超越當(dāng)前狀態(tài)。它從模仿學(xué)習(xí)開始,觀察人類如何在棋盤上博弈,然后通過自我對弈,最終有所超越。你認(rèn)為這是當(dāng)前數(shù)據(jù)實驗室缺少的嗎?
Hinton:我認(rèn)為這很可能有所缺失。AlphaGo和AlphaZero的自我對弈,是它能夠做出這些創(chuàng)造性舉動的重要原因。但這不是完全必要的。
很久以前我做過一個小實驗,訓(xùn)練神經(jīng)網(wǎng)絡(luò)識別手寫數(shù)字。給它訓(xùn)練數(shù)據(jù),一半的答案是錯誤的。它能學(xué)得多好?你把一半的答案弄錯一次,然后保持這種狀態(tài)。所以,它不能通過只看同一個例子來把錯誤率平均。有時答案正確,有時答案錯誤,訓(xùn)練數(shù)據(jù)的誤差為50%。
但是你訓(xùn)練反向傳播,誤差會降到5%或更低。換句話說,從標(biāo)記不良的數(shù)據(jù)中,它可以得到更好的結(jié)果。它可以看到訓(xùn)練數(shù)據(jù)是錯誤的。
聰明的學(xué)生能比他們的導(dǎo)師更聰明。即使接收了導(dǎo)師傳授的所有內(nèi)容,但他們能取其精華去其糟粕,最終比導(dǎo)師更聰明。因此,這些大型神經(jīng)網(wǎng)絡(luò),其實具有超越訓(xùn)練數(shù)據(jù)的能力,大多數(shù)人沒有意識到。
主持人:這些模型能夠獲得推理能力嗎?一種可能的方法是,在這些模型之上添加某種啟發(fā)式方法。目前,許多研究都在嘗試這種,即將一個思維鏈的推理反饋到模型自身中。另一種可能的方法是,在模型本身中增加參數(shù)規(guī)模。你對此有何看法?
5月14日,OpenAI在春季發(fā)布會上揭曉了其最新的旗艦AI模型——GPT-4o,這一模型以“全知全能”為目標(biāo),實現(xiàn)了實時的語音、文本、圖像交互功能
2024-05-15 09:10:07OpenAI發(fā)布全新生成式AI模型GPT-4o