我們的神經(jīng)模型并不會(huì)這樣做,原因是,對(duì)依賴于輸入數(shù)據(jù)的權(quán)重進(jìn)行臨時(shí)更改,則無(wú)法同時(shí)處理大量不同的情況。目前,我們采用大量不同的字符串,將它們堆疊在一起,然后并行處理它們,因?yàn)檫@樣我們可以進(jìn)行矩陣乘法,效率要高得多。正是這種效率,阻止了我們使用快速權(quán)重。但大腦顯然將快速權(quán)重用于臨時(shí)記憶。而且,你可以通過(guò)這種方式。做各種我們目前不做的事情。
我認(rèn)為這是你必須學(xué)習(xí)的最重要的事情之一。我非常希望像Graphcore(一家英國(guó)的AI芯片公司)這樣的設(shè)備,它們采用順序方式,并只進(jìn)行在線學(xué)習(xí),那么它們就可以使用快速權(quán)重。但這還沒有奏效。或許當(dāng)人們使用電導(dǎo)作為權(quán)重時(shí),最終它會(huì)奏效。
官網(wǎng)截圖:https://www.graphcore.ai/
主持人:了解這些模型如何工作,了解大腦如何工作,對(duì)你的思維方式有何影響?
Hinton:多年來(lái),人們非??床黄鸫笮碗S機(jī)神經(jīng)網(wǎng)絡(luò),只要給它大量的訓(xùn)練數(shù)據(jù),它就會(huì)學(xué)會(huì)做復(fù)雜的事情的想法。你和統(tǒng)計(jì)學(xué)家或語(yǔ)言學(xué)家,或者大多數(shù)人工智能領(lǐng)域的人交談,他們會(huì)說(shuō),那只是一個(gè)白日夢(mèng)。沒有某種先天知識(shí),沒有很多架構(gòu)限制,模型就不可能學(xué)會(huì)真正復(fù)雜的事情。以為隨便用一個(gè)大型神經(jīng)網(wǎng)絡(luò),就能從數(shù)據(jù)中學(xué)習(xí)一大堆東西——但這是完全錯(cuò)誤的。
隨機(jī)梯度下降,即使用梯度反復(fù)調(diào)整權(quán)重,也可以學(xué)習(xí)非常復(fù)雜的東西,這些大型模型已經(jīng)證實(shí)了這一點(diǎn)。這是對(duì)大腦理解的一個(gè)重要觀點(diǎn)。大腦并不需要擁有所有的先天結(jié)構(gòu)。即使大腦確實(shí)擁有許多先天結(jié)構(gòu),但對(duì)易于學(xué)習(xí)的事物,又并不需要這些先天結(jié)構(gòu)。
喬姆斯基的觀點(diǎn)是,只有當(dāng)知識(shí)本身無(wú)比扎實(shí)、成熟,才能學(xué)習(xí)像語(yǔ)言這樣復(fù)雜的事物。然而現(xiàn)在看來(lái),這種觀點(diǎn)顯然很荒謬。