科技博主Avi Chawla在X上發(fā)了一條長(zhǎng)帖,詳細(xì)拆解了月之暗面Kimi團(tuán)隊(duì)剛剛發(fā)布的一篇技術(shù)報(bào)告。帖子發(fā)出后不久,馬斯克回復(fù)說:“月之暗面做出了令人印象深刻的結(jié)果”。馬斯克在AI領(lǐng)域的表態(tài)向來以挑剔著稱,甚至曾批評(píng)過Anthropic和OpenAI。他自己的xAI最近也在經(jīng)歷大規(guī)模重組,多位華人聯(lián)合創(chuàng)始人離職,Grok的表現(xiàn)也不盡如人意。然而,在這個(gè)關(guān)鍵時(shí)刻,他對(duì)一家中國AI公司的技術(shù)論文表示認(rèn)可,確實(shí)出人意料。
被馬斯克點(diǎn)贊的這篇論文實(shí)際上是一篇純粹的技術(shù)論文,它提出了一種新的方式,試圖替換掉Transformer架構(gòu)里一個(gè)自2015年以來幾乎沒人動(dòng)過的基礎(chǔ)組件。盡管普通用戶可能不會(huì)直接感受到這篇論文的影響,但它觸及了整個(gè)深度學(xué)習(xí)的基石。
要理解這篇論文的內(nèi)容,需要了解現(xiàn)代大語言模型,無論是GPT、Claude還是國內(nèi)的一些模型,其底層架構(gòu)都是Transformer。Transformer之所以能訓(xùn)練到幾十層甚至上百層而不崩潰,是因?yàn)椤皻埐钸B接”機(jī)制在起作用。殘差連接的原理是每一層網(wǎng)絡(luò)在做完計(jì)算后,將自己的輸出和輸入加在一起傳到下一層,這樣梯度在反向傳播時(shí)可以直達(dá)底層,不會(huì)因?yàn)閷訑?shù)太深而消失。但這種“加法”是完全平等的,導(dǎo)致早期層的信息逐漸被稀釋,后期層的信息變得不穩(wěn)定,這就是所謂的“PreNorm稀釋”。
Kimi團(tuán)隊(duì)注意到這個(gè)問題,并提出了一種新的方法——全注意力殘差。具體做法是給每一層賦予一個(gè)可學(xué)習(xí)的查詢向量,這個(gè)向量會(huì)對(duì)之前所有層的輸出做一次注意力計(jì)算,產(chǎn)生一組歸一化的權(quán)重。當(dāng)前層的輸入不再是之前所有層輸出的簡(jiǎn)單求和,而是按照這組權(quán)重的加權(quán)組合。然而,全注意力殘差在實(shí)際應(yīng)用中存在內(nèi)存和通信開銷問題,因此他們又提出了塊注意力殘差,將所有層分成若干個(gè)塊,每個(gè)塊內(nèi)部使用傳統(tǒng)的殘差連接,塊與塊之間使用注意力機(jī)制選擇性聚合。這樣只需要存儲(chǔ)和傳輸每個(gè)塊的匯總表示,大大降低了內(nèi)存占用。
一篇關(guān)于Transformer模型的論文引起了廣泛關(guān)注,包括馬斯克和Karpathy在內(nèi)的多位專家都對(duì)其表達(dá)了濃厚興趣
2026-03-19 10:02:26深圳17歲高三生成Kimi論文第一作者馬斯克這家伙又開始了:“大多數(shù)人,中國以外的人,根本不知道中國有多強(qiáng)
2026-02-09 09:06:36馬斯克說中國絕對(duì)是能源大國