馬斯克說這就是kimi 點(diǎn)贊中國AI技術(shù)論文

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-03-21 10:03:17 鈦媒體APP

科技博主Avi Chawla在X上發(fā)了一條長(zhǎng)帖，詳細(xì)拆解了月之暗面Kimi團(tuán)隊(duì)剛剛發(fā)布的一篇技術(shù)報(bào)告。帖子發(fā)出后不久，馬斯克回復(fù)說：“月之暗面做出了令人印象深刻的結(jié)果”。馬斯克在AI領(lǐng)域的表態(tài)向來以挑剔著稱，甚至曾批評(píng)過Anthropic和OpenAI。他自己的xAI最近也在經(jīng)歷大規(guī)模重組，多位華人聯(lián)合創(chuàng)始人離職，Grok的表現(xiàn)也不盡如人意。然而，在這個(gè)關(guān)鍵時(shí)刻，他對(duì)一家中國AI公司的技術(shù)論文表示認(rèn)可，確實(shí)出人意料。

被馬斯克點(diǎn)贊的這篇論文實(shí)際上是一篇純粹的技術(shù)論文，它提出了一種新的方式，試圖替換掉Transformer架構(gòu)里一個(gè)自2015年以來幾乎沒人動(dòng)過的基礎(chǔ)組件。盡管普通用戶可能不會(huì)直接感受到這篇論文的影響，但它觸及了整個(gè)深度學(xué)習(xí)的基石。

要理解這篇論文的內(nèi)容，需要了解現(xiàn)代大語言模型，無論是GPT、Claude還是國內(nèi)的一些模型，其底層架構(gòu)都是Transformer。Transformer之所以能訓(xùn)練到幾十層甚至上百層而不崩潰，是因?yàn)椤皻埐钸B接”機(jī)制在起作用。殘差連接的原理是每一層網(wǎng)絡(luò)在做完計(jì)算后，將自己的輸出和輸入加在一起傳到下一層，這樣梯度在反向傳播時(shí)可以直達(dá)底層，不會(huì)因?yàn)閷訑?shù)太深而消失。但這種“加法”是完全平等的，導(dǎo)致早期層的信息逐漸被稀釋，后期層的信息變得不穩(wěn)定，這就是所謂的“PreNorm稀釋”。

Kimi團(tuán)隊(duì)注意到這個(gè)問題，并提出了一種新的方法——全注意力殘差。具體做法是給每一層賦予一個(gè)可學(xué)習(xí)的查詢向量，這個(gè)向量會(huì)對(duì)之前所有層的輸出做一次注意力計(jì)算，產(chǎn)生一組歸一化的權(quán)重。當(dāng)前層的輸入不再是之前所有層輸出的簡(jiǎn)單求和，而是按照這組權(quán)重的加權(quán)組合。然而，全注意力殘差在實(shí)際應(yīng)用中存在內(nèi)存和通信開銷問題，因此他們又提出了塊注意力殘差，將所有層分成若干個(gè)塊，每個(gè)塊內(nèi)部使用傳統(tǒng)的殘差連接，塊與塊之間使用注意力機(jī)制選擇性聚合。這樣只需要存儲(chǔ)和傳輸每個(gè)塊的匯總表示，大大降低了內(nèi)存占用。

12 全文共 2 頁下一頁

關(guān)閉

馬斯克說這就是kimi 點(diǎn)贊中國AI技術(shù)論文

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)