馬斯克說這就是kimi 點贊中國AI技術論文

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2026-03-21 10:03:17 鈦媒體APP

科技博主Avi Chawla在X上發(fā)了一條長帖，詳細拆解了月之暗面Kimi團隊剛剛發(fā)布的一篇技術報告。帖子發(fā)出后不久，馬斯克回復說：“月之暗面做出了令人印象深刻的結果”。馬斯克在AI領域的表態(tài)向來以挑剔著稱，甚至曾批評過Anthropic和OpenAI。他自己的xAI最近也在經歷大規(guī)模重組，多位華人聯(lián)合創(chuàng)始人離職，Grok的表現也不盡如人意。然而，在這個關鍵時刻，他對一家中國AI公司的技術論文表示認可，確實出人意料。

被馬斯克點贊的這篇論文實際上是一篇純粹的技術論文，它提出了一種新的方式，試圖替換掉Transformer架構里一個自2015年以來幾乎沒人動過的基礎組件。盡管普通用戶可能不會直接感受到這篇論文的影響，但它觸及了整個深度學習的基石。

要理解這篇論文的內容，需要了解現代大語言模型，無論是GPT、Claude還是國內的一些模型，其底層架構都是Transformer。Transformer之所以能訓練到幾十層甚至上百層而不崩潰，是因為“殘差連接”機制在起作用。殘差連接的原理是每一層網絡在做完計算后，將自己的輸出和輸入加在一起傳到下一層，這樣梯度在反向傳播時可以直達底層，不會因為層數太深而消失。但這種“加法”是完全平等的，導致早期層的信息逐漸被稀釋，后期層的信息變得不穩(wěn)定，這就是所謂的“PreNorm稀釋”。

Kimi團隊注意到這個問題，并提出了一種新的方法——全注意力殘差。具體做法是給每一層賦予一個可學習的查詢向量，這個向量會對之前所有層的輸出做一次注意力計算，產生一組歸一化的權重。當前層的輸入不再是之前所有層輸出的簡單求和，而是按照這組權重的加權組合。然而，全注意力殘差在實際應用中存在內存和通信開銷問題，因此他們又提出了塊注意力殘差，將所有層分成若干個塊，每個塊內部使用傳統(tǒng)的殘差連接，塊與塊之間使用注意力機制選擇性聚合。這樣只需要存儲和傳輸每個塊的匯總表示，大大降低了內存占用。

Kimi團隊還進行了一系列實驗，驗證了這一改進在不同模型規(guī)模下的有效性。結果顯示，注意力在所有計算預算下都優(yōu)于基線，效果相當于用1.25倍的計算量訓練出的基線模型。此外，他們在自己的大模型上進行了實戰(zhàn)驗證，結果表明塊注意力殘差確實緩解了PreNorm稀釋問題，各層輸出的幅度保持在一個相對穩(wěn)定的范圍內，梯度分布也更加均勻。

月之暗面正處于上市的關鍵時期，近期完成了多輪融資，估值迅速增長。然而，融資順利并不意味著沒有爭議。OpenClaw創(chuàng)始人彼得·斯坦伯格公開質疑月之暗面的Kimi Claw產品，認為其云端部署模式違背了OpenClaw的設計理念，存在安全和隱私風險。斯坦伯格的質疑在社區(qū)中產生了影響，一些用戶表示暫時不會使用該產品。

盡管如此，馬斯克的那條回復為月之暗面帶來了正面影響。雖然這兩件事看似無關，但在輿論場上，它們會被放在一起解讀。馬斯克的認可對正在進行新一輪融資的月之暗面來說時機極佳，引發(fā)了更多人關注這篇論文。一個十一年沒人碰過的組件被重新打開，接下來會發(fā)生什么，誰也不知道。

(責任編輯：zx0001)

關閉

馬斯克說這就是kimi 點贊中國AI技術論文

相關新聞

今日熱點

頻道熱點