科技博主Avi Chawla在X上發(fā)了一條長帖,詳細拆解了月之暗面Kimi團隊剛剛發(fā)布的一篇技術報告。帖子發(fā)出后不久,馬斯克回復說:“月之暗面做出了令人印象深刻的結果”。馬斯克在AI領域的表態(tài)向來以挑剔著稱,甚至曾批評過Anthropic和OpenAI。他自己的xAI最近也在經歷大規(guī)模重組,多位華人聯(lián)合創(chuàng)始人離職,Grok的表現也不盡如人意。然而,在這個關鍵時刻,他對一家中國AI公司的技術論文表示認可,確實出人意料。
被馬斯克點贊的這篇論文實際上是一篇純粹的技術論文,它提出了一種新的方式,試圖替換掉Transformer架構里一個自2015年以來幾乎沒人動過的基礎組件。盡管普通用戶可能不會直接感受到這篇論文的影響,但它觸及了整個深度學習的基石。
要理解這篇論文的內容,需要了解現代大語言模型,無論是GPT、Claude還是國內的一些模型,其底層架構都是Transformer。Transformer之所以能訓練到幾十層甚至上百層而不崩潰,是因為“殘差連接”機制在起作用。殘差連接的原理是每一層網絡在做完計算后,將自己的輸出和輸入加在一起傳到下一層,這樣梯度在反向傳播時可以直達底層,不會因為層數太深而消失。但這種“加法”是完全平等的,導致早期層的信息逐漸被稀釋,后期層的信息變得不穩(wěn)定,這就是所謂的“PreNorm稀釋”。
Kimi團隊注意到這個問題,并提出了一種新的方法——全注意力殘差。具體做法是給每一層賦予一個可學習的查詢向量,這個向量會對之前所有層的輸出做一次注意力計算,產生一組歸一化的權重。當前層的輸入不再是之前所有層輸出的簡單求和,而是按照這組權重的加權組合。然而,全注意力殘差在實際應用中存在內存和通信開銷問題,因此他們又提出了塊注意力殘差,將所有層分成若干個塊,每個塊內部使用傳統(tǒng)的殘差連接,塊與塊之間使用注意力機制選擇性聚合。這樣只需要存儲和傳輸每個塊的匯總表示,大大降低了內存占用。
Kimi團隊還進行了一系列實驗,驗證了這一改進在不同模型規(guī)模下的有效性。結果顯示,注意力在所有計算預算下都優(yōu)于基線,效果相當于用1.25倍的計算量訓練出的基線模型。此外,他們在自己的大模型上進行了實戰(zhàn)驗證,結果表明塊注意力殘差確實緩解了PreNorm稀釋問題,各層輸出的幅度保持在一個相對穩(wěn)定的范圍內,梯度分布也更加均勻。
月之暗面正處于上市的關鍵時期,近期完成了多輪融資,估值迅速增長。然而,融資順利并不意味著沒有爭議。OpenClaw創(chuàng)始人彼得·斯坦伯格公開質疑月之暗面的Kimi Claw產品,認為其云端部署模式違背了OpenClaw的設計理念,存在安全和隱私風險。斯坦伯格的質疑在社區(qū)中產生了影響,一些用戶表示暫時不會使用該產品。
盡管如此,馬斯克的那條回復為月之暗面帶來了正面影響。雖然這兩件事看似無關,但在輿論場上,它們會被放在一起解讀。馬斯克的認可對正在進行新一輪融資的月之暗面來說時機極佳,引發(fā)了更多人關注這篇論文。一個十一年沒人碰過的組件被重新打開,接下來會發(fā)生什么,誰也不知道。
3月16日,月之暗面Kimi發(fā)布了一份技術報告,對大模型十年未變的核心結構殘差連接進行了重新設計。新設計讓每一層能夠選擇性地關注此前各層的輸出,而不是統(tǒng)一求和
2026-03-17 15:34:56馬斯克點贊kimi一篇關于Transformer模型的論文引起了廣泛關注,包括馬斯克和Karpathy在內的多位專家都對其表達了濃厚興趣
2026-03-19 10:02:26深圳17歲高三生成Kimi論文第一作者馬斯克這家伙又開始了:“大多數人,中國以外的人,根本不知道中國有多強
2026-02-09 09:06:36馬斯克說中國絕對是能源大國