电竞下注-中国电竞赛事及体育赛事平台

中華網 china.com

馬斯克說這就是kimi 點贊中國AI技術論文

關鍵詞:
2026-03-21 10:03:17  鈦媒體APP

科技博主Avi Chawla在X上發(fā)了一條長帖,詳細拆解了月之暗面Kimi團隊剛剛發(fā)布的一篇技術報告。帖子發(fā)出后不久,馬斯克回復說:“月之暗面做出了令人印象深刻的結果”。馬斯克在AI領域的表態(tài)向來以挑剔著稱,甚至曾批評過Anthropic和OpenAI。他自己的xAI最近也在經歷大規(guī)模重組,多位華人聯(lián)合創(chuàng)始人離職,Grok的表現也不盡如人意。然而,在這個關鍵時刻,他對一家中國AI公司的技術論文表示認可,確實出人意料。

被馬斯克點贊的這篇論文實際上是一篇純粹的技術論文,它提出了一種新的方式,試圖替換掉Transformer架構里一個自2015年以來幾乎沒人動過的基礎組件。盡管普通用戶可能不會直接感受到這篇論文的影響,但它觸及了整個深度學習的基石。

要理解這篇論文的內容,需要了解現代大語言模型,無論是GPT、Claude還是國內的一些模型,其底層架構都是Transformer。Transformer之所以能訓練到幾十層甚至上百層而不崩潰,是因為“殘差連接”機制在起作用。殘差連接的原理是每一層網絡在做完計算后,將自己的輸出和輸入加在一起傳到下一層,這樣梯度在反向傳播時可以直達底層,不會因為層數太深而消失。但這種“加法”是完全平等的,導致早期層的信息逐漸被稀釋,后期層的信息變得不穩(wěn)定,這就是所謂的“PreNorm稀釋”。

Kimi團隊注意到這個問題,并提出了一種新的方法——全注意力殘差。具體做法是給每一層賦予一個可學習的查詢向量,這個向量會對之前所有層的輸出做一次注意力計算,產生一組歸一化的權重。當前層的輸入不再是之前所有層輸出的簡單求和,而是按照這組權重的加權組合。然而,全注意力殘差在實際應用中存在內存和通信開銷問題,因此他們又提出了塊注意力殘差,將所有層分成若干個塊,每個塊內部使用傳統(tǒng)的殘差連接,塊與塊之間使用注意力機制選擇性聚合。這樣只需要存儲和傳輸每個塊的匯總表示,大大降低了內存占用。

Kimi團隊還進行了一系列實驗,驗證了這一改進在不同模型規(guī)模下的有效性。結果顯示,注意力在所有計算預算下都優(yōu)于基線,效果相當于用1.25倍的計算量訓練出的基線模型。此外,他們在自己的大模型上進行了實戰(zhàn)驗證,結果表明塊注意力殘差確實緩解了PreNorm稀釋問題,各層輸出的幅度保持在一個相對穩(wěn)定的范圍內,梯度分布也更加均勻。

月之暗面正處于上市的關鍵時期,近期完成了多輪融資,估值迅速增長。然而,融資順利并不意味著沒有爭議。OpenClaw創(chuàng)始人彼得·斯坦伯格公開質疑月之暗面的Kimi Claw產品,認為其云端部署模式違背了OpenClaw的設計理念,存在安全和隱私風險。斯坦伯格的質疑在社區(qū)中產生了影響,一些用戶表示暫時不會使用該產品。

盡管如此,馬斯克的那條回復為月之暗面帶來了正面影響。雖然這兩件事看似無關,但在輿論場上,它們會被放在一起解讀。馬斯克的認可對正在進行新一輪融資的月之暗面來說時機極佳,引發(fā)了更多人關注這篇論文。一個十一年沒人碰過的組件被重新打開,接下來會發(fā)生什么,誰也不知道。

(責任編輯:zx0001)
關閉

北京車展觀察:車展不再“整車獨大” 供應商登上C位

北京車展觀察,車展不再整車獨大2026-04-24 21:52:52

雷軍玩梗送李想“聽我講完”T恤 車圈互動添新趣

雷軍玩梗送李想聽我講完T恤2026-04-24 21:50:10

DeepSeekV4和GPT5.5誰更強 性能對決引發(fā)熱議

DeepSeekV4和GPT5,5誰更強2026-04-24 21:44:34

攻擊-21登上福建艦了嗎 隱身無人機引發(fā)關注

攻擊-21登上福建艦了嗎2026-04-24 15:25:24

黎巴嫩民眾為遇難女記者送行 哀悼與敬意交織

黎巴嫩民眾為遇難女記者送行2026-04-24 16:53:49

心臟好不好不能靠“感覺” 醫(yī)生列出8條硬指標

心臟好不好不能靠感覺2026-04-24 21:08:01

日本軍事動作頻頻 加速再軍事化引發(fā)警惕

日本軍事動作頻頻2026-04-24 15:28:42

英國“終身禁煙令”引熱議 打造無煙一代

英國終身禁煙令引熱議2026-04-24 15:00:03

車企瘋狂涌入 大型SUV市場隱憂已現 競爭白熱化

車企瘋狂涌入大型SUV市場隱憂已現2026-04-24 21:27:42

女孩打暑假工遇車禍身亡 工亡申請無果 家屬悲痛維權難

女孩打暑假工遇車禍身亡工亡申請無果2026-04-24 21:22:22

武漢一地給法桐“打針”抑制飛絮 新嘗試獲居民點贊

武漢一地給法桐打針抑制飛絮2026-04-24 21:05:52

中國第四艘航母真會是核動力的嗎 官方宣傳片暗藏玄機

中國第四艘航母真會是核動力的嗎2026-04-24 16:56:18

日本呼吁震區(qū)民眾做好防災準備 海嘯警報發(fā)布

日本呼吁震區(qū)民眾做好防災準備2026-04-24 15:59:26

DeepSeekV4和GPT5.5誰更強 性能對決引發(fā)熱議

DeepSeekV4和GPT5,5誰更強2026-04-24 21:44:34

國內首例性侵認定工傷案擇期宣判 精神工傷待遇成焦點

國內首例性侵認定工傷案擇期宣判2026-04-24 21:10:48

26歲設計師凌晨猝死辦公室被拒認工傷 家屬艱難維權

26歲設計師凌晨猝死辦公室被拒認工傷2026-04-24 21:39:06

除“大師論”之外如何評價一所大學 多元化評價體系漸成主流

除大師論之外如何評價一所大學2026-04-24 21:00:03

雷軍玩梗送李想“聽我講完”T恤 車圈互動添新趣

雷軍玩梗送李想聽我講完T恤2026-04-24 21:50:10

網友稱用AI提前查到事業(yè)編成績 測試端口意外暴露引發(fā)熱議

網友稱用AI提前查到事業(yè)編成績2026-04-24 21:14:03

印尼提議在馬六甲海峽收過路費 研究征收費用方案

印尼提議在馬六甲海峽收過路費2026-04-24 14:59:39

特斯拉確認Cybercab已正式投產!北美工廠啟動生產

特斯拉確認Cybercab已正式投產2026-04-24 15:56:50

特朗普稱不知道伊朗真正領導人是誰 內斗加劇引發(fā)關注

特朗普稱不知道伊朗真正領導人是誰2026-04-24 15:27:38

日本推進航空自衛(wèi)隊更名航空宇宙自衛(wèi)隊 修正案通過表決

日本推進航空自衛(wèi)隊更名航空宇宙自衛(wèi)隊2026-04-24 16:44:35

投票彈劾賴清德日期定了 朝野協(xié)商定案

投票彈劾賴清德日期定了2026-04-24 16:55:52

游盈隆下周確定就職臺“中選會主委” 交接典禮即將舉行

游盈隆下周確定就職臺中選會主委2026-04-24 21:16:31

評論員:日本沉溺帝國舊夢131年 臺海挑釁引發(fā)解放軍強勢回應

評論員,日本沉溺帝國舊夢131年2026-04-24 17:00:04

美國巴士爆炸 濃煙沖上高空 華盛頓市中心陷入恐慌

美國巴士爆炸濃煙沖上高空2026-04-24 15:25:58

美大炮巨艦與伊朗蜂群突擊誰主沉浮 海上拉鋸持續(xù)對峙

美大炮巨艦與伊朗蜂群突擊誰主沉浮2026-04-24 20:46:59

冰語時間被判賠500萬 商標侵權與不正當競爭

冰語時間被判賠500萬2026-04-24 21:08:35

北京車展觀察:車展不再“整車獨大” 供應商登上C位

北京車展觀察,車展不再整車獨大2026-04-24 21:52:52

內塔尼亞胡稱已接受早期前列腺癌治療 成功完成手術

內塔尼亞胡稱已接受早期前列腺癌治療2026-04-24 21:30:32

中國海軍或將迎核航母 核動力時代來臨

中國海軍或將迎核航母2026-04-24 15:29:15

相關新聞