DeepSeek V4炸場(chǎng)背后中美AI路線(xiàn)分歧(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-04-30 07:26:18 澎湃新聞

除了輿論場(chǎng)上的“文斗”，互相“揭老底”的“武斗”也成了硅谷的常態(tài)。Anthropic在4月7日高調(diào)宣布年化收入達(dá)到300億美元，成功超越OpenAI的250億美元。一個(gè)禮拜后，OpenAI首席營(yíng)收官在給全體員工的內(nèi)部信中指出：Anthropic對(duì)外宣稱(chēng)的300億美元年化營(yíng)收存在嚴(yán)重水分，因?yàn)樗捎玫氖恰翱傤~法”，把分給亞馬遜、谷歌等云服務(wù)商的抽成全額算進(jìn)了自己的總營(yíng)收里，導(dǎo)致年化收入被高估了約80億美元。

將視線(xiàn)轉(zhuǎn)回國(guó)內(nèi)，劇本的走向完全不同。時(shí)間回到一年多前，DeepSeek-R1的橫空出世激活了整個(gè)中國(guó)大模型生態(tài)，大家紛紛擁抱開(kāi)源。直接的例子就是和DeepSeek的成長(zhǎng)軌跡高度重合的月之暗面，都是2023年起步的初創(chuàng)團(tuán)隊(duì)，都保持著人數(shù)極少但人才密度極高的團(tuán)隊(duì)結(jié)構(gòu)，并且都是Scaling Law的堅(jiān)定信徒。

2025年7月，月之暗面發(fā)布了全球第一個(gè)萬(wàn)億參數(shù)的開(kāi)源模型Kimi K2，在技術(shù)報(bào)告里毫不掩飾地采用了DeepSeek開(kāi)源的MLA架構(gòu)。對(duì)于大模型來(lái)說(shuō)，處理超長(zhǎng)文本最大的噩夢(mèng)是顯存墻，而MLA架構(gòu)的顛覆性在于，巧妙將KV Cache的壓縮率做到了驚人的93%以上。

有了DeepSeek貢獻(xiàn)的“業(yè)界標(biāo)準(zhǔn)”，月之暗面在內(nèi)的大模型團(tuán)隊(duì)不需要重復(fù)造輪子，快速降低了推理成本。翻看DeepSeek V4的技術(shù)文檔，詳細(xì)描述了模型的架構(gòu)，其中一個(gè)重要升級(jí)是把大部分模塊的優(yōu)化器從AdamW換成了Muon，實(shí)現(xiàn)了更快的收斂速度、更優(yōu)的訓(xùn)練穩(wěn)定性。

在Kimi K2.6的技術(shù)文檔中，同樣提到了Muon優(yōu)化器，在相同的訓(xùn)練量下實(shí)現(xiàn)了2倍的效率提升。兩個(gè)模型都提到的Muon優(yōu)化器，最早由獨(dú)立研究者Keller Jordan在2024年底的博客里提出。同樣被AdamW困擾的月之暗面團(tuán)隊(duì)，在2025年初對(duì)Muon進(jìn)行了關(guān)鍵的工程化改進(jìn)，增加了Weight Decay、RMS控制等能力，并命名為MuonClip。

首頁(yè)上一頁(yè)123 4 全文共 4 頁(yè)下一頁(yè)

關(guān)閉

DeepSeek V4炸場(chǎng)背后 中美AI路線(xiàn)分歧(2)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

DeepSeek V4炸場(chǎng)背后中美AI路線(xiàn)分歧(2)