除了輿論場(chǎng)上的“文斗”,互相“揭老底”的“武斗”也成了硅谷的常態(tài)。Anthropic在4月7日高調(diào)宣布年化收入達(dá)到300億美元,成功超越OpenAI的250億美元。一個(gè)禮拜后,OpenAI首席營(yíng)收官在給全體員工的內(nèi)部信中指出:Anthropic對(duì)外宣稱(chēng)的300億美元年化營(yíng)收存在嚴(yán)重水分,因?yàn)樗捎玫氖恰翱傤~法”,把分給亞馬遜、谷歌等云服務(wù)商的抽成全額算進(jìn)了自己的總營(yíng)收里,導(dǎo)致年化收入被高估了約80億美元。
將視線(xiàn)轉(zhuǎn)回國(guó)內(nèi),劇本的走向完全不同。時(shí)間回到一年多前,DeepSeek-R1的橫空出世激活了整個(gè)中國(guó)大模型生態(tài),大家紛紛擁抱開(kāi)源。直接的例子就是和DeepSeek的成長(zhǎng)軌跡高度重合的月之暗面,都是2023年起步的初創(chuàng)團(tuán)隊(duì),都保持著人數(shù)極少但人才密度極高的團(tuán)隊(duì)結(jié)構(gòu),并且都是Scaling Law的堅(jiān)定信徒。
2025年7月,月之暗面發(fā)布了全球第一個(gè)萬(wàn)億參數(shù)的開(kāi)源模型Kimi K2,在技術(shù)報(bào)告里毫不掩飾地采用了DeepSeek開(kāi)源的MLA架構(gòu)。對(duì)于大模型來(lái)說(shuō),處理超長(zhǎng)文本最大的噩夢(mèng)是顯存墻,而MLA架構(gòu)的顛覆性在于,巧妙將KV Cache的壓縮率做到了驚人的93%以上。
有了DeepSeek貢獻(xiàn)的“業(yè)界標(biāo)準(zhǔn)”,月之暗面在內(nèi)的大模型團(tuán)隊(duì)不需要重復(fù)造輪子,快速降低了推理成本。翻看DeepSeek V4的技術(shù)文檔,詳細(xì)描述了模型的架構(gòu),其中一個(gè)重要升級(jí)是把大部分模塊的優(yōu)化器從AdamW換成了Muon,實(shí)現(xiàn)了更快的收斂速度、更優(yōu)的訓(xùn)練穩(wěn)定性。
在Kimi K2.6的技術(shù)文檔中,同樣提到了Muon優(yōu)化器,在相同的訓(xùn)練量下實(shí)現(xiàn)了2倍的效率提升。兩個(gè)模型都提到的Muon優(yōu)化器,最早由獨(dú)立研究者Keller Jordan在2024年底的博客里提出。同樣被AdamW困擾的月之暗面團(tuán)隊(duì),在2025年初對(duì)Muon進(jìn)行了關(guān)鍵的工程化改進(jìn),增加了Weight Decay、RMS控制等能力,并命名為MuonClip。