具體實現(xiàn)上,研究人員設計了Block AttnRes,將網(wǎng)絡所有層劃分為若干個塊,每個塊內(nèi)部沿用傳統(tǒng)殘差連接,塊之間使用softmax注意力。這樣減少了內(nèi)存和通信開銷。實驗結果顯示,Block AttnRes在全部規(guī)模上均以更低的驗證損失領先于基線,且改善幅度隨規(guī)模增大而保持穩(wěn)定。
此外,研究人員還發(fā)現(xiàn),AttnRes能夠更有效地利用深度,使得每增加一層都真正產(chǎn)生價值。這不僅改變了網(wǎng)絡深度的利用效率,也為未來設計大模型提供了新的參考依據(jù)。
Kimi團隊的創(chuàng)新不僅限于此,還包括MuonClip優(yōu)化器、Kimi Linear架構等。這些創(chuàng)新被概括為三個維度的Scaling框架:Token效率、長上下文和Agent Swarms。楊植麟提到,當前的Scaling已經(jīng)不再是單純的資源堆砌,而是要在計算效率、長程記憶和自動化協(xié)作上同時尋找規(guī)模效應。
Kimi這篇論文走了一條不同的路線,提供了一個統(tǒng)一的理論框架、優(yōu)雅的工程實現(xiàn)和嚴謹?shù)拇笠?guī)模實驗驗證。盡管還有一些問題需要解決,如在更大規(guī)模模型上的表現(xiàn)和指令微調(diào)后的效果,但這些局限也為未來的探索提供了想象空間。當這些技術應用于更大規(guī)模的下一代模型時,可能會帶來新的范式轉(zhuǎn)變。
馬斯克下場點贊!Kimi這篇論文撬動了大模型的「祖?zhèn)鞯鼗股疃葘W習范式變革。
3月16日,月之暗面Kimi發(fā)布了一份技術報告,對大模型十年未變的核心結構殘差連接進行了重新設計。新設計讓每一層能夠選擇性地關注此前各層的輸出,而不是統(tǒng)一求和
2026-03-17 15:34:56馬斯克點贊kimi埃隆·馬斯克在社交平臺上發(fā)文稱贊中國人工智能公司月之暗面(Moonshot AI)Kimi團隊的一項新近公開的技術成果,稱其“令人印象深刻”
2026-03-19 10:13:25馬斯克點贊深圳小孩哥特斯拉CEO埃隆·馬斯克與小鵬汽車董事長及CEO何小鵬之間展開了一場隔空對話。馬斯克點贊了關于小鵬機器人的視頻,并表示:“特斯拉和中國公司將主導市場。我非常尊重中國的競爭對手,中國有很多聰明、勤奮的人
2025-11-08 09:32:06何小鵬回應馬斯克點贊小鵬機器人十月的夜晚,瀏陽上空忽然上演了一場無人機與焰火結合的“星河盛宴”。將近一萬六千架無人機在天幕下齊飛,每架都掛著400克重的小煙花,畫面如同科幻片般震撼
2025-10-23 08:51:36瀏陽煙花獲馬斯克點贊