馬斯克下場(chǎng)點(diǎn)贊！Kimi 這篇論文撬動(dòng)了大模型的「祖?zhèn)鞯鼗?深度學(xué)習(xí)范式變革

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-03-19 08:43:27 愛(ài)范兒

馬斯克下場(chǎng)點(diǎn)贊！Kimi這篇論文撬動(dòng)了大模型的「祖?zhèn)鞯鼗股疃葘W(xué)習(xí)范式變革！同樣的算力，同樣的數(shù)據(jù)，為什么效果會(huì)不同？大多數(shù)人認(rèn)為是模型更大、數(shù)據(jù)更好或工程師更厲害。然而，Kimi提出了一個(gè)令人驚訝的答案。

3月16日，Kimi 發(fā)布了一項(xiàng)名為《Attention Residuals》的技術(shù)報(bào)告。這項(xiàng)技術(shù)對(duì)幾乎所有現(xiàn)代大模型使用的殘差連接結(jié)構(gòu)進(jìn)行了改進(jìn)，并在實(shí)驗(yàn)中證明，用同樣多的算力，新方法訓(xùn)練出的模型效果相當(dāng)于基線模型花費(fèi)1.25倍算力才能達(dá)到的效果。

報(bào)告發(fā)布后，得到了許多硅谷頂尖AI專家的認(rèn)可。馬斯克通過(guò)社交媒體表示這是“令人印象深刻的工作”。OpenAI的主要發(fā)明者Jerry Tworek稱其為“深度學(xué)習(xí)2.0”的開(kāi)端。前OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy也指出，我們還沒(méi)有完全理解“注意力就是一切”這句話的真正含義。

過(guò)去十年里，幾乎沒(méi)有人動(dòng)過(guò)殘差連接這個(gè)基礎(chǔ)結(jié)構(gòu)?，F(xiàn)代大模型通常由很多層神經(jīng)網(wǎng)絡(luò)疊加而成，信息從底部輸入，逐層傳遞和加工。然而，隨著網(wǎng)絡(luò)層數(shù)增加，訓(xùn)練難度也隨之增大。2015年何愷明團(tuán)隊(duì)提出的殘差連接解決了深層網(wǎng)絡(luò)難以訓(xùn)練的問(wèn)題，但這種方式在信息聚合上較為粗暴，導(dǎo)致很多中間層實(shí)際上貢獻(xiàn)有限。

大多數(shù)團(tuán)隊(duì)選擇繞開(kāi)這個(gè)問(wèn)題，轉(zhuǎn)而在現(xiàn)有架構(gòu)上進(jìn)行優(yōu)化。Kimi則選擇回到最基礎(chǔ)的結(jié)構(gòu)，重新審視那些被認(rèn)為理所當(dāng)然的設(shè)計(jì)。Kimi團(tuán)隊(duì)發(fā)現(xiàn)，處理文字序列時(shí)遇到的問(wèn)題與殘差連接在深度方向上的問(wèn)題數(shù)學(xué)結(jié)構(gòu)相同。他們將注意力機(jī)制從處理文字序列轉(zhuǎn)移到跨越網(wǎng)絡(luò)深度的方向上，讓每一層主動(dòng)決定要從哪些層提取多少信息。

具體實(shí)現(xiàn)上，研究人員設(shè)計(jì)了Block AttnRes，將網(wǎng)絡(luò)所有層劃分為若干個(gè)塊，每個(gè)塊內(nèi)部沿用傳統(tǒng)殘差連接，塊之間使用softmax注意力。這樣減少了內(nèi)存和通信開(kāi)銷。實(shí)驗(yàn)結(jié)果顯示，Block AttnRes在全部規(guī)模上均以更低的驗(yàn)證損失領(lǐng)先于基線，且改善幅度隨規(guī)模增大而保持穩(wěn)定。

此外，研究人員還發(fā)現(xiàn)，AttnRes能夠更有效地利用深度，使得每增加一層都真正產(chǎn)生價(jià)值。這不僅改變了網(wǎng)絡(luò)深度的利用效率，也為未來(lái)設(shè)計(jì)大模型提供了新的參考依據(jù)。

Kimi團(tuán)隊(duì)的創(chuàng)新不僅限于此，還包括MuonClip優(yōu)化器、Kimi Linear架構(gòu)等。這些創(chuàng)新被概括為三個(gè)維度的Scaling框架：Token效率、長(zhǎng)上下文和Agent Swarms。楊植麟提到，當(dāng)前的Scaling已經(jīng)不再是單純的資源堆砌，而是要在計(jì)算效率、長(zhǎng)程記憶和自動(dòng)化協(xié)作上同時(shí)尋找規(guī)模效應(yīng)。

Kimi這篇論文走了一條不同的路線，提供了一個(gè)統(tǒng)一的理論框架、優(yōu)雅的工程實(shí)現(xiàn)和嚴(yán)謹(jǐn)?shù)拇笠?guī)模實(shí)驗(yàn)驗(yàn)證。盡管還有一些問(wèn)題需要解決，如在更大規(guī)模模型上的表現(xiàn)和指令微調(diào)后的效果，但這些局限也為未來(lái)的探索提供了想象空間。當(dāng)這些技術(shù)應(yīng)用于更大規(guī)模的下一代模型時(shí)，可能會(huì)帶來(lái)新的范式轉(zhuǎn)變。

馬斯克下場(chǎng)點(diǎn)贊！Kimi這篇論文撬動(dòng)了大模型的「祖?zhèn)鞯鼗股疃葘W(xué)習(xí)范式變革。

(責(zé)任編輯：0882)

關(guān)閉

馬斯克下場(chǎng)點(diǎn)贊！Kimi 這篇論文撬動(dòng)了大模型的「祖?zhèn)鞯鼗?深度學(xué)習(xí)范式變革

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

馬斯克下場(chǎng)點(diǎn)贊！Kimi 這篇論文撬動(dòng)了大模型的「祖?zhèn)鞯鼗?深度學(xué)習(xí)范式變革