深圳17歲高三生成Kimi論文第一作者創(chuàng)新機制引馬斯克關(guān)注

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-03-19 10:02:26 搜狐網(wǎng)

深圳17歲高三生成Kimi論文第一作者創(chuàng)新機制引馬斯克關(guān)注。一篇關(guān)于Transformer模型的論文引起了廣泛關(guān)注，包括馬斯克和Karpathy在內(nèi)的多位專家都對其表達了濃厚興趣。該論文提出了一種新的機制——Attention Residuals，通過在Kimi Linear 48B大模型上驗證，訓練效率提升了25%，而推理延遲僅增加了不到2%。

殘差連接的傳統(tǒng)工作原理是將第N層的輸出設(shè)置為第N層的計算結(jié)果加上第N-1層的輸出。然而，在大模型PreNorm主流范式下，這種做法會導致所有層的信息被等權(quán)重累加，從而引發(fā)“記憶負擔”問題。具體表現(xiàn)為早期信息難以檢索，且大量層可以被剪枝而損失微小，這被稱為“PreNorm dilution problem”。此外，隱藏狀態(tài)的范數(shù)會隨著網(wǎng)絡(luò)深度不斷增長，導致訓練不穩(wěn)定。

研究團隊提出了一個新的思路：既然問題在于無差別累加，那么可以讓網(wǎng)絡(luò)自己決定需要回憶什么。他們發(fā)現(xiàn)，網(wǎng)絡(luò)的深度維度與序列的時間維度本質(zhì)上是同構(gòu)的。因此，就像Transformer處理序列時使用注意力機制讓當前位置選擇性關(guān)注之前的位置一樣，也可以讓當前層選擇性關(guān)注之前的層。這種方法被稱為Attention Residuals，它通過當前層的可學習偽查詢向量作為query，所有前層的輸出作為key和value，用注意力機制進行加權(quán)聚合，使網(wǎng)絡(luò)能夠?qū)W會哪些層的信息對當前計算最重要。

然而，這種方法也帶來了計算量爆炸的問題。對于一個100層的網(wǎng)絡(luò)，每一層都要對前面99層做full attention residual，復雜度達到O(L2)，實際運行中不可行。為此，論文提出了Block AttnRes解決方案，即把連續(xù)的若干層打包成一個block，每個block結(jié)束時將內(nèi)部信息壓縮成單個向量。這樣，后續(xù)層只需要關(guān)注塊間表征和塊內(nèi)實時層輸出，而非全部L個層，從而將attention的復雜度降至O(L·B)。

12 全文共 2 頁下一頁

關(guān)閉

深圳17歲高三生成Kimi論文第一作者 創(chuàng)新機制引馬斯克關(guān)注

相關(guān)新聞

今日熱點

頻道熱點

深圳17歲高三生成Kimi論文第一作者創(chuàng)新機制引馬斯克關(guān)注