深圳17歲高三生成Kimi論文第一作者 創(chuàng)新機制引馬斯克關(guān)注。一篇關(guān)于Transformer模型的論文引起了廣泛關(guān)注,包括馬斯克和Karpathy在內(nèi)的多位專家都對其表達了濃厚興趣。該論文提出了一種新的機制——Attention Residuals,通過在Kimi Linear 48B大模型上驗證,訓練效率提升了25%,而推理延遲僅增加了不到2%。
殘差連接的傳統(tǒng)工作原理是將第N層的輸出設(shè)置為第N層的計算結(jié)果加上第N-1層的輸出。然而,在大模型PreNorm主流范式下,這種做法會導致所有層的信息被等權(quán)重累加,從而引發(fā)“記憶負擔”問題。具體表現(xiàn)為早期信息難以檢索,且大量層可以被剪枝而損失微小,這被稱為“PreNorm dilution problem”。此外,隱藏狀態(tài)的范數(shù)會隨著網(wǎng)絡(luò)深度不斷增長,導致訓練不穩(wěn)定。
研究團隊提出了一個新的思路:既然問題在于無差別累加,那么可以讓網(wǎng)絡(luò)自己決定需要回憶什么。他們發(fā)現(xiàn),網(wǎng)絡(luò)的深度維度與序列的時間維度本質(zhì)上是同構(gòu)的。因此,就像Transformer處理序列時使用注意力機制讓當前位置選擇性關(guān)注之前的位置一樣,也可以讓當前層選擇性關(guān)注之前的層。這種方法被稱為Attention Residuals,它通過當前層的可學習偽查詢向量作為query,所有前層的輸出作為key和value,用注意力機制進行加權(quán)聚合,使網(wǎng)絡(luò)能夠?qū)W會哪些層的信息對當前計算最重要。
然而,這種方法也帶來了計算量爆炸的問題。對于一個100層的網(wǎng)絡(luò),每一層都要對前面99層做full attention residual,復雜度達到O(L2),實際運行中不可行。為此,論文提出了Block AttnRes解決方案,即把連續(xù)的若干層打包成一個block,每個block結(jié)束時將內(nèi)部信息壓縮成單個向量。這樣,后續(xù)層只需要關(guān)注塊間表征和塊內(nèi)實時層輸出,而非全部L個層,從而將attention的復雜度降至O(L·B)。
近日,眾多網(wǎng)友轉(zhuǎn)發(fā)了尚志市一名17歲高三女生劉同學走失的消息。經(jīng)過多方核實,這名女生已經(jīng)被找到,但不幸去世
2025-11-06 21:55:49失聯(lián)多日的17歲高三女生已不幸去世