深圳17歲高三生成Kimi論文第一作者 創(chuàng)新機(jī)制引馬斯克關(guān)注。一篇關(guān)于Transformer模型的論文引起了廣泛關(guān)注,包括馬斯克和Karpathy在內(nèi)的多位專家都對其表達(dá)了濃厚興趣。該論文提出了一種新的機(jī)制——Attention Residuals,通過在Kimi Linear 48B大模型上驗(yàn)證,訓(xùn)練效率提升了25%,而推理延遲僅增加了不到2%。
殘差連接的傳統(tǒng)工作原理是將第N層的輸出設(shè)置為第N層的計(jì)算結(jié)果加上第N-1層的輸出。然而,在大模型PreNorm主流范式下,這種做法會導(dǎo)致所有層的信息被等權(quán)重累加,從而引發(fā)“記憶負(fù)擔(dān)”問題。具體表現(xiàn)為早期信息難以檢索,且大量層可以被剪枝而損失微小,這被稱為“PreNorm dilution problem”。此外,隱藏狀態(tài)的范數(shù)會隨著網(wǎng)絡(luò)深度不斷增長,導(dǎo)致訓(xùn)練不穩(wěn)定。
研究團(tuán)隊(duì)提出了一個新的思路:既然問題在于無差別累加,那么可以讓網(wǎng)絡(luò)自己決定需要回憶什么。他們發(fā)現(xiàn),網(wǎng)絡(luò)的深度維度與序列的時間維度本質(zhì)上是同構(gòu)的。因此,就像Transformer處理序列時使用注意力機(jī)制讓當(dāng)前位置選擇性關(guān)注之前的位置一樣,也可以讓當(dāng)前層選擇性關(guān)注之前的層。這種方法被稱為Attention Residuals,它通過當(dāng)前層的可學(xué)習(xí)偽查詢向量作為query,所有前層的輸出作為key和value,用注意力機(jī)制進(jìn)行加權(quán)聚合,使網(wǎng)絡(luò)能夠?qū)W會哪些層的信息對當(dāng)前計(jì)算最重要。
然而,這種方法也帶來了計(jì)算量爆炸的問題。對于一個100層的網(wǎng)絡(luò),每一層都要對前面99層做full attention residual,復(fù)雜度達(dá)到O(L2),實(shí)際運(yùn)行中不可行。為此,論文提出了Block AttnRes解決方案,即把連續(xù)的若干層打包成一個block,每個block結(jié)束時將內(nèi)部信息壓縮成單個向量。這樣,后續(xù)層只需要關(guān)注塊間表征和塊內(nèi)實(shí)時層輸出,而非全部L個層,從而將attention的復(fù)雜度降至O(L·B)。
實(shí)驗(yàn)結(jié)果顯示,在Kimi Linear架構(gòu)上測試時,Attention Residuals能獲得更好的下游性能,減少了約20%的訓(xùn)練計(jì)算量,相當(dāng)于獲得了1.25倍的效率優(yōu)勢。數(shù)學(xué)推理、代碼生成及多語言理解任務(wù)上的表現(xiàn)均持平或略優(yōu)。更重要的是,這一方法可以直接替換現(xiàn)有的殘差連接,無需修改網(wǎng)絡(luò)其他部分。
論文還提到了一個有趣的視角,即將這項(xiàng)工作稱為“時間-深度對偶性”的應(yīng)用。研究人員認(rèn)為,深度神經(jīng)網(wǎng)絡(luò)的“層”和循環(huán)神經(jīng)網(wǎng)絡(luò)的“時間步”都是對信息的迭代處理。Transformer之所以成功,是因?yàn)橛米⒁饬C(jī)制替代了RNN中的固定recurrence。因此,在深度維度上,或許也應(yīng)該用注意力機(jī)制替代固定的殘差連接。
這篇論文的共同一作之一是一名年僅17歲的高中生陳廣宇(Nathan)。他在北京的一場黑客松活動中展示了關(guān)于“人類第三只機(jī)械輔助手”的創(chuàng)新項(xiàng)目ThirdArm,并結(jié)識了創(chuàng)業(yè)導(dǎo)師董科含。隨后,他開始接觸IOI金牌得主及資深科研人員,逐步轉(zhuǎn)向理解底層技術(shù)。在DeepSeek研究員袁境陽的指導(dǎo)下,他利用Gemini作為輔助工具,逐步建立了對Transformer的認(rèn)知。最終,他加入月之暗面團(tuán)隊(duì),參與了Flash Linear Attention項(xiàng)目,并在此過程中不斷深入研究。
近日,眾多網(wǎng)友轉(zhuǎn)發(fā)了尚志市一名17歲高三女生劉同學(xué)走失的消息。經(jīng)過多方核實(shí),這名女生已經(jīng)被找到,但不幸去世
2025-11-06 21:55:49失聯(lián)多日的17歲高三女生已不幸去世