馬斯克下場(chǎng)點(diǎn)贊!Kimi這篇論文撬動(dòng)了大模型的「祖?zhèn)鞯鼗股疃葘W(xué)習(xí)范式變革!同樣的算力,同樣的數(shù)據(jù),為什么效果會(huì)不同?大多數(shù)人認(rèn)為是模型更大、數(shù)據(jù)更好或工程師更厲害。然而,Kimi提出了一個(gè)令人驚訝的答案。
3月16日,Kimi 發(fā)布了一項(xiàng)名為《Attention Residuals》的技術(shù)報(bào)告。這項(xiàng)技術(shù)對(duì)幾乎所有現(xiàn)代大模型使用的殘差連接結(jié)構(gòu)進(jìn)行了改進(jìn),并在實(shí)驗(yàn)中證明,用同樣多的算力,新方法訓(xùn)練出的模型效果相當(dāng)于基線模型花費(fèi)1.25倍算力才能達(dá)到的效果。
報(bào)告發(fā)布后,得到了許多硅谷頂尖AI專家的認(rèn)可。馬斯克通過(guò)社交媒體表示這是“令人印象深刻的工作”。OpenAI的主要發(fā)明者Jerry Tworek稱其為“深度學(xué)習(xí)2.0”的開(kāi)端。前OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy也指出,我們還沒(méi)有完全理解“注意力就是一切”這句話的真正含義。
過(guò)去十年里,幾乎沒(méi)有人動(dòng)過(guò)殘差連接這個(gè)基礎(chǔ)結(jié)構(gòu)?,F(xiàn)代大模型通常由很多層神經(jīng)網(wǎng)絡(luò)疊加而成,信息從底部輸入,逐層傳遞和加工。然而,隨著網(wǎng)絡(luò)層數(shù)增加,訓(xùn)練難度也隨之增大。2015年何愷明團(tuán)隊(duì)提出的殘差連接解決了深層網(wǎng)絡(luò)難以訓(xùn)練的問(wèn)題,但這種方式在信息聚合上較為粗暴,導(dǎo)致很多中間層實(shí)際上貢獻(xiàn)有限。
大多數(shù)團(tuán)隊(duì)選擇繞開(kāi)這個(gè)問(wèn)題,轉(zhuǎn)而在現(xiàn)有架構(gòu)上進(jìn)行優(yōu)化。Kimi則選擇回到最基礎(chǔ)的結(jié)構(gòu),重新審視那些被認(rèn)為理所當(dāng)然的設(shè)計(jì)。Kimi團(tuán)隊(duì)發(fā)現(xiàn),處理文字序列時(shí)遇到的問(wèn)題與殘差連接在深度方向上的問(wèn)題數(shù)學(xué)結(jié)構(gòu)相同。他們將注意力機(jī)制從處理文字序列轉(zhuǎn)移到跨越網(wǎng)絡(luò)深度的方向上,讓每一層主動(dòng)決定要從哪些層提取多少信息。
具體實(shí)現(xiàn)上,研究人員設(shè)計(jì)了Block AttnRes,將網(wǎng)絡(luò)所有層劃分為若干個(gè)塊,每個(gè)塊內(nèi)部沿用傳統(tǒng)殘差連接,塊之間使用softmax注意力。這樣減少了內(nèi)存和通信開(kāi)銷。實(shí)驗(yàn)結(jié)果顯示,Block AttnRes在全部規(guī)模上均以更低的驗(yàn)證損失領(lǐng)先于基線,且改善幅度隨規(guī)模增大而保持穩(wěn)定。
此外,研究人員還發(fā)現(xiàn),AttnRes能夠更有效地利用深度,使得每增加一層都真正產(chǎn)生價(jià)值。這不僅改變了網(wǎng)絡(luò)深度的利用效率,也為未來(lái)設(shè)計(jì)大模型提供了新的參考依據(jù)。
Kimi團(tuán)隊(duì)的創(chuàng)新不僅限于此,還包括MuonClip優(yōu)化器、Kimi Linear架構(gòu)等。這些創(chuàng)新被概括為三個(gè)維度的Scaling框架:Token效率、長(zhǎng)上下文和Agent Swarms。楊植麟提到,當(dāng)前的Scaling已經(jīng)不再是單純的資源堆砌,而是要在計(jì)算效率、長(zhǎng)程記憶和自動(dòng)化協(xié)作上同時(shí)尋找規(guī)模效應(yīng)。
Kimi這篇論文走了一條不同的路線,提供了一個(gè)統(tǒng)一的理論框架、優(yōu)雅的工程實(shí)現(xiàn)和嚴(yán)謹(jǐn)?shù)拇笠?guī)模實(shí)驗(yàn)驗(yàn)證。盡管還有一些問(wèn)題需要解決,如在更大規(guī)模模型上的表現(xiàn)和指令微調(diào)后的效果,但這些局限也為未來(lái)的探索提供了想象空間。當(dāng)這些技術(shù)應(yīng)用于更大規(guī)模的下一代模型時(shí),可能會(huì)帶來(lái)新的范式轉(zhuǎn)變。
馬斯克下場(chǎng)點(diǎn)贊!Kimi這篇論文撬動(dòng)了大模型的「祖?zhèn)鞯鼗股疃葘W(xué)習(xí)范式變革。