埃隆·馬斯克在社交平臺(tái)上發(fā)文稱贊中國人工智能公司月之暗面(Moonshot AI)Kimi團(tuán)隊(duì)的一項(xiàng)新近公開的技術(shù)成果,稱其“令人印象深刻”。這項(xiàng)技術(shù)成果引起了廣泛關(guān)注,尤其是因?yàn)樽髡呙麊沃械谝晃坏摹癎uangyu Chen”是一位17歲的高中生。這位名叫陳廣宇的學(xué)生來自深圳,目前仍是一名在讀高中生。他在接受采訪時(shí)強(qiáng)調(diào),希望外界更多關(guān)注技術(shù)和團(tuán)隊(duì),而不是個(gè)人。
論文附錄顯示,陳廣宇、張宇和蘇劍林三位作者被標(biāo)注為“同等貢獻(xiàn)”。張宇是Kimi高效模型架構(gòu)的重要研究者,而蘇劍林則因其提出的旋轉(zhuǎn)位置編碼(RoPE)在大模型領(lǐng)域享有盛譽(yù)。這項(xiàng)成果之所以受到關(guān)注,不僅因?yàn)樗婕耙晃桓咧猩?,還因?yàn)樗|及了大模型底層結(jié)構(gòu)的關(guān)鍵問題。
當(dāng)前主流的大模型大多基于2017年提出的Transformer架構(gòu)。這一架構(gòu)改變了文本內(nèi)部的信息處理方式,但層與層之間的信息傳遞方法相對(duì)固定。傳統(tǒng)上常用的方法是“殘差連接”,即每算完一層就把前面的信息直接加到下一層。然而,這種方法在層數(shù)較深時(shí)容易導(dǎo)致重要信息被沖淡。
Kimi團(tuán)隊(duì)提出了一種新的“注意力殘差”方法,旨在解決這一問題。該方法不再讓每一層無差別接收前面所有層的信息,而是由當(dāng)前層按需選擇更值得參考的內(nèi)容再加以聚合。這種方法在Kimi Linear 48B模型上進(jìn)行了驗(yàn)證,在相近效果下訓(xùn)練計(jì)算量可減少約20%,相當(dāng)于約1.25倍效率優(yōu)勢(shì),推理延遲增加不到2%。這表明,通過改進(jìn)底層結(jié)構(gòu),可以提高信息利用效率,而不僅僅是依靠堆參數(shù)和算力來提升模型能力。
陳廣宇真正深入接觸人工智能研究是在近一年內(nèi)。他通過研讀經(jīng)典論文和追蹤GitHub開源項(xiàng)目等方式打下了基礎(chǔ)。后來,他在社交平臺(tái)上分享對(duì)技術(shù)博客的反思,引起了一家硅谷AI初創(chuàng)公司CEO的關(guān)注,并獲得了實(shí)習(xí)機(jī)會(huì)。暑假期間,他前往美國實(shí)習(xí)七周,回國后于去年11月加入Kimi團(tuán)隊(duì)實(shí)習(xí)。
論文發(fā)布后,陳廣宇在朋友圈回顧這段經(jīng)歷時(shí)特別提到同等貢獻(xiàn)作者以及從事模型擴(kuò)展與基礎(chǔ)設(shè)施工作的同事,稱這項(xiàng)工作“缺一不可”。在接受采訪時(shí),他多次表示不希望被寫成突出個(gè)人的故事,而是希望外界看到這是一個(gè)團(tuán)隊(duì)共同完成的研究,旨在解決大模型底層難題。