馬斯克點(diǎn)贊深圳小孩哥團(tuán)隊(duì)合作成果顯著

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-03-19 10:13:25 證券時(shí)報(bào)網(wǎng)

埃隆·馬斯克在社交平臺(tái)上發(fā)文稱贊中國人工智能公司月之暗面（Moonshot AI）Kimi團(tuán)隊(duì)的一項(xiàng)新近公開的技術(shù)成果，稱其“令人印象深刻”。這項(xiàng)技術(shù)成果引起了廣泛關(guān)注，尤其是因?yàn)樽髡呙麊沃械谝晃坏摹癎uangyu Chen”是一位17歲的高中生。這位名叫陳廣宇的學(xué)生來自深圳，目前仍是一名在讀高中生。他在接受采訪時(shí)強(qiáng)調(diào)，希望外界更多關(guān)注技術(shù)和團(tuán)隊(duì)，而不是個(gè)人。

論文附錄顯示，陳廣宇、張宇和蘇劍林三位作者被標(biāo)注為“同等貢獻(xiàn)”。張宇是Kimi高效模型架構(gòu)的重要研究者，而蘇劍林則因其提出的旋轉(zhuǎn)位置編碼（RoPE）在大模型領(lǐng)域享有盛譽(yù)。這項(xiàng)成果之所以受到關(guān)注，不僅因?yàn)樗婕耙晃桓咧猩?，還因?yàn)樗|及了大模型底層結(jié)構(gòu)的關(guān)鍵問題。

當(dāng)前主流的大模型大多基于2017年提出的Transformer架構(gòu)。這一架構(gòu)改變了文本內(nèi)部的信息處理方式，但層與層之間的信息傳遞方法相對(duì)固定。傳統(tǒng)上常用的方法是“殘差連接”，即每算完一層就把前面的信息直接加到下一層。然而，這種方法在層數(shù)較深時(shí)容易導(dǎo)致重要信息被沖淡。

Kimi團(tuán)隊(duì)提出了一種新的“注意力殘差”方法，旨在解決這一問題。該方法不再讓每一層無差別接收前面所有層的信息，而是由當(dāng)前層按需選擇更值得參考的內(nèi)容再加以聚合。這種方法在Kimi Linear 48B模型上進(jìn)行了驗(yàn)證，在相近效果下訓(xùn)練計(jì)算量可減少約20%，相當(dāng)于約1.25倍效率優(yōu)勢(shì)，推理延遲增加不到2%。這表明，通過改進(jìn)底層結(jié)構(gòu)，可以提高信息利用效率，而不僅僅是依靠堆參數(shù)和算力來提升模型能力。

陳廣宇真正深入接觸人工智能研究是在近一年內(nèi)。他通過研讀經(jīng)典論文和追蹤GitHub開源項(xiàng)目等方式打下了基礎(chǔ)。后來，他在社交平臺(tái)上分享對(duì)技術(shù)博客的反思，引起了一家硅谷AI初創(chuàng)公司CEO的關(guān)注，并獲得了實(shí)習(xí)機(jī)會(huì)。暑假期間，他前往美國實(shí)習(xí)七周，回國后于去年11月加入Kimi團(tuán)隊(duì)實(shí)習(xí)。

論文發(fā)布后，陳廣宇在朋友圈回顧這段經(jīng)歷時(shí)特別提到同等貢獻(xiàn)作者以及從事模型擴(kuò)展與基礎(chǔ)設(shè)施工作的同事，稱這項(xiàng)工作“缺一不可”。在接受采訪時(shí)，他多次表示不希望被寫成突出個(gè)人的故事，而是希望外界看到這是一個(gè)團(tuán)隊(duì)共同完成的研究，旨在解決大模型底層難題。

(責(zé)任編輯：zx0176)

關(guān)閉

馬斯克點(diǎn)贊深圳小孩哥 團(tuán)隊(duì)合作成果顯著

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

馬斯克點(diǎn)贊深圳小孩哥團(tuán)隊(duì)合作成果顯著