馬斯克下場點贊!Kimi這篇論文撬動了大模型的「祖?zhèn)鞯鼗股疃葘W習范式變革!同樣的算力,同樣的數(shù)據(jù),為什么效果會不同?大多數(shù)人認為是模型更大、數(shù)據(jù)更好或工程師更厲害。然而,Kimi提出了一個令人驚訝的答案。
3月16日,Kimi 發(fā)布了一項名為《Attention Residuals》的技術(shù)報告。這項技術(shù)對幾乎所有現(xiàn)代大模型使用的殘差連接結(jié)構(gòu)進行了改進,并在實驗中證明,用同樣多的算力,新方法訓練出的模型效果相當于基線模型花費1.25倍算力才能達到的效果。
報告發(fā)布后,得到了許多硅谷頂尖AI專家的認可。馬斯克通過社交媒體表示這是“令人印象深刻的工作”。OpenAI的主要發(fā)明者Jerry Tworek稱其為“深度學習2.0”的開端。前OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy也指出,我們還沒有完全理解“注意力就是一切”這句話的真正含義。
過去十年里,幾乎沒有人動過殘差連接這個基礎(chǔ)結(jié)構(gòu)?,F(xiàn)代大模型通常由很多層神經(jīng)網(wǎng)絡(luò)疊加而成,信息從底部輸入,逐層傳遞和加工。然而,隨著網(wǎng)絡(luò)層數(shù)增加,訓練難度也隨之增大。2015年何愷明團隊提出的殘差連接解決了深層網(wǎng)絡(luò)難以訓練的問題,但這種方式在信息聚合上較為粗暴,導(dǎo)致很多中間層實際上貢獻有限。
大多數(shù)團隊選擇繞開這個問題,轉(zhuǎn)而在現(xiàn)有架構(gòu)上進行優(yōu)化。Kimi則選擇回到最基礎(chǔ)的結(jié)構(gòu),重新審視那些被認為理所當然的設(shè)計。Kimi團隊發(fā)現(xiàn),處理文字序列時遇到的問題與殘差連接在深度方向上的問題數(shù)學結(jié)構(gòu)相同。他們將注意力機制從處理文字序列轉(zhuǎn)移到跨越網(wǎng)絡(luò)深度的方向上,讓每一層主動決定要從哪些層提取多少信息。
埃隆·馬斯克在社交平臺上發(fā)文稱贊中國人工智能公司月之暗面(Moonshot AI)Kimi團隊的一項新近公開的技術(shù)成果,稱其“令人印象深刻”
2026-03-19 10:13:25馬斯克點贊深圳小孩哥十月的夜晚,瀏陽上空忽然上演了一場無人機與焰火結(jié)合的“星河盛宴”。將近一萬六千架無人機在天幕下齊飛,每架都掛著400克重的小煙花,畫面如同科幻片般震撼
2025-10-23 08:51:36瀏陽煙花獲馬斯克點贊