DeepSeek發(fā)布了一篇新論文,介紹了一種名為流形約束超連接(mHC)的新架構(gòu)。該架構(gòu)旨在解決超連接網(wǎng)絡(luò)(HC)技術(shù)在訓(xùn)練過(guò)程中出現(xiàn)的不穩(wěn)定性和可擴(kuò)展性受限的問(wèn)題。通過(guò)將HC的殘差連接空間映射到特定流形上,mHC恢復(fù)了恒等映射特性,并結(jié)合基礎(chǔ)設(shè)施優(yōu)化確保了效率。這使得mHC在性能和可擴(kuò)展性方面有了顯著提升。DeepSeek認(rèn)為,mHC作為HC的一種靈活實(shí)用的拓展,不僅有助于更深入地理解拓?fù)浼軜?gòu)設(shè)計(jì),還為基座模型的發(fā)展提供了新的方向。這篇論文由解振達(dá)、韋毅軒和曹桓奇共同擔(dān)任第一作者,梁文鋒也是作者之一。
DeepSeek于12日晚發(fā)布了一篇新論文《基于可擴(kuò)展查找的條件記憶:大型語(yǔ)言模型稀疏性的新維度》。該論文由北京大學(xué)與DeepSeek共同完成,合著作者中包括梁文鋒
2026-01-14 00:09:42DeepSeek發(fā)布新論文DeepSeek于12日晚發(fā)布了一篇新論文《基于可擴(kuò)展查找的條件記憶:大型語(yǔ)言模型稀疏性的新維度》。這篇論文由北京大學(xué)與DeepSeek合作完成,梁文鋒是合著者之一
2026-01-13 09:32:16DeepSeek發(fā)布梁文鋒署名新論文