中國大模型不被定義率道而行

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-04-26 12:22:00 京報網(wǎng)

不誘于譽，不恐于誹，率道而行，端然正己。帶著這十六個字，DeepSeek新版本終于問世。距離上一次更新的V3.2版本已經(jīng)過去近5個月。在這期間，安索皮克的克勞德神話模型在網(wǎng)絡(luò)攻擊上展現(xiàn)了前所未有的能力，有機構(gòu)稱其將網(wǎng)絡(luò)攻擊的時代從“手工化”帶到了“工業(yè)化”。GPT-Image-2也讓網(wǎng)友驚呼“有圖有真相”的時代已經(jīng)過去。

在這個國外主流大模型平均91.4天就迭代一個版本的時代，DeepSeek的長時間沉默讓很多人認為它已經(jīng)落后甚至掉隊。沉默的DeepSeek讓人很不習(xí)慣——2025年初的橫空出世、用更少的算力實現(xiàn)更優(yōu)的性能、打破美西方營造的“算力焦慮”，這些標簽讓它意義非凡。因此，幾個月里關(guān)于DeepSeek-V4的市場傳聞不斷。當時，國外科技媒體稱V4模型將在今年春節(jié)發(fā)布，具有強大的編碼能力。當一家公司最核心產(chǎn)品的動態(tài)被匿名信源、外媒報道和券商研報所定義時，討論已偏離了技術(shù)軌道。DeepSeek官方從未對外界的消息做過任何確認，這種沉默又讓討論升級。

2月26日，事情迎來轉(zhuǎn)折。路透社稱，據(jù)知情人士透露，DeepSeek在發(fā)布V4之前沒有向美國芯片公司英偉達和超微半導(dǎo)體提供模型早期訪問權(quán)限，而是讓中國企業(yè)華為提前數(shù)周開展軟件適配優(yōu)化工作。這種做法打破了行業(yè)慣例。顯然，此時討論的已不只是一個公司能否發(fā)布新產(chǎn)品的問題。

此次DeepSeek與華為昇騰國產(chǎn)芯片體系深度適配并不令人意外。去年8月，DeepSeek發(fā)布DeepSeek-V3.1時宣布采用UE8M0 FP8 Scale參數(shù)精度，特別表示這一數(shù)據(jù)格式是針對即將發(fā)布的下一代國產(chǎn)芯片設(shè)計。軟件主動適配硬件特性，本質(zhì)上是在為國產(chǎn)芯片“量體裁衣”。這背后的難度超乎想象，需要大量改寫調(diào)用芯片的軟件代碼，使其與目標系統(tǒng)在各個環(huán)節(jié)都實現(xiàn)兼容。要想一款國產(chǎn)芯片嵌入既有的模型訓(xùn)練和推理體系，并達到可用、好用、能規(guī)?；褂玫臓顟B(tài)，往往需要長期摸索。當國產(chǎn)芯片開始在具體場景里能夠接住原本由外國芯片承擔的計算任務(wù)，企業(yè)就可以不再依賴特定進口型號。

12 全文共 2 頁下一頁

關(guān)閉

中國大模型不被定義 率道而行

相關(guān)新聞

今日熱點

頻道熱點

中國大模型不被定義率道而行