DeepSeek新版本發(fā)布為何悄無聲息打破行業(yè)慣例

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-04-30 07:37:49 百家號(hào)

DeepSeek新版本發(fā)布為何悄無聲息打破行業(yè)慣例。帶著十六個(gè)字，DeepSeek新版本姍姍來遲。距離上一次更新的V3.2版本已經(jīng)過去近5個(gè)月。在這期間，安索皮克的克勞德神話模型在網(wǎng)絡(luò)攻擊上展現(xiàn)出前所未有的能力，有機(jī)構(gòu)稱其將網(wǎng)絡(luò)攻擊的時(shí)代從“手工化”帶到了“工業(yè)化”；GPT-Image-2也讓網(wǎng)友驚呼“有圖有真相”的時(shí)代已經(jīng)過去。在這個(gè)國外主流大模型平均91.4天就迭代一個(gè)版本的時(shí)代，DeepSeek的“靜默”，在很多人眼里幾乎等同于落后，甚至掉隊(duì)。

沉默的DeepSeek讓人很不習(xí)慣——2025年初橫空出世、用更少的算力實(shí)現(xiàn)更優(yōu)的性能、打破美西方營造的“算力焦慮”。這些標(biāo)簽讓它的意義不止于一個(gè)公司的一款產(chǎn)品。幾個(gè)月里，關(guān)于DeepSeek-V4的市場傳聞就沒斷過。當(dāng)時(shí)，國外科技媒體稱V4模型將在今年春節(jié)發(fā)布，具有強(qiáng)大的編碼能力。當(dāng)一家公司最核心產(chǎn)品的動(dòng)態(tài)被匿名信源、外媒報(bào)道和券商研報(bào)所定義——這本身已偏離了技術(shù)討論的軌道。DeepSeek官方從未對(duì)外界的消息做過任何確認(rèn)，這種沉默又讓討論升級(jí)。

2月26日，事情迎來轉(zhuǎn)折。路透社稱，據(jù)知情人士透露，DeepSeek發(fā)布V4之前沒有向美國芯片公司英偉達(dá)和超微半導(dǎo)體提供模型早期訪問權(quán)限，而是讓中國企業(yè)華為提前數(shù)周開展軟件適配優(yōu)化工作。路透社在報(bào)道中用了“breaking from standard industry practice”（打破行業(yè)慣例）這一表述。這是此前無論中國公司還是外國公司的大模型都沒有采用過的方式。顯然，此時(shí)討論的已經(jīng)不只是一個(gè)公司能否發(fā)布新產(chǎn)品的問題了。

此次DeepSeek與華為昇騰國產(chǎn)芯片體系深度適配并不令人意外。去年8月，DeepSeek發(fā)布DeepSeek-V3.1時(shí)就宣布采用UE8M0 FP8 Scale參數(shù)精度，并特別表示這一數(shù)據(jù)格式是針對(duì)即將發(fā)布的下一代國產(chǎn)芯片設(shè)計(jì)。軟件主動(dòng)適配硬件特性本質(zhì)上是在為國產(chǎn)芯片“量體裁衣”。這背后的難度超乎想象，需要大量改寫調(diào)用芯片的軟件代碼，使其與目標(biāo)系統(tǒng)在各個(gè)環(huán)節(jié)都實(shí)現(xiàn)兼容。依據(jù)新款芯片的特點(diǎn)，哪些代碼還能沿用，哪些必須重寫？原本依賴的算子、通信方式和并行策略放到國產(chǎn)芯片上還能否成立？訓(xùn)練流程中最關(guān)鍵的環(huán)節(jié)怎樣調(diào)整才能既跑得通，又不損失太多性能？因此，要想一款國產(chǎn)芯片嵌入既有的模型訓(xùn)練和推理體系，并達(dá)到可用、好用、能規(guī)?；褂玫臓顟B(tài)，往往需要長期摸索。而當(dāng)國產(chǎn)芯片開始在具體場景里能夠接住原本由外國芯片承擔(dān)的計(jì)算任務(wù)，企業(yè)就可以不再依賴特定進(jìn)口型號(hào)。

12 全文共 2 頁下一頁

關(guān)閉

DeepSeek新版本發(fā)布為何悄無聲息 打破行業(yè)慣例

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

DeepSeek新版本發(fā)布為何悄無聲息打破行業(yè)慣例