DeepSeek新版本發(fā)布為何悄無聲息 打破行業(yè)慣例。帶著十六個(gè)字,DeepSeek新版本姍姍來遲。距離上一次更新的V3.2版本已經(jīng)過去近5個(gè)月。在這期間,安索皮克的克勞德神話模型在網(wǎng)絡(luò)攻擊上展現(xiàn)出前所未有的能力,有機(jī)構(gòu)稱其將網(wǎng)絡(luò)攻擊的時(shí)代從“手工化”帶到了“工業(yè)化”;GPT-Image-2也讓網(wǎng)友驚呼“有圖有真相”的時(shí)代已經(jīng)過去。在這個(gè)國外主流大模型平均91.4天就迭代一個(gè)版本的時(shí)代,DeepSeek的“靜默”,在很多人眼里幾乎等同于落后,甚至掉隊(duì)。
沉默的DeepSeek讓人很不習(xí)慣——2025年初橫空出世、用更少的算力實(shí)現(xiàn)更優(yōu)的性能、打破美西方營造的“算力焦慮”。這些標(biāo)簽讓它的意義不止于一個(gè)公司的一款產(chǎn)品。幾個(gè)月里,關(guān)于DeepSeek-V4的市場傳聞就沒斷過。當(dāng)時(shí),國外科技媒體稱V4模型將在今年春節(jié)發(fā)布,具有強(qiáng)大的編碼能力。當(dāng)一家公司最核心產(chǎn)品的動(dòng)態(tài)被匿名信源、外媒報(bào)道和券商研報(bào)所定義——這本身已偏離了技術(shù)討論的軌道。DeepSeek官方從未對(duì)外界的消息做過任何確認(rèn),這種沉默又讓討論升級(jí)。
2月26日,事情迎來轉(zhuǎn)折。路透社稱,據(jù)知情人士透露,DeepSeek發(fā)布V4之前沒有向美國芯片公司英偉達(dá)和超微半導(dǎo)體提供模型早期訪問權(quán)限,而是讓中國企業(yè)華為提前數(shù)周開展軟件適配優(yōu)化工作。路透社在報(bào)道中用了“breaking from standard industry practice”(打破行業(yè)慣例)這一表述。這是此前無論中國公司還是外國公司的大模型都沒有采用過的方式。顯然,此時(shí)討論的已經(jīng)不只是一個(gè)公司能否發(fā)布新產(chǎn)品的問題了。
此次DeepSeek與華為昇騰國產(chǎn)芯片體系深度適配并不令人意外。去年8月,DeepSeek發(fā)布DeepSeek-V3.1時(shí)就宣布采用UE8M0 FP8 Scale參數(shù)精度,并特別表示這一數(shù)據(jù)格式是針對(duì)即將發(fā)布的下一代國產(chǎn)芯片設(shè)計(jì)。軟件主動(dòng)適配硬件特性本質(zhì)上是在為國產(chǎn)芯片“量體裁衣”。這背后的難度超乎想象,需要大量改寫調(diào)用芯片的軟件代碼,使其與目標(biāo)系統(tǒng)在各個(gè)環(huán)節(jié)都實(shí)現(xiàn)兼容。依據(jù)新款芯片的特點(diǎn),哪些代碼還能沿用,哪些必須重寫?原本依賴的算子、通信方式和并行策略放到國產(chǎn)芯片上還能否成立?訓(xùn)練流程中最關(guān)鍵的環(huán)節(jié)怎樣調(diào)整才能既跑得通,又不損失太多性能?因此,要想一款國產(chǎn)芯片嵌入既有的模型訓(xùn)練和推理體系,并達(dá)到可用、好用、能規(guī)?;褂玫臓顟B(tài),往往需要長期摸索。而當(dāng)國產(chǎn)芯片開始在具體場景里能夠接住原本由外國芯片承擔(dān)的計(jì)算任務(wù),企業(yè)就可以不再依賴特定進(jìn)口型號(hào)。
12月1日,DeepSeek發(fā)布了兩個(gè)正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale
2025-12-01 19:40:53DeepSeek同時(shí)發(fā)布兩個(gè)正式版模型36氪獲悉,雷軍發(fā)文稱,11月21日上午9點(diǎn)廣州車展上將發(fā)布小米端到端輔助駕駛新版本——HAD 增強(qiáng)版。 這個(gè)版本進(jìn)步很大
2025-11-18 14:33:48雷軍稱輔助駕駛新版本進(jìn)步很大