DeepSeek-V3.1正式發(fā)布新版本效率大幅提升

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-08-21 22:51:14 新浪財經(jīng)

DeepSeek用戶期待的R2模型尚未到來，但V3.1版本已經(jīng)發(fā)布。8月21日，DeepSeek官方公眾號宣布最新大語言模型DeepSeek-V3.1正式上線，距離上一個版本DeepSeek-V3-0324已有五個月。

新版本在三個方面進行了升級：混合推理架構(gòu)、更高的思考效率以及更強的Agent能力。從命名來看，DeepSeek-V3.1似乎是前一代DeepSeek-V3的小版本迭代。該模型支持兩種工作模式——思考模式和非思考模式。面對簡單問題時，它以非思考模式快速作答；處理復(fù)雜問題時，則切換到思考模式，提供更具深度和邏輯的答案。用戶可以通過官方App或網(wǎng)頁端的“深度思考”按鈕來切換這兩種模式。

與之前的DeepSeek-R1-0528相比，DeepSeek-V3.1在思考模式下的效率大幅提升，能在更短時間內(nèi)給出答案，并且經(jīng)過思維鏈壓縮訓(xùn)練后，token消耗量減少了20%至50%，同時保持了與R1-0528相當(dāng)?shù)娜蝿?wù)表現(xiàn)。此外，在非思考模式下，新模型的輸出長度也得到了有效控制，能夠在輸出長度明顯減少的情況下保持相同的性能。

通過Post-Training優(yōu)化，新模型在工具使用與編程、搜索等智能體任務(wù)中的表現(xiàn)大幅提升。在代碼修復(fù)和命令行終端任務(wù)測試中，DeepSeek-V3.1的表現(xiàn)顯著優(yōu)于以往模型。社區(qū)第三方測試數(shù)據(jù)顯示，在Aider多語言編程基準(zhǔn)測試中，V3.1取得了71.6%的高分，超越了多個知名模型，完成一次編程任務(wù)的成本僅為1.01美元，成本效益優(yōu)勢顯著。

隨著V3.1的發(fā)布，DeepSeek調(diào)整了API接口調(diào)用價格，并取消了夜間優(yōu)惠。自北京時間2025年9月6日凌晨起，輸入價格方面，緩存命中時為0.5元/百萬tokens，緩存未命中時則漲至4元/百萬tokens；輸出價格調(diào)整為12元/百萬tokens。DeepSeek還在評論區(qū)提到，DeepSeek-V3.1使用了UE8M0 FP8 Scale的參數(shù)精度，并對分詞器及chat template進行了較大調(diào)整，與DeepSeek-V3存在明顯差異。UE8M0 FP8是針對即將發(fā)布的下一代國產(chǎn)芯片設(shè)計的。

此前有第三方數(shù)據(jù)顯示，DeepSeek用戶使用率和官網(wǎng)流量有所回落。周鴻祎表示，DeepSeek官網(wǎng)流量下降是因為沒有花心思，但現(xiàn)在許多第三方云服務(wù)上都有DeepSeek的服務(wù)，使用DeepSeek的大模型流量一直很高。在中國，許多公司包括360智能體的基座模型等都使用DeepSeek進行開發(fā)，相當(dāng)于很多公司的“武器裝備”都是由DeepSeek提供的。

DeepSeek成立于2023年，總部位于杭州，由幻方量化孵化。創(chuàng)始團隊由梁文鋒領(lǐng)銜，成員來自頂尖高校與國際機構(gòu)技術(shù)專家。截至目前，DeepSeek推出了DeepSeek-V3、DeepSeek-R1等模型，具備混合專家架構(gòu)（MoE）、多頭潛在注意力（MLA）等技術(shù)優(yōu)勢，在數(shù)學(xué)推理、代碼生成等任務(wù)上表現(xiàn)出色，且訓(xùn)練和推理成本較低。其部分模型采用MIT許可開源，已在金融、醫(yī)療等領(lǐng)域落地應(yīng)用。

(責(zé)任編輯：0764)

關(guān)閉

DeepSeek-V3.1正式發(fā)布 新版本效率大幅提升

相關(guān)新聞

今日熱點

頻道熱點

DeepSeek-V3.1正式發(fā)布新版本效率大幅提升