DeepSeek“小更新”表現(xiàn)遠(yuǎn)超預(yù)期代碼能力顯著提升

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-03-25 23:00:02 新浪

昨晚，DeepSeek 無預(yù)警發(fā)布了 DeepSeek-V3-0324 模型。雖然官方低調(diào)地稱其為“小版本迭代”，但實(shí)測表現(xiàn)遠(yuǎn)超預(yù)期。該模型在代碼生成、前端開發(fā)等方面顯著提升，部分能力甚至比肩 Claude 3.7 Sonnet，引發(fā)了全球 AI 社區(qū)的熱議。

在大模型競技場測試 KCORES 中，DeepSeek-V3-0324 的代碼能力得分為 328.3 分，超越了普通版 Claude 3.7 Sonnet 的 322.3 分，接近 Claude 3.7 Sonnet 思維鏈版本的 334.8 分。在 Aider LLM Leaderboard 排行榜中，DeepSeek-V3-0324 在多語言基準(zhǔn)測試中的得分為 55%，比 V3 有顯著提升，略低于 R1。在非思考/推理模型中，它排名第二，僅次于 Claude Sonnet 3.7。

測試數(shù)據(jù)還顯示，在表現(xiàn)良好的模型中，DeepSeek-V3-0324 的花費(fèi)最低，比 R1 低很多，僅需約 1/5 的成本，具有極高的性價比。Claude Sonnet 3.7 Thinking 的花費(fèi)是 DeepSeek-V3-0324 的 33 倍，o1 則是其 167 倍。

目前在 DeepSeek 官網(wǎng)上，只需關(guān)閉“深度思考”選項(xiàng)即可使用新模型。Hugging Face 上也提供了開源下載。DeepSeek-V3-0324 包含 685B 參數(shù)，較前代 V3 小幅增加，采用 MoE（專家混合）架構(gòu)，激活參數(shù) 370 億。網(wǎng)友實(shí)測 DeepSeek-V3-0324 支持 4-bit 量化，可在 512GB M3 Ultra Mac 上以 20+ token/s 速度運(yùn)行，磁盤占用僅 352GB。新模型采用與 DeepSeek-R1 相同的 MIT 許可，允許自由修改、商用及模型蒸餾，比上一版 V3 更開放。

從測評結(jié)果來看，DeepSeek-V3-0324 在前端開發(fā)方面表現(xiàn)突出，媲美頂級商業(yè)模型。X 博主 Deepanshu Sharma 使用簡單提示詞“用 HTML/CSS/JS 制作現(xiàn)代化登錄頁面”，就能讓新版 V3 一鍵生成 800 多行代碼，并且無錯誤運(yùn)行，效果堪比 Claude 3.7 Sonnet。在經(jīng)典彈跳小球測試中，DeepSeek V3-0324 不僅比 R1 表現(xiàn)更好，還生成了最流暢的動作。o3-mini 初始表現(xiàn)良好，但未能正確遵循物理原理，特別是在視頻中間，球?qū)χ亓]有做出正確的反應(yīng)。Deepanshu Sharma 評價 DeepSeek V3-0324“表現(xiàn)得像唯一排名第一的非推理模型”。

X 網(wǎng)友 karminski-牙醫(yī)表示，在升級版的 20 小球物理模擬測試中，DeepSeek V3-0324 相比 V3 也有明顯提升。在火星任務(wù)測試中，DeepSeek-V3-0324 提升巨大，星球和圖例渲染正確，發(fā)射和返回的窗口計(jì)算也有很大進(jìn)步。結(jié)合 UI 設(shè)計(jì)和物理模擬，X 網(wǎng)友 Parul Pandey 還用 DeepSeek-V3-0324 生成了一個可交互物理模擬界面，通過 AnyChat 使用 DeepSeek-V3-0324 模擬水分子。實(shí)際運(yùn)行中，可以通過溫度滑塊提升溫度，使分子呈現(xiàn)越來越快的前進(jìn)和碰撞反彈運(yùn)動。

Reddit 網(wǎng)友 pigeon57434 對此次升級的技術(shù)難度給出了中立解讀：不用太驚嘆本次 V3 升級的幅度，因?yàn)閺?qiáng)化學(xué)習(xí)潛力極大。以 QwQ-32B 為例，盡管它實(shí)際上小了 20 倍，但在某些方面的表現(xiàn)幾乎與 R1 一樣好，甚至更好。擴(kuò)展推理模型還有很大空間，甚至不需要新的基礎(chǔ)模型。使用更復(fù)雜的技術(shù)，可以輕松獲得基于 DeepSeek-V2.5 的推理模型來擊敗 R1，更不用說這個新版本的 V3 了。

此次更新再次證明了開源模型的爆發(fā)力，不僅技術(shù)指標(biāo)逼近頂級商業(yè) AI，更以低成本、高自由度推動行業(yè)變革。可以合理推測，此次更新可能是 R2 的前置版本，類似去年 V3 到 R1 的發(fā)布節(jié)奏，或許幾周內(nèi)會迎來更強(qiáng)的推理模型 R2。隨著 R2 的臨近，全球 AI 競爭格局或?qū)⒂瓉硇乱惠喯磁啤?/p>

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

DeepSeek“小更新”表現(xiàn)遠(yuǎn)超預(yù)期 代碼能力顯著提升

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

DeepSeek“小更新”表現(xiàn)遠(yuǎn)超預(yù)期代碼能力顯著提升