DeepSeek發(fā)布V3模型更新性能再升級

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-03-25 09:04:50 每日經(jīng)濟新聞

3月24日晚，DeepSeek發(fā)布了模型更新——DeepSeek-V3-0324。這次更新是DeepSeek V3模型的小版本升級，并非市場期待的DeepSeek-V4或R2。其開源版本已上線Hugging Face，模型體積為6850億參數(shù)。

同日，DeepSeek在其官方交流群宣布，DeepSeek V3模型已完成小版本升級，歡迎用戶前往官方網(wǎng)頁、App和小程序試用體驗。API接口和使用方式保持不變。

此前于2024年12月發(fā)布的DeepSeek-V3模型以“557.6萬美金比肩Claude 3.5效果”的高性價比著稱，多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型，并在性能上與世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。但截至目前，還沒有關(guān)于新版DeepSeek-V3的能力基準測試榜單出現(xiàn)。

2025年1月，DeepSeek發(fā)布了性能比肩OpenAI o1正式版的DeepSeek-R1模型。該模型在后訓(xùn)練階段大規(guī)模使用了強化學(xué)習(xí)技術(shù)，在僅有極少標注數(shù)據(jù)的情況下，極大提升了模型推理能力。

V3是一個擁有6710億參數(shù)的專家混合模型（Moe），其中370億參數(shù)處于激活狀態(tài)。傳統(tǒng)的大模型通常采用密集的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，每個輸入token都會被激活并參與計算，耗費大量算力。此外，傳統(tǒng)的混合專家模型中，不平衡的專家負載是一個很大難題，會導(dǎo)致路由崩潰現(xiàn)象，影響計算效率。

為解決這個問題，DeepSeek對V3進行了大膽創(chuàng)新，提出了輔助損失免費的負載均衡策略，引入“偏差項”。在模型訓(xùn)練過程中，每個專家都被賦予了一個偏差項，它會被添加到相應(yīng)的親和力分數(shù)上，以此來決定top-K路由。此外，V3還采用了節(jié)點受限的路由機制，限制通信成本。通過確保每個輸入最多只能被發(fā)送到預(yù)設(shè)數(shù)量的節(jié)點上，V3能夠顯著減少跨節(jié)點通信的流量，提高訓(xùn)練效率。

根據(jù)國外開源評測平臺kcores-llm-arena對V3-0324的最新測試數(shù)據(jù)顯示，其代碼能力達到了328.3分，超過了普通版的Claude 3.7 Sonnet（322.3），可以比肩334.8分的思維鏈版本。

(責(zé)任編輯：于浩淙 zx0176)

關(guān)閉

DeepSeek發(fā)布V3模型更新 性能再升級

相關(guān)新聞

今日熱點

頻道熱點

DeepSeek發(fā)布V3模型更新性能再升級