3月24日晚,DeepSeek發(fā)布了模型更新——DeepSeek-V3-0324。這次更新是DeepSeek V3模型的小版本升級,并非市場期待的DeepSeek-V4或R2。其開源版本已上線Hugging Face,模型體積為6850億參數(shù)。
同日,DeepSeek在其官方交流群宣布,DeepSeek V3模型已完成小版本升級,歡迎用戶前往官方網(wǎng)頁、App和小程序試用體驗。API接口和使用方式保持不變。
此前于2024年12月發(fā)布的DeepSeek-V3模型以“557.6萬美金比肩Claude 3.5效果”的高性價比著稱,多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,并在性能上與世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。但截至目前,還沒有關(guān)于新版DeepSeek-V3的能力基準測試榜單出現(xiàn)。
2025年1月,DeepSeek發(fā)布了性能比肩OpenAI o1正式版的DeepSeek-R1模型。該模型在后訓(xùn)練階段大規(guī)模使用了強化學(xué)習(xí)技術(shù),在僅有極少標注數(shù)據(jù)的情況下,極大提升了模型推理能力。
V3是一個擁有6710億參數(shù)的專家混合模型(Moe),其中370億參數(shù)處于激活狀態(tài)。傳統(tǒng)的大模型通常采用密集的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),每個輸入token都會被激活并參與計算,耗費大量算力。此外,傳統(tǒng)的混合專家模型中,不平衡的專家負載是一個很大難題,會導(dǎo)致路由崩潰現(xiàn)象,影響計算效率。
為解決這個問題,DeepSeek對V3進行了大膽創(chuàng)新,提出了輔助損失免費的負載均衡策略,引入“偏差項”。在模型訓(xùn)練過程中,每個專家都被賦予了一個偏差項,它會被添加到相應(yīng)的親和力分數(shù)上,以此來決定top-K路由。此外,V3還采用了節(jié)點受限的路由機制,限制通信成本。通過確保每個輸入最多只能被發(fā)送到預(yù)設(shè)數(shù)量的節(jié)點上,V3能夠顯著減少跨節(jié)點通信的流量,提高訓(xùn)練效率。
根據(jù)國外開源評測平臺kcores-llm-arena對V3-0324的最新測試數(shù)據(jù)顯示,其代碼能力達到了328.3分,超過了普通版的Claude 3.7 Sonnet(322.3),可以比肩334.8分的思維鏈版本。