媒體：DeepSeek不需要被神話理性看待其成就

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-01-27 22:44:21 界面新聞

1月27日，DeepSeek AI智能助手登上中美iOS免費應(yīng)用排行榜榜首，這是中國應(yīng)用首次取得這一成績。與此同時，與該公司相關(guān)的多個詞條進入微博熱搜，其中一條是“DeepSeek徹底爆發(fā)”。這背后反映了開源模型追趕甚至超越閉源模型的情緒。

事實上，DeepSeek在這幾天并沒有特別的動作，將其推上輿論中心的力量主要來自Meta。三天前，在美國匿名職場社區(qū)teamblind上，有Meta員工表示，DeepSeek的低成本訓(xùn)練工作讓Meta的生成式AI團隊感到恐慌，工程師們正努力分析DeepSeek，試圖從中復(fù)制任何可能的東西。隨后，Meta首席人工智能科學(xué)家楊立昆在X平臺上表示，對于認為“中國在人工智能領(lǐng)域正在超越美國”的人，正確的看法是“開源模型正在超越閉源模型”。

DeepSeek并不是突然崛起。從DeepSeek-V2開始，這家公司已被硅谷視為一股神秘力量。它在國內(nèi)大模型行業(yè)率先發(fā)起了一場真正意義上的“降價潮”，憑借“MoE+MLA”架構(gòu)創(chuàng)新實現(xiàn)了成本降低。近期熱議的原因在于它在過去一個月內(nèi)相繼發(fā)布了DeepSeek-V3和R1兩款大模型產(chǎn)品。

2024年底，DeepSeek發(fā)布新一代MoE模型DeepSeek-V3，擁有6710億參數(shù)，激活參數(shù)為370億，在14.8萬億token上進行了預(yù)訓(xùn)練。V3在知識類任務(wù)上接近當前表現(xiàn)最好的Claude-3.5-Sonnet-1022，在代碼能力上稍好于后者，并且在數(shù)學(xué)能力上領(lǐng)先其他開閉源模型。更重要的是，DeepSeek-V3的總訓(xùn)練成本僅為557.6萬美元，完整訓(xùn)練消耗了278.8萬個GPU小時，幾乎是同等性能水平模型所需成本的十分之一。

一周前，DeepSeek發(fā)布了推理模型R1，其性能對齊OpenAI-o1正式版，并同步開源模型權(quán)重。R1在多項任務(wù)上與OpenAI-o1-1217基本持平，尤其在AIME 2024、MATH-500、SWE-Bench Verified三項測試集上以微弱優(yōu)勢取勝。此外，R1還開源了僅通過強化學(xué)習(xí)訓(xùn)練的大語言模型R1-Zero，盡管沒有人類監(jiān)督數(shù)據(jù)介入，但該模型足以對標OpenAI-o1-0912，探索出僅通過強化學(xué)習(xí)就能獲得推理能力的技術(shù)可能性。

12 全文共 2 頁下一頁

關(guān)閉

媒體：DeepSeek不需要被神話 理性看待其成就

相關(guān)新聞

今日熱點

頻道熱點

媒體：DeepSeek不需要被神話理性看待其成就