DeepSeek婉拒所有采訪專注研發(fā) 引發(fā)OpenAI緊急應(yīng)對

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-05 15:07:38 新浪財經(jīng)

DeepSeek婉拒所有采訪專注研發(fā)。DeepSeek的最新動作迫使OpenAI在深夜緊急上線o3-mini。近半個月來，中國的人工智能技術(shù)持續(xù)占據(jù)國內(nèi)外媒體頭條，影響力不斷擴大。關(guān)于DeepSeek模型的訓(xùn)練數(shù)據(jù)、GPU使用量、團隊構(gòu)成及強化學(xué)習(xí)算法等細節(jié)成為關(guān)注焦點。

SemiAnalysis的一篇深度報道從多個角度進行了推測，包括訓(xùn)練成本、對閉源模型利潤的影響以及團隊規(guī)模等。報道指出，DeepSeek并非簡單的副業(yè)項目，其在GPU等硬件上的支出超過5億美元。論文中提到的600萬美元僅是預(yù)訓(xùn)練階段的GPU成本，研發(fā)和硬件總擁有成本并未計算在內(nèi)。DeepSeek擁有約5萬塊Hopper GPU，包括特供版H800和H20。公司大約有150名員工，并定期從北大、浙大等頂尖高校招募人才，優(yōu)秀候選人年薪可達130萬美元。

DeepSeek的一個關(guān)鍵創(chuàng)新是多頭潛注意力機制（MLA），該機制顯著降低了推理成本。此外，V3模型性能遠超R1和o1，谷歌的Gemini 2.0 Flash Thinking與R1不相上下。隨著V3和R1的發(fā)布，H100價格大幅上漲，這體現(xiàn)了杰文斯悖論的作用。

幻方量化作為DeepSeek的主要投資者，很早就看到了AI在金融領(lǐng)域之外的巨大潛力。他們在2021年購入了10,000塊A100 GPU，這一決策后來被證明極具前瞻性。2023年5月，幻方?jīng)Q定分拆成立DeepSeek，以更專注地推進AI技術(shù)發(fā)展。目前兩家公司在人力資源和計算資源方面保持密切合作。

DeepSeek專注于招募中國本土人才，強調(diào)實際能力和求知欲望。他們在北京大學(xué)和浙江大學(xué)等頂尖高校舉辦招聘活動，提供極具競爭力的薪酬待遇?，F(xiàn)有員工約150人，公司保持快速擴張態(tài)勢。

DeepSeek的定價策略和運營效率引發(fā)了廣泛關(guān)注。盡管預(yù)訓(xùn)練階段的成本僅為600萬美元，但整體投入遠不止于此。開發(fā)新架構(gòu)的過程中需要大量資源進行測試和驗證。例如，多頭潛注意力機制的開發(fā)周期長達數(shù)月，消耗了大量人力和計算資源。

12 全文共 2 頁下一頁

關(guān)閉

DeepSeek婉拒所有采訪專注研發(fā) 引發(fā)OpenAI緊急應(yīng)對

相關(guān)新聞

今日熱點

頻道熱點