DeepSeek突圍奧秘曝光，一招MLA讓全世界抄作業(yè)！150 天才集結(jié)，開出千萬年薪 5萬塊GPU助力創(chuàng)新

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-01 13:45:38 新浪財經(jīng)

DeepSeek近期的一系列動作，尤其是其模型的發(fā)布，迫使OpenAI在深夜緊急推出了o3-mini。過去半個月里，中國AI公司在國內(nèi)外媒體上頻頻亮相，影響力持續(xù)上升。關(guān)于DeepSeek的模型訓練數(shù)據(jù)、GPU用量、成員構(gòu)成以及強化學習算法等細節(jié)，成為了公眾關(guān)注的焦點。

SemiAnalysis的一篇深度報道對這些方面進行了詳細推測。報道指出，DeepSeek不是簡單的副業(yè)項目，其在硬件上的支出遠超5億美元。論文中提到的600萬美元僅是預訓練階段的GPU成本，而研發(fā)和硬件總擁有成本并未計算在內(nèi)。據(jù)估計，DeepSeek擁有約5萬塊Hopper GPU，包括特供版H800和H20，并且有150名員工，其中不乏來自北大、浙大的頂尖人才，優(yōu)秀候選人的年薪可高達934萬元人民幣。

DeepSeek的一個關(guān)鍵創(chuàng)新是多頭潛注意力機制（MLA），這一技術(shù)顯著降低了推理成本。V3模型性能超越了R1和o1，而谷歌的Gemini 2.0 Flash Thinking與R1不相上下。此外，H100的價格因V3和R1的發(fā)布而猛漲，體現(xiàn)了杰文斯悖論的作用。

幻方量化作為DeepSeek的主要投資者，早期就看到了AI在金融領域之外的巨大潛力。2021年，他們購入了1萬塊A100 GPU，隨后在2023年成立了DeepSeek，專注于推進AI技術(shù)發(fā)展。目前，兩家公司在人力資源和計算資源方面保持密切合作。

DeepSeek在人才招聘上注重實際能力和求知欲望，經(jīng)常在北京大學和浙江大學舉辦招聘活動。公司提供極具競爭力的薪酬待遇，優(yōu)秀候選人年薪可達130萬美元以上。這種靈活的人才戰(zhàn)略使得DeepSeek能夠快速擴張。

DeepSeek的成功不僅在于資金充足，還在于高效的運營模式。相較于大公司的繁瑣決策流程，DeepSeek能更快地將創(chuàng)新理念付諸實踐。他們主要依靠自建數(shù)據(jù)中心進行技術(shù)創(chuàng)新，這為他們在整個技術(shù)棧上提供了更大的實驗空間。

盡管論文中提到的600萬美元僅指預訓練階段的直接成本，但高級分析師認為，DeepSeek在硬件方面的累計投資已遠超5億美元。例如，多頭潛注意力機制的開發(fā)耗時數(shù)月，消耗了大量資源。隨著算法優(yōu)化，訓練和推理同等性能所需的計算資源不斷減少，這種趨勢在行業(yè)內(nèi)屢見不鮮。

R1在短時間內(nèi)實現(xiàn)了與o1相當?shù)男阅芩剑靡嬗谛碌摹巴评怼狈妒?。這種方法通過合成數(shù)據(jù)生成和后訓練強化學習來提升推理能力，以更低成本獲得快速進展。谷歌的Gemini Flash 2.0 Thinking也在基準測試中表現(xiàn)優(yōu)異，但在市場策略和用戶體驗上有所欠缺。

DeepSeek的技術(shù)突破，如多Token預測（MTP）和混合專家模型（MoE），引起了西方實驗室的關(guān)注。這些創(chuàng)新提高了訓練效率并降低了推理成本。R1的成功還得益于強大的基礎模型V3和強化學習的應用。

多頭潛注意力機制（MLA）顯著減少了每次查詢所需的KV緩存量，降低了運營成本。這項創(chuàng)新特別受到美國頂級實驗室的關(guān)注。此外，由于H20芯片具有更高的內(nèi)存帶寬和容量，DeepSeek在推理工作負載方面獲得了更多效率提升。

R1雖然在性能上接近o1，但成本更低，這符合市場邏輯。率先突破新能力層次的公司將獲得價格溢價，而追趕者只能獲得適度利潤。當前正處于技術(shù)快速迭代的周期，產(chǎn)品更新?lián)Q代速度前所未有。未來，開源模型市場將在下一代技術(shù)中迅速商品化，計算資源的集中度仍將是關(guān)鍵因素。

(責任編輯：張蕾)

關(guān)閉

DeepSeek突圍奧秘曝光，一招MLA讓全世界抄作業(yè)！150 天才集結(jié)，開出千萬年薪 5萬塊GPU助力創(chuàng)新

相關(guān)新聞

今日熱點

頻道熱點

DeepSeek突圍奧秘曝光，一招MLA讓全世界抄作業(yè)！150 天才集結(jié)，開出千萬年薪 5萬塊GPU助力創(chuàng)新