DeepSeek近期的一系列動作,尤其是其模型的發(fā)布,迫使OpenAI在深夜緊急推出了o3-mini。過去半個月里,中國AI公司在國內外媒體上頻頻亮相,影響力持續(xù)上升。關于DeepSeek的模型訓練數據、GPU用量、成員構成以及強化學習算法等細節(jié),成為了公眾關注的焦點。
SemiAnalysis的一篇深度報道對這些方面進行了詳細推測。報道指出,DeepSeek不是簡單的副業(yè)項目,其在硬件上的支出遠超5億美元。論文中提到的600萬美元僅是預訓練階段的GPU成本,而研發(fā)和硬件總擁有成本并未計算在內。據估計,DeepSeek擁有約5萬塊Hopper GPU,包括特供版H800和H20,并且有150名員工,其中不乏來自北大、浙大的頂尖人才,優(yōu)秀候選人的年薪可高達934萬元人民幣。
DeepSeek的一個關鍵創(chuàng)新是多頭潛注意力機制(MLA),這一技術顯著降低了推理成本。V3模型性能超越了R1和o1,而谷歌的Gemini 2.0 Flash Thinking與R1不相上下。此外,H100的價格因V3和R1的發(fā)布而猛漲,體現了杰文斯悖論的作用。
幻方量化作為DeepSeek的主要投資者,早期就看到了AI在金融領域之外的巨大潛力。2021年,他們購入了1萬塊A100 GPU,隨后在2023年成立了DeepSeek,專注于推進AI技術發(fā)展。目前,兩家公司在人力資源和計算資源方面保持密切合作。
DeepSeek在人才招聘上注重實際能力和求知欲望,經常在北京大學和浙江大學舉辦招聘活動。公司提供極具競爭力的薪酬待遇,優(yōu)秀候選人年薪可達130萬美元以上。這種靈活的人才戰(zhàn)略使得DeepSeek能夠快速擴張。
DeepSeek的成功不僅在于資金充足,還在于高效的運營模式。相較于大公司的繁瑣決策流程,DeepSeek能更快地將創(chuàng)新理念付諸實踐。他們主要依靠自建數據中心進行技術創(chuàng)新,這為他們在整個技術棧上提供了更大的實驗空間。
盡管論文中提到的600萬美元僅指預訓練階段的直接成本,但高級分析師認為,DeepSeek在硬件方面的累計投資已遠超5億美元。例如,多頭潛注意力機制的開發(fā)耗時數月,消耗了大量資源。隨著算法優(yōu)化,訓練和推理同等性能所需的計算資源不斷減少,這種趨勢在行業(yè)內屢見不鮮。
R1在短時間內實現了與o1相當的性能水平,得益于新的“推理”范式。這種方法通過合成數據生成和后訓練強化學習來提升推理能力,以更低成本獲得快速進展。谷歌的Gemini Flash 2.0 Thinking也在基準測試中表現優(yōu)異,但在市場策略和用戶體驗上有所欠缺。
DeepSeek的技術突破,如多Token預測(MTP)和混合專家模型(MoE),引起了西方實驗室的關注。這些創(chuàng)新提高了訓練效率并降低了推理成本。R1的成功還得益于強大的基礎模型V3和強化學習的應用。
多頭潛注意力機制(MLA)顯著減少了每次查詢所需的KV緩存量,降低了運營成本。這項創(chuàng)新特別受到美國頂級實驗室的關注。此外,由于H20芯片具有更高的內存帶寬和容量,DeepSeek在推理工作負載方面獲得了更多效率提升。
R1雖然在性能上接近o1,但成本更低,這符合市場邏輯。率先突破新能力層次的公司將獲得價格溢價,而追趕者只能獲得適度利潤。當前正處于技術快速迭代的周期,產品更新換代速度前所未有。未來,開源模型市場將在下一代技術中迅速商品化,計算資源的集中度仍將是關鍵因素。
數據是寶貴的資源,能夠幫助投資者減少煩惱。中國AI大模型市場正快速發(fā)展。近日,量化巨頭幻方量化旗下公司DeepSeek發(fā)布了推理大模型DeepSeek-R1
2025-01-27 09:33:36DeepSeek出圈概念股曝光日前,“今日閔行”公眾號發(fā)布了一篇文章,提到DeepSeek創(chuàng)始人梁文鋒2009年曾在位于上海閔行的上海艾麒信息科技股份有限公司實習,負責的內容與人工智能相關
2025-02-11 12:38:48DeepSeek梁文鋒實習往事曝光中國AI大模型市場規(guī)模正在快速發(fā)展。近日,量化巨頭幻方量化旗下公司DeepSeek發(fā)布了推理大模型DeepSeek-R1
2025-01-27 08:58:14震動科技界工人正在安裝中心探測器的不銹鋼網架網殼部分。建設中的江門中微子實驗中心探測器展示了其壯觀景象,工人們在不銹鋼網架上進行施工。中微子是構成物質世界的基本粒子之一,也是宇宙中最常見的粒子
2024-10-25 10:34:19地下700米粒子捕手