過去一周,中國的人工智能大模型成為硅谷乃至全球科技界的熱議話題。引發(fā)這場討論的是中國人工智能初創(chuàng)公司深度求索(DeepSeek)。該公司上周發(fā)布的推理大模型DeepSeek-R1因其性能可比肩OpenAI的o1、極低的服務價格以及代碼和模型架構的完全開源而震驚業(yè)界。
多位知名科技人士對DeepSeek近期取得的成就表示贊嘆。Scale AI創(chuàng)始人亞歷山大·王稱,美國可能在過去的十年里一直領先于中國,但DeepSeek的發(fā)布可能會“改變一切”。加州大學伯克利分校計算機科學教授伊恩·斯托伊卡表示,DeepSeek-R1只需花費訓練GPT、Gemini和Claude等現(xiàn)有大模型的一小部分成本即可獲得最先進的結果,并且在該校的大模型排行榜中排名第三。
這一成就在美國對華芯片出口管制加強的背景下實現(xiàn)。斯托伊卡認為,限制條件和資源匱乏往往會激發(fā)創(chuàng)新。
受到規(guī)模定律的影響,全球AI大模型開發(fā)長期以來陷入了一場關于頂尖人才、先進算力和巨額投資的競爭。各大科技公司大量囤積芯片以確保充足的算力。然而,當越來越多科學家開始質(zhì)疑堆數(shù)據(jù)和堆算力的做法時,中國量化交易公司幻方量化旗下的人工智能初創(chuàng)公司DeepSeek橫空出世,通過優(yōu)化模型架構和基礎設施等方式快速突進。
早在去年12月,該公司推出的DeepSeek-V3展現(xiàn)了極致性價比。從技術報告來看,該模型僅需2.788M H800 GPU小時,訓練成本僅為557萬美元,但其性能與GPT-4o和Claude Sonnet 3.5等頂尖模型相當。著名人工智能科學家卡帕西指出,這種級別的能力通常需要接近16000顆GPU的集群。
最新發(fā)布的DeepSeek-R1在服務價格上也具有明顯優(yōu)勢。其API服務定價為每百萬輸入tokens 1元(緩存命中)/ 4元(緩存未命中),分別是OpenAI o1的2%和3.6%。外界普遍認為,美國尖端芯片出口管制并沒有削弱中國的AI能力,反而推動了DeepSeek等初創(chuàng)公司以效率、資源池和協(xié)作的方式進行創(chuàng)新。
短短一個月內(nèi),中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-27 08:21:32DeepSeek大模型強在哪白頭鷹再次針對一家小公司采取行動,使用的依舊是那些熟悉的手段。近期,一家初創(chuàng)公司推出的DeepSeek軟件在全球范圍內(nèi)引起轟動,在160多個國家的AI軟件下載排行榜上位居榜首
2025-02-04 19:33:47DeepSeek美股泡沫得以延續(xù)短短一個月內(nèi),中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型——DeepSeek-V3和DeepSeek-R1
2025-01-26 10:34:01DeepSeek讓Meta深陷恐慌