堅(jiān)持長(zhǎng)期視角,專(zhuān)注底層創(chuàng)新,探索新的路徑。一家此前不被多數(shù)媒體關(guān)注的“小企業(yè)”,走開(kāi)源路線(xiàn)而非閉源或率先開(kāi)發(fā)應(yīng)用,卻在2025年開(kāi)年成為中國(guó)大模型領(lǐng)域科技創(chuàng)新的全球代表。
這家名為DeepSeek(深度求索)的中國(guó)大模型企業(yè),最近發(fā)布的大模型在多項(xiàng)性能測(cè)試中達(dá)到了OpenAI最新大模型o1的水平,部分項(xiàng)目甚至實(shí)現(xiàn)了超越。這引發(fā)了全球科技行業(yè)的熱烈討論,有媒體形容“DeepSeek朝硅谷‘開(kāi)了一槍’”,甚至“震動(dòng)美國(guó)科技界”。
DeepSeek的成功主要體現(xiàn)在兩方面。首先是其算力成本投入與表現(xiàn)出來(lái)的性能對(duì)比超出了行業(yè)的一般認(rèn)知。據(jù)媒體報(bào)道,DeepSeek r1的訓(xùn)練成本僅為ChatGPT o1的零頭。其次是DeepSeek證明了開(kāi)源路線(xiàn)的逆襲勝利,對(duì)大公司、巨頭的閉源路線(xiàn)進(jìn)行了一次顛覆。
然而,這些看法在社交平臺(tái)上廣泛討論后,出現(xiàn)了一些扭曲。例如,DeepSeek r1的真實(shí)算力成本遠(yuǎn)不止600萬(wàn)美元,最早報(bào)道的媒體混淆了論文中的數(shù)據(jù)。事實(shí)上,550萬(wàn)美元是DeepSeek v3在正式訓(xùn)練階段的成本,不包括前期研究和實(shí)驗(yàn)的成本。從行業(yè)發(fā)展的邏輯來(lái)看,探索與迭代、追趕所需的算力成本不應(yīng)簡(jiǎn)單對(duì)比。創(chuàng)新和探索必然伴隨著算力和各項(xiàng)成本的浪費(fèi),在確定性路徑上的優(yōu)化所付出的代價(jià)與探索未知所付出的代價(jià)不宜直接比較。
現(xiàn)階段大模型的發(fā)展還不能定義為閉源與開(kāi)源路線(xiàn)的成敗。更嚴(yán)謹(jǐn)?shù)乜创鼶eepSeek帶給我們的驚喜,應(yīng)該是:它展示了模型架構(gòu)底層創(chuàng)新的價(jià)值,提升了算力效率,并推動(dòng)了開(kāi)源大模型產(chǎn)品在能力上的超越,從而進(jìn)一步提升行業(yè)整體的應(yīng)用研發(fā)水平。
盡管這個(gè)故事顯得有些審慎無(wú)聊,但值得探討的是為什么一家資金量不占優(yōu)勢(shì)、專(zhuān)注于底層創(chuàng)新而非商業(yè)化的開(kāi)源企業(yè),能在中國(guó)大模型領(lǐng)域?qū)崿F(xiàn)“彎道超車(chē)”。2024年8月,DeepSeek創(chuàng)始人梁文鋒在接受采訪(fǎng)時(shí)提到,團(tuán)隊(duì)的目標(biāo)是AGI(通用人工智能),因此需要研究新的模型結(jié)構(gòu),在有限資源下實(shí)現(xiàn)更強(qiáng)的模型能力。
就在DeepSeek創(chuàng)造“行業(yè)奇跡”前不久,國(guó)內(nèi)大模型行業(yè)的共識(shí)幾乎仍是“要做應(yīng)用”,因?yàn)樽鐾ㄓ么竽P偷臋C(jī)會(huì)已經(jīng)沒(méi)有了。一些明星創(chuàng)業(yè)企業(yè)放棄了對(duì)通用AGI的探索,轉(zhuǎn)而借助現(xiàn)有模型去研發(fā)應(yīng)用。在這種共識(shí)下,多數(shù)國(guó)產(chǎn)大模型企業(yè)更多關(guān)注具體且仍不成熟的應(yīng)用,如陪伴型AI聊天機(jī)器人或文生圖、文生視頻等。
面對(duì)差距,許多企業(yè)選擇繞開(kāi)這些差距,這是正常的科技與商業(yè)選擇。梁文鋒也承認(rèn),在模型結(jié)構(gòu)和訓(xùn)練動(dòng)力學(xué)上,國(guó)內(nèi)的最高水平比起國(guó)外最高水平可能有一倍的差距,數(shù)據(jù)效率上也有差距,導(dǎo)致國(guó)內(nèi)要用四倍的算力才能取得同樣的效果。再加上復(fù)雜宏觀(guān)環(huán)境下算力本身的成本差距,多數(shù)企業(yè)選擇了繞開(kāi)這些差距。
但DeepSeek選擇的方向反直覺(jué)和常識(shí)。既然資源差距大,那就干脆回到模型架構(gòu)底層去創(chuàng)新和優(yōu)化。事實(shí)證明,這條路最終反而能更快達(dá)成目標(biāo)。AGI的發(fā)展固然與算力成本相關(guān),但在動(dòng)態(tài)的創(chuàng)新過(guò)程中,更重要的是“創(chuàng)新”本身。大模型不是簡(jiǎn)單的資源加總游戲,也不是囤更多算力就能快速突破,而是需要堅(jiān)持長(zhǎng)期視角,專(zhuān)注底層創(chuàng)新,探索新的路徑。短視恰恰是創(chuàng)新的最大敵人。