就在DeepSeek創(chuàng)造“行業(yè)奇跡”前不久,國(guó)內(nèi)大模型行業(yè)的共識(shí)幾乎仍是“要做應(yīng)用”,因?yàn)樽鐾ㄓ么竽P偷臋C(jī)會(huì)已經(jīng)沒(méi)有了。一些明星創(chuàng)業(yè)企業(yè)放棄了對(duì)通用AGI的探索,轉(zhuǎn)而借助現(xiàn)有模型去研發(fā)應(yīng)用。在這種共識(shí)下,多數(shù)國(guó)產(chǎn)大模型企業(yè)更多關(guān)注具體且仍不成熟的應(yīng)用,如陪伴型AI聊天機(jī)器人或文生圖、文生視頻等。
面對(duì)差距,許多企業(yè)選擇繞開(kāi)這些差距,這是正常的科技與商業(yè)選擇。梁文鋒也承認(rèn),在模型結(jié)構(gòu)和訓(xùn)練動(dòng)力學(xué)上,國(guó)內(nèi)的最高水平比起國(guó)外最高水平可能有一倍的差距,數(shù)據(jù)效率上也有差距,導(dǎo)致國(guó)內(nèi)要用四倍的算力才能取得同樣的效果。再加上復(fù)雜宏觀環(huán)境下算力本身的成本差距,多數(shù)企業(yè)選擇了繞開(kāi)這些差距。
但DeepSeek選擇的方向反直覺(jué)和常識(shí)。既然資源差距大,那就干脆回到模型架構(gòu)底層去創(chuàng)新和優(yōu)化。事實(shí)證明,這條路最終反而能更快達(dá)成目標(biāo)。AGI的發(fā)展固然與算力成本相關(guān),但在動(dòng)態(tài)的創(chuàng)新過(guò)程中,更重要的是“創(chuàng)新”本身。大模型不是簡(jiǎn)單的資源加總游戲,也不是囤更多算力就能快速突破,而是需要堅(jiān)持長(zhǎng)期視角,專(zhuān)注底層創(chuàng)新,探索新的路徑。短視恰恰是創(chuàng)新的最大敵人。