DeepSeek近期的一系列動(dòng)作,尤其是其模型的發(fā)布,迫使OpenAI在深夜緊急推出了o3-mini。過(guò)去半個(gè)月里,中國(guó)AI公司在國(guó)內(nèi)外媒體上頻頻亮相,影響力持續(xù)上升。關(guān)于DeepSeek的模型訓(xùn)練數(shù)據(jù)、GPU用量、成員構(gòu)成以及強(qiáng)化學(xué)習(xí)算法等細(xì)節(jié),成為了公眾關(guān)注的焦點(diǎn)。
SemiAnalysis的一篇深度報(bào)道對(duì)這些方面進(jìn)行了詳細(xì)推測(cè)。報(bào)道指出,DeepSeek不是簡(jiǎn)單的副業(yè)項(xiàng)目,其在硬件上的支出遠(yuǎn)超5億美元。論文中提到的600萬(wàn)美元僅是預(yù)訓(xùn)練階段的GPU成本,而研發(fā)和硬件總擁有成本并未計(jì)算在內(nèi)。據(jù)估計(jì),DeepSeek擁有約5萬(wàn)塊Hopper GPU,包括特供版H800和H20,并且有150名員工,其中不乏來(lái)自北大、浙大的頂尖人才,優(yōu)秀候選人的年薪可高達(dá)934萬(wàn)元人民幣。
DeepSeek的一個(gè)關(guān)鍵創(chuàng)新是多頭潛注意力機(jī)制(MLA),這一技術(shù)顯著降低了推理成本。V3模型性能超越了R1和o1,而谷歌的Gemini 2.0 Flash Thinking與R1不相上下。此外,H100的價(jià)格因V3和R1的發(fā)布而猛漲,體現(xiàn)了杰文斯悖論的作用。
幻方量化作為DeepSeek的主要投資者,早期就看到了AI在金融領(lǐng)域之外的巨大潛力。2021年,他們購(gòu)入了1萬(wàn)塊A100 GPU,隨后在2023年成立了DeepSeek,專注于推進(jìn)AI技術(shù)發(fā)展。目前,兩家公司在人力資源和計(jì)算資源方面保持密切合作。
DeepSeek在人才招聘上注重實(shí)際能力和求知欲望,經(jīng)常在北京大學(xué)和浙江大學(xué)舉辦招聘活動(dòng)。公司提供極具競(jìng)爭(zhēng)力的薪酬待遇,優(yōu)秀候選人年薪可達(dá)130萬(wàn)美元以上。這種靈活的人才戰(zhàn)略使得DeepSeek能夠快速擴(kuò)張。
DeepSeek的成功不僅在于資金充足,還在于高效的運(yùn)營(yíng)模式。相較于大公司的繁瑣決策流程,DeepSeek能更快地將創(chuàng)新理念付諸實(shí)踐。他們主要依靠自建數(shù)據(jù)中心進(jìn)行技術(shù)創(chuàng)新,這為他們?cè)谡麄€(gè)技術(shù)棧上提供了更大的實(shí)驗(yàn)空間。
中國(guó)AI大模型市場(chǎng)規(guī)模正在快速發(fā)展。近日,量化巨頭幻方量化旗下公司DeepSeek發(fā)布了推理大模型DeepSeek-R1
2025-01-27 08:58:14震動(dòng)科技界