昨晚,玩家deedydas在社交媒體上披露了深度求索即將發(fā)布的下一代AI大模型DeepSeek-R2的參數(shù)信息。DeepSeek-R2將采用更先進(jìn)的混合專家模型(MoE),結(jié)合智能門控網(wǎng)絡(luò)層,以優(yōu)化高負(fù)載推理任務(wù)的性能。新模型的總參數(shù)量預(yù)計(jì)將達(dá)到1.2萬億,是DeepSeek-R1的兩倍左右。規(guī)模上,DeepSeek-R2與ChatGPT的GPT-4 Turbo和谷歌的Gemini 2.0 Pro相當(dāng)。
DeepSeek-R2基于華為昇騰910B芯片集群平臺(tái)進(jìn)行訓(xùn)練,在FP16精度下實(shí)現(xiàn)了512PetaFLOPS的計(jì)算性能,芯片資源利用率達(dá)到82%。這一算力約為英偉達(dá)A100訓(xùn)練集群的91%。由于使用華為昇騰910B訓(xùn)練集群,DeepSeek-R2的單位推理成本相比GPT-4降低了97.4%,每百萬token的成本約為0.07美元,而GPT-4則為0.27美元。
當(dāng)前美國對英偉達(dá)H20芯片的斷供背景下,采用華為昇騰910B訓(xùn)練集群有助于減少對海外高端AI芯片的依賴。華為全新的昇騰910C芯片也已開始大規(guī)模量產(chǎn),CloudMatrix 384超節(jié)點(diǎn)采用了384顆昇騰910C芯片,有望成為英偉達(dá)NVL72集群的替代方案,進(jìn)一步提升我國人工智能領(lǐng)域的硬件自主化水平。
?狗仔爆料,袁姍姍非機(jī)動(dòng)車道內(nèi)亂停車。...
2025-04-22 15:27:08袁姍姍非機(jī)動(dòng)車道內(nèi)亂停車