英偉達在NVIDIA GTC 2025上宣布,其NVIDIA Blackwell DGX系統(tǒng)創(chuàng)下DeepSeek-R1大模型推理性能的世界紀錄。在搭載了八塊Blackwell GPU的單個DGX系統(tǒng)上運行6710億參數(shù)的滿血DeepSeek-R1模型可實現(xiàn)每用戶每秒超250 token的響應速度,系統(tǒng)最高吞吐量突破每秒3萬token。

隨著NVIDIA平臺繼續(xù)在最新的Blackwell Ultra GPU和Blackwell GPU上突破推理極限,其性能將會不斷提高。例如,在運行TensorRT-LLM軟件的NVL8配置的NVIDIA B200 GPU上,單節(jié)點配置為DGX B200(8塊GPU)與DGX H200(8塊GPU),測試參數(shù)為輸入1024 token / 輸出2048 token;此前測試為輸入/輸出各1024 token,計算精度方面,B200采用FP4,H100/H200采用FP8精度。

自2025年1月以來,通過硬件和軟件的結(jié)合,英偉達成功將DeepSeek-R1 671B模型的吞吐量提高了約36倍。節(jié)點配置包括DGX B200(8塊GPU)、DGX H200(8塊GPU)以及兩個DGX H100(8塊GPU)系統(tǒng),測試參數(shù)依然采用TensorRT-LLM內(nèi)部版本,輸入1024 token / 輸出2048 token,并發(fā)性MAX,計算精度方面,B200采用FP4,H100/H200采用FP8精度。

與Hopper架構(gòu)相比,Blackwell架構(gòu)與TensorRT軟件相結(jié)合實現(xiàn)了顯著的推理性能提升。DGX B200平臺在運行TensorRT軟件并使用FP4精度時,與DGX H200平臺相比提供了3倍以上的推理吞吐量提升,適用于包括DeepSeek-R1、Llama 3.1 405B和Llama 3.3 70B在內(nèi)的多個模型。在對模型進行量化以利用低精度計算優(yōu)勢時,確保精度損失最小化是生產(chǎn)部署的關鍵。在DeepSeek-R1模型上,相較于FP8基準精度,TensorRT Model Optimizer的FP4訓練后量化技術(shù)在不同數(shù)據(jù)集上僅產(chǎn)生微乎其微的精度損失。
1月28日,全球多家科技巨頭因DeepSeek的技術(shù)進步而受到影響,英偉達的股價在美股市場收跌16.86%,每股報18.58美元
2025-01-28 18:22:15英偉達稱DeepSeek離不開其芯片英偉達發(fā)表聲明表示,中國人工智能公司深度求索(DeepSeek)取得的進展顯示出其芯片在中國市場的實用價值。為滿足DeepSeek的服務需求,未來將需要更多英偉達芯片
2025-01-28 11:24:53英偉達英偉達在DeepSeek沖擊之下,憑借多個超預期表現(xiàn)再次給投資者帶來了信心。財報顯示,英偉達第四財季實現(xiàn)營收393.31億美元,同比增長78%,高于市場預期的380.5億美元
2025-02-28 18:41:01DeepSeek繼續(xù)給巨頭上壓力