英偉達(dá)創(chuàng)滿血DeepSeek推理世界紀(jì)錄性能顯著提升

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-03-20 09:03:59 IT之家

英偉達(dá)在NVIDIA GTC 2025上宣布，其NVIDIA Blackwell DGX系統(tǒng)創(chuàng)下DeepSeek-R1大模型推理性能的世界紀(jì)錄。在搭載了八塊Blackwell GPU的單個(gè)DGX系統(tǒng)上運(yùn)行6710億參數(shù)的滿血DeepSeek-R1模型可實(shí)現(xiàn)每用戶每秒超250 token的響應(yīng)速度，系統(tǒng)最高吞吐量突破每秒3萬(wàn)token。

英偉達(dá)創(chuàng)滿血DeepSeek推理世界紀(jì)錄

隨著NVIDIA平臺(tái)繼續(xù)在最新的Blackwell Ultra GPU和Blackwell GPU上突破推理極限，其性能將會(huì)不斷提高。例如，在運(yùn)行TensorRT-LLM軟件的NVL8配置的NVIDIA B200 GPU上，單節(jié)點(diǎn)配置為DGX B200（8塊GPU）與DGX H200（8塊GPU），測(cè)試參數(shù)為輸入1024 token / 輸出2048 token；此前測(cè)試為輸入/輸出各1024 token，計(jì)算精度方面，B200采用FP4，H100/H200采用FP8精度。

英偉達(dá)創(chuàng)滿血DeepSeek推理世界紀(jì)錄性能顯著提升

自2025年1月以來(lái)，通過硬件和軟件的結(jié)合，英偉達(dá)成功將DeepSeek-R1 671B模型的吞吐量提高了約36倍。節(jié)點(diǎn)配置包括DGX B200（8塊GPU）、DGX H200（8塊GPU）以及兩個(gè)DGX H100（8塊GPU）系統(tǒng)，測(cè)試參數(shù)依然采用TensorRT-LLM內(nèi)部版本，輸入1024 token / 輸出2048 token，并發(fā)性MAX，計(jì)算精度方面，B200采用FP4，H100/H200采用FP8精度。

英偉達(dá)創(chuàng)滿血DeepSeek推理世界紀(jì)錄性能顯著提升

與Hopper架構(gòu)相比，Blackwell架構(gòu)與TensorRT軟件相結(jié)合實(shí)現(xiàn)了顯著的推理性能提升。DGX B200平臺(tái)在運(yùn)行TensorRT軟件并使用FP4精度時(shí)，與DGX H200平臺(tái)相比提供了3倍以上的推理吞吐量提升，適用于包括DeepSeek-R1、Llama 3.1 405B和Llama 3.3 70B在內(nèi)的多個(gè)模型。在對(duì)模型進(jìn)行量化以利用低精度計(jì)算優(yōu)勢(shì)時(shí)，確保精度損失最小化是生產(chǎn)部署的關(guān)鍵。在DeepSeek-R1模型上，相較于FP8基準(zhǔn)精度，TensorRT Model Optimizer的FP4訓(xùn)練后量化技術(shù)在不同數(shù)據(jù)集上僅產(chǎn)生微乎其微的精度損失。

12 全文共 2 頁(yè)下一頁(yè)

關(guān)閉

英偉達(dá)創(chuàng)滿血DeepSeek推理世界紀(jì)錄 性能顯著提升

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

英偉達(dá)創(chuàng)滿血DeepSeek推理世界紀(jì)錄性能顯著提升