當(dāng)人工智能數(shù)據(jù)通過(guò)合成方式生成,并結(jié)合強(qiáng)化學(xué)習(xí)技術(shù)時(shí),數(shù)據(jù)生成的速率將得到顯著提升。隨著數(shù)據(jù)生成的增長(zhǎng),對(duì)計(jì)算能力的需求也將相應(yīng)增加。我們即將邁入一個(gè)新時(shí)代,在這個(gè)時(shí)代中,人工智能將能夠?qū)W習(xí)物理定律,理解并基于物理世界的數(shù)據(jù)進(jìn)行決策和行動(dòng)。因此,我們預(yù)計(jì)人工智能模型將繼續(xù)擴(kuò)大,對(duì)GPU性能的要求也將越來(lái)越高。
為滿足這一需求,Blackwell應(yīng)運(yùn)而生。這款GPU專為支持新一代人工智能設(shè)計(jì),擁有幾項(xiàng)關(guān)鍵技術(shù)。這種芯片尺寸之大在業(yè)界首屈一指。我們采用了兩片盡可能大的芯片,通過(guò)每秒10太字節(jié)的高速鏈接,結(jié)合世界上最先進(jìn)的SerDes(高性能接口或連接技術(shù))將它們緊密連接在一起。進(jìn)一步地,我們將兩片這樣的芯片放置在一個(gè)計(jì)算機(jī)節(jié)點(diǎn)上,并通過(guò)Grace CPU進(jìn)行高效協(xié)調(diào)。
Grace CPU的用途廣泛,不僅適用于訓(xùn)練場(chǎng)景,還在推理和生成過(guò)程中發(fā)揮關(guān)鍵作用,如快速檢查點(diǎn)和重啟。此外,它還能存儲(chǔ)上下文,讓人工智能系統(tǒng)擁有記憶,并能理解用戶對(duì)話的上下文,這對(duì)于增強(qiáng)交互的連續(xù)性和流暢性至關(guān)重要。
我們推出的第二代Transformer引擎進(jìn)一步提升了人工智能的計(jì)算效率。這款引擎能夠根據(jù)計(jì)算層的精度和范圍需求,動(dòng)態(tài)調(diào)整至較低的精度,從而在保持性能的同時(shí)降低能耗。同時(shí),Blackwell GPU還具備安全人工智能功能,確保用戶能夠要求服務(wù)提供商保護(hù)其免受盜竊或篡改。
在GPU的互聯(lián)方面,我們采用了第五代MV Link技術(shù),它允許我們輕松連接多個(gè)GPU。此外,Blackwell GPU還配備了第一代可靠性和可用性引擎(Ras系統(tǒng)),這一創(chuàng)新技術(shù)能夠測(cè)試芯片上的每一個(gè)晶體管、觸發(fā)器、內(nèi)存以及片外內(nèi)存,確保我們?cè)诂F(xiàn)場(chǎng)就能準(zhǔn)確判斷特定芯片是否達(dá)到了平均故障間隔時(shí)間(MTBF)的標(biāo)準(zhǔn)。
對(duì)于大型超級(jí)計(jì)算機(jī)來(lái)說(shuō),可靠性尤為關(guān)鍵。擁有10,000個(gè)GPU的超級(jí)計(jì)算機(jī)的平均故障間隔時(shí)間可能以小時(shí)為單位,但當(dāng)GPU數(shù)量增加至100,000個(gè)時(shí),平均故障間隔時(shí)間將縮短至以分鐘為單位。因此,為了確保超級(jí)計(jì)算機(jī)能夠長(zhǎng)時(shí)間穩(wěn)定運(yùn)行,以訓(xùn)練那些可能需要數(shù)個(gè)月時(shí)間的復(fù)雜模型,我們必須通過(guò)技術(shù)創(chuàng)新來(lái)提高可靠性。而可靠性的提升不僅能夠增加系統(tǒng)的正常運(yùn)行時(shí)間,還能有效降低成本。
最后,我們還在Blackwell GPU中集成了先進(jìn)的解壓縮引擎。在數(shù)據(jù)處理方面,解壓縮速度至關(guān)重要。通過(guò)集成這一引擎,我們可以從存儲(chǔ)中拉取數(shù)據(jù)的速度比現(xiàn)有技術(shù)快20倍,從而極大地提升了數(shù)據(jù)處理效率。
Blackwell GPU的上述功能特性使其成為一款令人矚目的產(chǎn)品。在之前的GTC大會(huì)上,我曾向大家展示了處于原型狀態(tài)的Blackwell。而現(xiàn)在,我們很高興地宣布,這款產(chǎn)品已經(jīng)投入生產(chǎn)。

各位,這就是Blackwell,使用了令人難以置信的技術(shù)。這是我們的杰作,是當(dāng)今世界上最復(fù)雜、性能最高的計(jì)算機(jī)。其中,我們特別要提到的是Grace CPU,它承載了巨大的計(jì)算能力。請(qǐng)看,這兩個(gè)Blackwell芯片,它們緊密相連。你注意到了嗎?這就是世界上最大的芯片,而我們使用每秒高達(dá)A10TB的鏈接將兩片這樣的芯片融為一體。
那么,Blackwell究竟是什么呢?它的性能之強(qiáng)大,簡(jiǎn)直令人難以置信。請(qǐng)仔細(xì)觀察這些數(shù)據(jù)。在短短八年內(nèi),我們的計(jì)算能力、浮點(diǎn)運(yùn)算以及人工智能浮點(diǎn)運(yùn)算能力增長(zhǎng)了1000倍。這速度,幾乎超越了摩爾定律在最佳時(shí)期的增長(zhǎng)。
Blackwell計(jì)算能力的增長(zhǎng)簡(jiǎn)直驚人。而更值得一提的是,每當(dāng)我們的計(jì)算能力提高時(shí),成本卻在不斷下降。讓我給你們展示一下。我們通過(guò)提升計(jì)算能力,用于訓(xùn)練GPT-4模型(2萬(wàn)億參數(shù)和8萬(wàn)億Token)的能量下降了350倍。
想象一下,如果使用Pascal進(jìn)行同樣的訓(xùn)練,它將消耗高達(dá)1000吉瓦時(shí)的能量。這意味著需要一個(gè)吉瓦數(shù)據(jù)中心來(lái)支持,但世界上并不存在這樣的數(shù)據(jù)中心。即便存在,它也需要連續(xù)運(yùn)行一個(gè)月的時(shí)間。而如果是一個(gè)100兆瓦的數(shù)據(jù)中心,那么訓(xùn)練時(shí)間將長(zhǎng)達(dá)一年。
顯然,沒(méi)有人愿意或能夠創(chuàng)造這樣的數(shù)據(jù)中心。這就是為什么八年前,像ChatGPT這樣的大語(yǔ)言模型對(duì)我們來(lái)說(shuō)還是遙不可及的夢(mèng)想。但如今,我們通過(guò)提升性能并降低能耗實(shí)現(xiàn)了這一目標(biāo)。
我們利用Blackwell將原本需要高達(dá)1000吉瓦時(shí)的能量降低到僅需3吉瓦時(shí),這一成就無(wú)疑是令人震驚的突破。想象一下,使用1000個(gè)GPU,它們所消耗的能量竟然只相當(dāng)于一杯咖啡的熱量。而10,000個(gè)GPU,更是只需短短10天左右的時(shí)間就能完成同等任務(wù)。八年間取得的這些進(jìn)步,簡(jiǎn)直令人難以置信。

Blackwell不僅適用于推理,其在Token生成性能上的提升更是令人矚目。在Pascal時(shí)代,每個(gè)Token消耗的能量高達(dá)17,000焦耳,這大約相當(dāng)于兩個(gè)燈泡運(yùn)行兩天的能量。而生成一個(gè)GPT-4的Token,幾乎需要兩個(gè)200瓦特的燈泡持續(xù)運(yùn)行兩天??紤]到生成一個(gè)單詞大約需要3個(gè)Token,這確實(shí)是一個(gè)巨大的能量消耗。
然而,現(xiàn)在的情況已經(jīng)截然不同。Blackwell使得生成每個(gè)Token只需消耗0.4焦耳的能量,以驚人的速度和極低的能耗進(jìn)行Token生成。這無(wú)疑是一個(gè)巨大的飛躍。但即使如此,我們?nèi)圆粷M足。為了更大的突破,我們必須建造更強(qiáng)大的機(jī)器。
這就是我們的DGX系統(tǒng),Blackwell芯片將被嵌入其中。這款系統(tǒng)采用空氣冷卻技術(shù),內(nèi)部配備了8個(gè)這樣的GPU。看看這些GPU上的散熱片,它們的尺寸之大令人驚嘆。整個(gè)系統(tǒng)功耗約為15千瓦,完全通過(guò)空氣冷卻實(shí)現(xiàn)。這個(gè)版本兼容X86,并已應(yīng)用于我們已發(fā)貨的服務(wù)器中。
然而,如果你更傾向于液體冷卻技術(shù),我們還有一個(gè)全新的系統(tǒng)——MGX。它基于這款主板設(shè)計(jì),我們稱之為“模塊化”系統(tǒng)。MGX系統(tǒng)的核心在于兩塊Blackwell芯片,每個(gè)節(jié)點(diǎn)都集成了四個(gè)Blackwell芯片。它采用了液體冷卻技術(shù),確保了高效穩(wěn)定的運(yùn)行。
整個(gè)系統(tǒng)中,這樣的節(jié)點(diǎn)共有九個(gè),共計(jì)72個(gè)GPU,構(gòu)成了一個(gè)龐大的計(jì)算集群。這些GPU通過(guò)全新的MV鏈接技術(shù)緊密相連,形成了一個(gè)無(wú)縫的計(jì)算網(wǎng)絡(luò)。MV鏈接交換機(jī)堪稱技術(shù)奇跡。它是目前世界上最先進(jìn)的交換機(jī),數(shù)據(jù)傳輸速率令人咋舌。這些交換機(jī)使得每個(gè)Blackwell芯片高效連接,形成了一個(gè)巨大的72GPU集群。

這一集群的優(yōu)勢(shì)何在?首先,在GPU域中,它現(xiàn)在表現(xiàn)得就像一個(gè)單一的、超大規(guī)模的GPU。這個(gè)“超級(jí)GPU”擁有72個(gè)GPU的核心能力,相較于上一代的8個(gè)GPU,性能提升了9倍。同時(shí),帶寬增加了18倍,AI FLOPS(每秒浮點(diǎn)運(yùn)算次數(shù))更是提升了45倍,而功率僅增加了10倍。也就是說(shuō),一個(gè)這樣的系統(tǒng)能提供100千瓦的強(qiáng)勁動(dòng)力,而上一代僅為10千瓦。
美國(guó)英偉達(dá)公司的創(chuàng)辦人及CEO黃仁勛訪問(wèn)臺(tái)灣,此行引發(fā)臺(tái)灣地區(qū)的高度關(guān)注,他的言論成為媒體聚焦點(diǎn)
2024-06-07 18:12:09黃仁勛妄稱臺(tái)灣為“國(guó)家”