黃仁勛最新2萬(wàn)字演講實(shí)錄：機(jī)器人時(shí)代已經(jīng)到來(lái)(7)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-06-05 21:14:10 新經(jīng)濟(jì)學(xué)家

當(dāng)人工智能數(shù)據(jù)通過(guò)合成方式生成，并結(jié)合強(qiáng)化學(xué)習(xí)技術(shù)時(shí)，數(shù)據(jù)生成的速率將得到顯著提升。隨著數(shù)據(jù)生成的增長(zhǎng)，對(duì)計(jì)算能力的需求也將相應(yīng)增加。我們即將邁入一個(gè)新時(shí)代，在這個(gè)時(shí)代中，人工智能將能夠?qū)W習(xí)物理定律，理解并基于物理世界的數(shù)據(jù)進(jìn)行決策和行動(dòng)。因此，我們預(yù)計(jì)人工智能模型將繼續(xù)擴(kuò)大，對(duì)GPU性能的要求也將越來(lái)越高。

為滿足這一需求，Blackwell應(yīng)運(yùn)而生。這款GPU專為支持新一代人工智能設(shè)計(jì)，擁有幾項(xiàng)關(guān)鍵技術(shù)。這種芯片尺寸之大在業(yè)界首屈一指。我們采用了兩片盡可能大的芯片，通過(guò)每秒10太字節(jié)的高速鏈接，結(jié)合世界上最先進(jìn)的SerDes（高性能接口或連接技術(shù)）將它們緊密連接在一起。進(jìn)一步地，我們將兩片這樣的芯片放置在一個(gè)計(jì)算機(jī)節(jié)點(diǎn)上，并通過(guò)Grace CPU進(jìn)行高效協(xié)調(diào)。

Grace CPU的用途廣泛，不僅適用于訓(xùn)練場(chǎng)景，還在推理和生成過(guò)程中發(fā)揮關(guān)鍵作用，如快速檢查點(diǎn)和重啟。此外，它還能存儲(chǔ)上下文，讓人工智能系統(tǒng)擁有記憶，并能理解用戶對(duì)話的上下文，這對(duì)于增強(qiáng)交互的連續(xù)性和流暢性至關(guān)重要。

我們推出的第二代Transformer引擎進(jìn)一步提升了人工智能的計(jì)算效率。這款引擎能夠根據(jù)計(jì)算層的精度和范圍需求，動(dòng)態(tài)調(diào)整至較低的精度，從而在保持性能的同時(shí)降低能耗。同時(shí)，Blackwell GPU還具備安全人工智能功能，確保用戶能夠要求服務(wù)提供商保護(hù)其免受盜竊或篡改。

在GPU的互聯(lián)方面，我們采用了第五代MV Link技術(shù)，它允許我們輕松連接多個(gè)GPU。此外，Blackwell GPU還配備了第一代可靠性和可用性引擎（Ras系統(tǒng)），這一創(chuàng)新技術(shù)能夠測(cè)試芯片上的每一個(gè)晶體管、觸發(fā)器、內(nèi)存以及片外內(nèi)存，確保我們?cè)诂F(xiàn)場(chǎng)就能準(zhǔn)確判斷特定芯片是否達(dá)到了平均故障間隔時(shí)間（MTBF）的標(biāo)準(zhǔn)。

對(duì)于大型超級(jí)計(jì)算機(jī)來(lái)說(shuō)，可靠性尤為關(guān)鍵。擁有10,000個(gè)GPU的超級(jí)計(jì)算機(jī)的平均故障間隔時(shí)間可能以小時(shí)為單位，但當(dāng)GPU數(shù)量增加至100,000個(gè)時(shí)，平均故障間隔時(shí)間將縮短至以分鐘為單位。因此，為了確保超級(jí)計(jì)算機(jī)能夠長(zhǎng)時(shí)間穩(wěn)定運(yùn)行，以訓(xùn)練那些可能需要數(shù)個(gè)月時(shí)間的復(fù)雜模型，我們必須通過(guò)技術(shù)創(chuàng)新來(lái)提高可靠性。而可靠性的提升不僅能夠增加系統(tǒng)的正常運(yùn)行時(shí)間，還能有效降低成本。

最后，我們還在Blackwell GPU中集成了先進(jìn)的解壓縮引擎。在數(shù)據(jù)處理方面，解壓縮速度至關(guān)重要。通過(guò)集成這一引擎，我們可以從存儲(chǔ)中拉取數(shù)據(jù)的速度比現(xiàn)有技術(shù)快20倍，從而極大地提升了數(shù)據(jù)處理效率。

Blackwell GPU的上述功能特性使其成為一款令人矚目的產(chǎn)品。在之前的GTC大會(huì)上，我曾向大家展示了處于原型狀態(tài)的Blackwell。而現(xiàn)在，我們很高興地宣布，這款產(chǎn)品已經(jīng)投入生產(chǎn)。

黃仁勛最新2萬(wàn)字演講實(shí)錄：機(jī)器人時(shí)代已經(jīng)到來(lái)

各位，這就是Blackwell，使用了令人難以置信的技術(shù)。這是我們的杰作，是當(dāng)今世界上最復(fù)雜、性能最高的計(jì)算機(jī)。其中，我們特別要提到的是Grace CPU，它承載了巨大的計(jì)算能力。請(qǐng)看，這兩個(gè)Blackwell芯片，它們緊密相連。你注意到了嗎？這就是世界上最大的芯片，而我們使用每秒高達(dá)A10TB的鏈接將兩片這樣的芯片融為一體。

那么，Blackwell究竟是什么呢？它的性能之強(qiáng)大，簡(jiǎn)直令人難以置信。請(qǐng)仔細(xì)觀察這些數(shù)據(jù)。在短短八年內(nèi)，我們的計(jì)算能力、浮點(diǎn)運(yùn)算以及人工智能浮點(diǎn)運(yùn)算能力增長(zhǎng)了1000倍。這速度，幾乎超越了摩爾定律在最佳時(shí)期的增長(zhǎng)。

Blackwell計(jì)算能力的增長(zhǎng)簡(jiǎn)直驚人。而更值得一提的是，每當(dāng)我們的計(jì)算能力提高時(shí)，成本卻在不斷下降。讓我給你們展示一下。我們通過(guò)提升計(jì)算能力，用于訓(xùn)練GPT-4模型（2萬(wàn)億參數(shù)和8萬(wàn)億Token）的能量下降了350倍。

想象一下，如果使用Pascal進(jìn)行同樣的訓(xùn)練，它將消耗高達(dá)1000吉瓦時(shí)的能量。這意味著需要一個(gè)吉瓦數(shù)據(jù)中心來(lái)支持，但世界上并不存在這樣的數(shù)據(jù)中心。即便存在，它也需要連續(xù)運(yùn)行一個(gè)月的時(shí)間。而如果是一個(gè)100兆瓦的數(shù)據(jù)中心，那么訓(xùn)練時(shí)間將長(zhǎng)達(dá)一年。

顯然，沒(méi)有人愿意或能夠創(chuàng)造這樣的數(shù)據(jù)中心。這就是為什么八年前，像ChatGPT這樣的大語(yǔ)言模型對(duì)我們來(lái)說(shuō)還是遙不可及的夢(mèng)想。但如今，我們通過(guò)提升性能并降低能耗實(shí)現(xiàn)了這一目標(biāo)。

我們利用Blackwell將原本需要高達(dá)1000吉瓦時(shí)的能量降低到僅需3吉瓦時(shí)，這一成就無(wú)疑是令人震驚的突破。想象一下，使用1000個(gè)GPU，它們所消耗的能量竟然只相當(dāng)于一杯咖啡的熱量。而10,000個(gè)GPU，更是只需短短10天左右的時(shí)間就能完成同等任務(wù)。八年間取得的這些進(jìn)步，簡(jiǎn)直令人難以置信。

黃仁勛最新2萬(wàn)字演講實(shí)錄：機(jī)器人時(shí)代已經(jīng)到來(lái)

Blackwell不僅適用于推理，其在Token生成性能上的提升更是令人矚目。在Pascal時(shí)代，每個(gè)Token消耗的能量高達(dá)17,000焦耳，這大約相當(dāng)于兩個(gè)燈泡運(yùn)行兩天的能量。而生成一個(gè)GPT-4的Token，幾乎需要兩個(gè)200瓦特的燈泡持續(xù)運(yùn)行兩天?？紤]到生成一個(gè)單詞大約需要3個(gè)Token，這確實(shí)是一個(gè)巨大的能量消耗。

然而，現(xiàn)在的情況已經(jīng)截然不同。Blackwell使得生成每個(gè)Token只需消耗0.4焦耳的能量，以驚人的速度和極低的能耗進(jìn)行Token生成。這無(wú)疑是一個(gè)巨大的飛躍。但即使如此，我們?nèi)圆粷M足。為了更大的突破，我們必須建造更強(qiáng)大的機(jī)器。

這就是我們的DGX系統(tǒng)，Blackwell芯片將被嵌入其中。這款系統(tǒng)采用空氣冷卻技術(shù)，內(nèi)部配備了8個(gè)這樣的GPU。看看這些GPU上的散熱片，它們的尺寸之大令人驚嘆。整個(gè)系統(tǒng)功耗約為15千瓦，完全通過(guò)空氣冷卻實(shí)現(xiàn)。這個(gè)版本兼容X86，并已應(yīng)用于我們已發(fā)貨的服務(wù)器中。

然而，如果你更傾向于液體冷卻技術(shù)，我們還有一個(gè)全新的系統(tǒng)——MGX。它基于這款主板設(shè)計(jì)，我們稱之為“模塊化”系統(tǒng)。MGX系統(tǒng)的核心在于兩塊Blackwell芯片，每個(gè)節(jié)點(diǎn)都集成了四個(gè)Blackwell芯片。它采用了液體冷卻技術(shù)，確保了高效穩(wěn)定的運(yùn)行。

整個(gè)系統(tǒng)中，這樣的節(jié)點(diǎn)共有九個(gè)，共計(jì)72個(gè)GPU，構(gòu)成了一個(gè)龐大的計(jì)算集群。這些GPU通過(guò)全新的MV鏈接技術(shù)緊密相連，形成了一個(gè)無(wú)縫的計(jì)算網(wǎng)絡(luò)。MV鏈接交換機(jī)堪稱技術(shù)奇跡。它是目前世界上最先進(jìn)的交換機(jī)，數(shù)據(jù)傳輸速率令人咋舌。這些交換機(jī)使得每個(gè)Blackwell芯片高效連接，形成了一個(gè)巨大的72GPU集群。

黃仁勛最新2萬(wàn)字演講實(shí)錄：機(jī)器人時(shí)代已經(jīng)到來(lái)

這一集群的優(yōu)勢(shì)何在？首先，在GPU域中，它現(xiàn)在表現(xiàn)得就像一個(gè)單一的、超大規(guī)模的GPU。這個(gè)“超級(jí)GPU”擁有72個(gè)GPU的核心能力，相較于上一代的8個(gè)GPU，性能提升了9倍。同時(shí)，帶寬增加了18倍，AI FLOPS（每秒浮點(diǎn)運(yùn)算次數(shù)）更是提升了45倍，而功率僅增加了10倍。也就是說(shuō)，一個(gè)這樣的系統(tǒng)能提供100千瓦的強(qiáng)勁動(dòng)力，而上一代僅為10千瓦。

首頁(yè)上一頁(yè)...4 5 678 9 10 全文共 10 頁(yè)下一頁(yè)

關(guān)閉

黃仁勛最新2萬(wàn)字演講實(shí)錄：機(jī)器人時(shí)代已經(jīng)到來(lái)(7)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)