當然,你還可以將更多的這些系統(tǒng)連接在一起,形成更龐大的計算網絡。但真正的奇跡在于這個MV鏈接芯片,隨著大語言模型的日益龐大,其重要性也日益凸顯。因為這些大語言模型已經不適合單獨放在一個GPU或節(jié)點上運行,它們需要整個GPU機架的協(xié)同工作。就像我剛才提到的那個新DGX系統(tǒng),它能夠容納參數(shù)達到數(shù)十萬億的大語言模型。
MV鏈接交換機本身就是一個技術奇跡,擁有500億個晶體管,74個端口,每個端口的數(shù)據速率高達400GB。但更重要的是,交換機內部還集成了數(shù)學運算功能,可以直接進行歸約操作,這在深度學習中具有極其重要的意義。這就是現(xiàn)在的DGX系統(tǒng)的全新面貌。
許多人對我們表示好奇。他們提出疑問,對英偉達的業(yè)務范疇存在誤解。人們疑惑,英偉達怎么可能僅憑制造GPU就變得如此龐大。因此,很多人形成了這樣一種印象:GPU就應該是某種特定的樣子。
然而,現(xiàn)在我要展示給你們的是,這確實是一個GPU,但它并非你們想象中的那種。這是世界上最先進的GPU之一,但它主要用于游戲領域。但我們都清楚,GPU的真正力量遠不止于此。
各位,請看這個,這才是GPU的真正形態(tài)。這是DGX GPU,專為深度學習而設計。這個GPU的背面連接著MV鏈接主干,這個主干由5000條線組成,長達3公里。這些線,就是MV鏈接主干,它們連接了70個GPU,形成一個強大的計算網絡。這是一個電子機械奇跡,其中的收發(fā)器讓我們能夠在銅線上驅動信號貫穿整個長度。
因此,這個MV鏈接交換機通過MV鏈接主干在銅線上傳輸數(shù)據,使我們能夠在單個機架中節(jié)省20千瓦的電力,而這20千瓦現(xiàn)在可以完全用于數(shù)據處理,這的確是一項令人難以置信的成就。這就是MV鏈接主干的力量。

為生成式AI推以太網
但這還不足以滿足需求,特別是對于大型人工智能工廠來說更是如此,那么我們還有另一種解決方案。我們必須使用高速網絡將這些人工智能工廠連接起來。我們有兩種網絡選擇:InfiniBand和以太網。其中,InfiniBand已經在全球各地的超級計算和人工智能工廠中廣泛使用,并且增長迅速。然而,并非每個數(shù)據中心都能直接使用InfiniBand,因為他們在以太網生態(tài)系統(tǒng)上進行了大量投資,而且管理InfiniBand交換機和網絡確實需要一定的專業(yè)知識和技術。
因此,我們的解決方案是將InfiniBand的性能帶到以太網架構中,這并非易事。原因在于,每個節(jié)點、每臺計算機通常與互聯(lián)網上的不同用戶相連,但大多數(shù)通信實際上發(fā)生在數(shù)據中心內部,即數(shù)據中心與互聯(lián)網另一端用戶之間的數(shù)據傳輸。然而,在人工智能工廠的深度學習場景下,GPU并不是與互聯(lián)網上的用戶進行通信,而是彼此之間進行頻繁的、密集的數(shù)據交換。
它們相互通信是因為它們都在收集部分結果。然后它們必須將這些部分結果進行規(guī)約(reduce)并重新分配(redistribute)。這種通信模式的特點是高度突發(fā)性的流量。重要的不是平均吞吐量,而是最后一個到達的數(shù)據,因為如果你正在從所有人那里收集部分結果,并且我試圖接收你所有的部分結果,如果最后一個數(shù)據包晚到了,那么整個操作就會延遲。對于人工智能工廠而言,延遲是一個至關重要的問題。
所以,我們關注的焦點并非平均吞吐量,而是確保最后一個數(shù)據包能夠準時、無誤地抵達。然而,傳統(tǒng)的以太網并未針對這種高度同步化、低延遲的需求進行優(yōu)化。為了滿足這一需求,我們創(chuàng)造性地設計了一個端到端的架構,使NIC(網絡接口卡)和交換機能夠通信。為了實現(xiàn)這一目標,我們采用了四種關鍵技術:
第一,英偉達擁有業(yè)界領先的RDMA(遠程直接內存訪問)技術?,F(xiàn)在,我們有了以太網網絡級別的RDMA,它的表現(xiàn)非常出色。
第二,我們引入了擁塞控制機制。交換機具備實時遙測功能,能夠迅速識別并響應網絡中的擁塞情況。當GPU或NIC發(fā)送的數(shù)據量過大時,交換機會立即發(fā)出信號,告知它們減緩發(fā)送速率,從而有效避免網絡熱點的產生。
第三,我們采用了自適應路由技術。傳統(tǒng)以太網按固定順序傳輸數(shù)據,但在我們的架構中,我們能夠根據實時網絡狀況進行靈活調整。當發(fā)現(xiàn)擁塞或某些端口空閑時,我們可以將數(shù)據包發(fā)送到這些空閑端口,再由另一端的Bluefield設備重新排序,確保數(shù)據按正確順序返回。這種自適應路由技術極大地提高了網絡的靈活性和效率。
第四,我們實施了噪聲隔離技術。在數(shù)據中心中,多個模型同時訓練產生的噪聲和流量可能會相互干擾,并導致抖動。我們的噪聲隔離技術能夠有效地隔離這些噪聲,確保關鍵數(shù)據包的傳輸不受影響。
通過采用這些技術,我們成功地為人工智能工廠提供了高性能、低延遲的網絡解決方案。在價值高達數(shù)十億美元的數(shù)據中心中,如果網絡利用率提升40%而訓練時間縮短20%,這實際上意味著價值50億美元的數(shù)據中心在性能上等同于一個60億美元的數(shù)據中心,揭示了網絡性能對整體成本效益的顯著影響。
幸運的是,帶有Spectrum X的以太網技術正是我們實現(xiàn)這一目標的關鍵,它大大提高了網絡性能,使得網絡成本相對于整個數(shù)據中心而言幾乎可以忽略不計。這無疑是我們在網絡技術領域取得的一大成就。
我們擁有一系列強大的以太網產品線,其中最引人注目的是Spectrum X800。這款設備以每秒51.2 TB的速度和256路徑(radix)的支持能力,為成千上萬的GPU提供了高效的網絡連接。接下來,我們計劃一年后推出X800 Ultra,它將支持高達512路徑的512 radix,進一步提升了網絡容量和性能。而X 1600則是為更大規(guī)模的數(shù)據中心設計的,能夠滿足數(shù)百萬個GPU的通信需求。

隨著技術的不斷進步,數(shù)百萬個GPU的數(shù)據中心時代已經指日可待。這一趨勢的背后有著深刻的原因。一方面,我們渴望訓練更大、更復雜的模型;但更重要的是,未來的互聯(lián)網和計算機交互將越來越多地依賴于云端的生成式人工智能。這些人工智能將與我們一起工作、互動,生成視頻、圖像、文本甚至數(shù)字人。因此,我們與計算機的每一次交互幾乎都離不開生成式人工智能的參與。并且總是有一個生成式人工智能與之相連,其中一些在本地運行,一些在你的設備上運行,很多可能在云端運行。
這些生成式人工智能不僅具備強大的推理能力,還能對答案進行迭代優(yōu)化,以提高答案的質量。這意味著我們未來將產生海量的數(shù)據生成需求。今晚,我們共同見證了這一技術革新的力量。
Blackwell,作為NVIDIA平臺的第一代產品,自推出以來便備受矚目。如今,全球范圍內都迎來了生成式人工智能的時代,這是一個全新的工業(yè)革命的開端,每個角落都在意識到人工智能工廠的重要性。我們深感榮幸,獲得了來自各行各業(yè)的廣泛支持,包括每一家OEM(原始設備制造商)、電腦制造商、CSP(云服務提供商)、GPU云、主權云以及電信公司等。
Blackwell的成功、廣泛的采用以及行業(yè)對其的熱情都達到了前所未有的高度,這讓我們深感欣慰,并在此向大家表示衷心的感謝。然而,我們的腳步不會因此而停歇。在這個飛速發(fā)展的時代,我們將繼續(xù)努力提升產品性能,降低培訓和推理的成本,同時不斷擴展人工智能的能力,使每一家企業(yè)都能從中受益。我們堅信,隨著性能的提升,成本將進一步降低。而Hopper平臺,無疑可能是歷史上最成功的數(shù)據中心處理器。

Blackwell Ultra將于明年發(fā)布,下一代平臺名為Rubin
美國英偉達公司的創(chuàng)辦人及CEO黃仁勛訪問臺灣,此行引發(fā)臺灣地區(qū)的高度關注,他的言論成為媒體聚焦點
2024-06-07 18:12:09黃仁勛妄稱臺灣為“國家”英偉達的創(chuàng)始人兼CEO黃仁勛,自企業(yè)1993年于硅谷誕生起,便坐擁可觀財富。近期,其個人資產更是經歷了爆炸性增長,達到了前所未有的高度
2024-05-27 22:49:22黃仁勛有望超越馬斯克成全球首富華人問鼎全球首富的位置,正逐漸從夢想邁向現(xiàn)實。英偉達,在人工智能時代的潮頭傲立,僅一年半內股價激增十倍,五年視野下更是實現(xiàn)了二十八倍的驚人飛躍
2024-06-01 12:37:58馬斯克向左