2023年的AWS re:Invent大會上,AWS和NVIDIA宣布AWS將成為第一個提供NVIDIA GH200 Grace Hopper超級芯片的云服務提供商。這一超級芯片通過NVIDIA DGX Cloud與NVIDIA NVLink技術相連,將在Amazon Elastic Compute Cloud(Amazon EC2)上運行,為云計算帶來了一場技術革命。
一)大殺器NVIDIA GH200 NVL32
NVIDIA GH200 NVL32 是針對 NVIDIA GH200 Grace Hopper 超級芯片的機架級參考設計,通過 NVLink 連接,面向超大規模數據中心。支持 16 個與 NVIDIA MGX 機箱設計兼容的雙 NVIDIA Grace Hopper 服務器節點,并且可以采用液體冷卻,以最大限度地提高計算密度和效率。
NVIDIA GH200 NVL32 的主要特點如下:
●擁有 32 個 GPU NVLink 域,每個 GPU NVLink 域包含一個 GH200 Grace Hopper 超級芯片,可以訪問網絡中任何其他 Grace Hopper 超級芯片的內存,從而提供 19.5 TB 的 NVLink 可尋址內存。這意味著它可以突破單個系統的內存限制,實現更大的并行性和可擴展性。
●使用 9 個 NVLink 交換機,每個交換機包含一個第三代 NVSwitch 芯片,將 32 個 GH200 GPU 連接在一起,形成一個完全連接的胖樹網絡。這意味著它可以實現高速的通信和低延遲的同步,提高人工智能的性能和效率。
●由 NVIDIA HPC SDK 以及全套 CUDA、NVIDIA CUDA-X 和 NVIDIA Magnum IO 庫支持,可加速超過 3,000個 GPU 應用程序。這意味著它可以提供豐富的軟件生態系統,讓開發者和研究者可以輕松地開發和部署人工智能應用程序。
二)NVIDIAGH200 NVL32的應用場景
NVIDIA GH200 NVL32 非常適合以下幾種人工智能應用場景:
1)AI推理和訓練:生成式人工智能模型可以根據給定的文本或上下文生成自然語言,廣泛應用于聊天機器人、文本摘要、文本生成、機器翻譯等領域,為用戶提供智能的交互和服務。法學碩士需要大規模、多 GPU 訓練,參數數量非常龐大,例如 GPT-3 有 1750 億個參數,GPT-4 有 1.5 萬億個參數。NVIDIA GH200 NVL32 專為推理和訓練下一代法學碩士而構建。該系統利用 32 個 NVLink 連接的 GH200 Grace Hopper 超級芯片突破了內存、通信和計算瓶頸,訓練萬億參數模型的速度比 NVIDIA HGX H100 快 1.7 倍 以上。在 GPT-530B 推理模型上,NVIDIA GH200 NVL32 系統的性能比四個 H100 NVL8 系統高出 2 倍。
2)推薦系統:人工智能模型可以根據用戶的偏好和行為,向用戶推薦最相關和最感興趣的內容或產品。它們廣泛用于電子商務和零售、媒體和社交媒體、數字廣告等領域,以實現內容個性化。
這推動了收入和商業價值。推薦器使用代表用戶、產品、類別和上下文的嵌入,大小可達數十 TB。高度準確的推薦器將提供更具吸引力的用戶體驗,但也需要更大的嵌入和更精確的推薦器。嵌入對于人工智能模型具有獨特的特征,需要大量內存、高帶寬和閃電般快速的網絡。NVIDIA GH200 NVL32 可提供 7 倍 的快速訪問內存,并且與基于 x86 的傳統設計中與 GPU 的 PCIe Gen5 連接相比,可提供 7 倍 的帶寬。與采用 x86 的 H100 相比,它可以實現 7 倍 詳細的嵌入。NVIDIA GH200 NVL32 還可以為具有大量嵌入表的模型提供高達 7.9 倍 的訓練性能。
3)圖神經網絡:圖神經網絡是一種人工智能模型,可以將深度學習的預測能力應用于豐富的數據結構,這些數據結構將對象及其關系描述為圖中由線連接的點。科學和工業的許多分支已經將有價值的數據存儲在圖數據庫中。深度學習用于訓練預測模型,從圖表中挖掘新的見解。
總結:
Amazon和NVIDIA推動NVIDIA DGX Cloud即將在AWS上推出,將成為首家在DGX云中提供NVIDIA GH200 NVL32,并將其作為EC2實例的云服務提供商。NVIDIA GH200 NVL32解決方案包含32個GPU NVLink域和19.5 TB的大容量統一內存。在GPT-3的訓練和LLM推理方面明顯優于先前的模型。NVIDIA GH200 NVL32的CPU-GPU內存互連速度非常快,提高了應用程序的內存可用性。該技術是超大規模數據中心可擴展設計的一部分,由NVIDIA軟件和庫提供支持,可加速數千個GPU應用程序。NVIDIA GH200 NVL32特別適用于LLM訓練和推理、推薦系統、GNN等任務,為人工智能和計算應用程序帶來顯著的性能改進。
審核編輯:劉清
-
NVIDIA
+關注
關注
14文章
5076瀏覽量
103719 -
GPT
+關注
關注
0文章
360瀏覽量
15505 -
超級芯片
+關注
關注
0文章
36瀏覽量
8912 -
AWS
+關注
關注
0文章
433瀏覽量
24505 -
GPU芯片
+關注
關注
1文章
303瀏覽量
5897
原文標題:NVIDIA GH200 NVL32在AWS里落地
文章出處:【微信號:QCDZSJ,微信公眾號:汽車電子設計】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論