那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI數據中心的布線考量

康普中國 ? 來源:康普中國 ? 2024-12-05 09:26 ? 次閱讀

簡介 /

幾十年來,人工智能 (AI) 的威脅一直是科幻小說不變的主題。熒幕反派角色,比如 HAL 9000、終結者、復制人和《黑客帝國》中的機器人,都站在了人類的對立面,迫使人類必須克服這些技術帶來的威脅。最近,DALLE-2 和 ChatGPT 的發布引起了廣大公眾對 AI可以做什么的極大興趣,也引發了人們關于 AI 將如何改變教育和工作性質的討論。AI 也是當前和未來數據中心增長的主要驅動力。

AI 包含以下三個方面: 在訓練期間,大量數據被輸入算法,算法使用數據并從數據中“學習”。 然后,算法接觸新數據集,并將負責基于在訓練期間學習的內容生成新知識或結論。例如,這是一張貓的照片嗎?此過程稱作“推理 AI”。 第三個方面是“生成式 AI”,這可能比較有意思。生成式 AI 是指算法根據簡單的提示“創建”原始輸出,包括文本、圖像、視頻、代碼等。

AI 計算由圖形處理單元 (GPU) 進行處理,GPU 是專為并行處理而設計的芯片,非常適合 AI。用于訓練和運行 AI 的模型會占用大量處理能力,這通常是單臺機器無法承受的。

a58d4502-ad41-11ef-93f3-92fbcf53809c.png

圖 1:AI 模型大小(單位:petaFLOPS)

資料來源:https://blogs.nvidia.com/blog/2022/03/25/what-is-a-transformer-model/)

圖 1 顯示了 A I 模型的歷史增長情況, 單位為petaFLOPS(每秒千萬億次浮點運算)。處理這些大型模型需使用多個服務器和機架上的眾多互聯GPU。AI 數據中心部署了幾十個這樣的 AI 集群,而將所有內容連接在一起以保持數據流動的布線基礎設施正面臨著一系列棘手挑戰。

以下內容概述了 AI 數據中心布線的一些關鍵挑戰和機遇,以及一些最佳實踐和成功技巧。

典型數據中心架構 /

幾乎所有現代數據中心,尤其是超大規模數據中心,使用的都是折疊式 Clos 架構,也稱為“分支和骨干”架構。數據中心的所有分支交換機都連接到所有骨干交換機。在數據中心中,服務器機架連接到機架頂部 (ToR) 交換機。然后,ToR 連接到行末端的分支交換機或通過光纜連接到另一個房間。機架中的服務器通過一至兩米的短銅纜連接到 ToR,傳輸 25G 或 50G信號

這種配置可讓數據中心使用很少的光纜。例如,使用 F16 架構的 Meta 數據中心(參見圖 2),一行中每臺服務器機架有 16根雙工光纜。這些線纜從 ToR 延伸到行的末端,在那里它們與模塊連接,將雙工光纖組合成 24 根光纜。接著,這 24 根光纜延伸到另一個房間,與分支交換機連接。

數據中心在實施 AI 時,會將 AI 集群部署在采用傳統架構的計算集群旁。傳統計算有時稱為“前端網絡”,AI 集群有時稱為“后端網絡”。

a5ab8d32-ad41-11ef-93f3-92fbcf53809c.png

圖 2:FaceBook F16 數據中心網絡拓撲結構

(資料來源:https://engineering..com/2019/03/14/data-center-engineering/f16-minipack/)

帶有 AI 集群的數據中心 /

如上所述,AI 集群具有特有的數據處理要求,因此需要新的數據中心架構。GPU 服務器需要更多的服務器間連接,但是由于電力和散熱的限制,每個機架不得不減少服務器的數量。因此,與傳統數據中心相比,AI 數據中心中的機架間布線更多。每臺 GPU 服務器都連接到行內或房間內的交換機。這些鏈路需要在長距離內達到 100G 到 400G 的速率,而這是銅纜所無法支持的。此外,每臺服務器都需要連接到交換機網絡、存儲和帶外管理。

例如:NVIDIA

舉個例子,可以看看 AI 領域知名企業 NVIDIA 提出的架構。NVIDIA 發布了新款 GPU 服務器 DGX H100,該服務器具有 4 個 800G 交換機端口(作為 8 個 400GE 運行)、4 個 400GE 存儲端口以及 1GE 和 10GE 管理端口。一個 DGXSuperPOD(圖 3)可以包含 32 個這樣的 GPU 服務器,這些GPU 服務器可連接到單行中的 18 臺交換機。然后,每行將擁有 384 個 400GE 光纖鏈路用于交換機網絡和存儲,還有 64個銅纜鏈路用于管理。數據中心中光纖鏈路的數量將顯著增加。前面提到的 F16 架構將在服務器機架數量保持不變的情況下擁有 128 (8x16) 根雙工光纜。

AI 集群的鏈路有多長?/

在 NVIDIA 描繪的理想場景中,AI 集群中的所有 GPU 服務器將緊密結合在一起。與高性能計算 (HPC) 一樣,AI/機器學習算法對延遲極為敏感。有人估計,運行大型訓練模型有 30%的時間花在網絡延遲上,70% 的時間花在計算上。由于訓練一個大模型的成本可能高達 1000 萬美元,因此這種網絡延遲時間代表著一筆巨大的費用。即使是節省 50 納秒或 10 米光纖的延遲,效果也非常明顯。AI 集群中幾乎所有的鏈路都限制在 100 米范圍內。

不幸的是,并非所有數據中心都能夠在同一行部署 GPU 服務器機架。這些機架需要大約 40 kW 才能為 GPU 服務器供電。這一功率比典型服務器機架的更高,按較低功率要求構建的數據中心將需要騰出專門的 GPU 機架空間。

如何選擇收發器?/

運營商應仔細考慮其 AI 集群使用哪些光收發器和光纜才能更大限度地降低成本和功耗。如上所述,AI 集群中的最長鏈路將限制為 100 米。由于距離短,光學設備成本將主要集中在收發器上。使用并行光纖的收發器將具有一個優勢:它們不需要使用光復用器和分解復用器進行波分復用 (WDM)。這降低了并行光纖收發器的成本和功耗。收發器節省下的費用遠遠抵消了多芯光纖取代雙工光纜所略微增加的成本。例如,使用帶有八芯光纖的 400G-DR4 收發器比采用雙工光纜的 400G-FR4 收發器更具成本效益。

單模和多模光纖應用可以支持長達 100 米的鏈路。硅光子技術的發展降低了單模收發器的成本,使其更接近等效多模收發器的成本。我們的市場研究表明,對于高速收發器 (400G+),單模收發器的成本是等效多模收發器成本的兩倍。雖然多模光纖的成本略高于單模光纖,但由于多芯光纖成本主要由 MPO 連接器決定,因此多模和單模光纖之間的成本差異較小。

此外,高速多模收發器的功耗比單模收發器少一兩瓦。單個 AI集群具有 768 個收發器(128 個內存鏈路 + 256 個交換機鏈路x2),使用多模光纖將節省高達 1.5 kW 的功率。與每個 DGXH100 消耗的 10 kW 相比,這似乎微不足道,但對于 AI 集群來說,任何降低功耗的機會都非常寶貴。

在 2022 年,IEEE 短距離光纖工作小組完成了 IEEE 802.3db的工作,該規范為新的超短距離 (VR) 多模收發器確立了標準。此新標準針對的是 AI 集群等行內布線,最大覆蓋范圍為50 米。這些收發器有可能更大程度地降低 AI 連接的成本和功耗。

收發器與 AOC /

許多 AI、ML 和 HPC 集群使用有源光纜 (AOC) 來互聯 GPU 和交換機。AOC 是兩端集成了光發射器和接收器的光纜。大多數 AOC 用于短距離,通常與多模光纖和 VCSEL 搭配使用。高速 (>40G) 有源光纜將使用與連接光收發器的光纜相同的 OM3 或 OM4 光纖。AOC 中的收發器未必和設備兼容,如果不兼容將無法工作。AOC 的收發器直接接入設備即可,但是由于安裝人員測試 AOC 中的收發器,因此不需要具備清潔和檢查光纖連接器所需的技能。

AOC 的缺點是它們不具備收發器所擁有的靈活性。AOC 安裝非常耗時,因為布線時必須連接收發器。正確安裝帶有扇出功能的 AOC 尤其具有挑戰性。AOC 的故障率是同等收發器的兩倍。當 AOC 發生故障時,必須通過網絡來安裝新的 AOC。這會占用計算時間。最后,當需要升級網絡鏈路時,必須拆除有問題的 AOC 并更換為新的 AOC。相對于 AOC 連接而言,光纖布線是基礎設施的一部分,并且可以在幾代數據速率迭代升級中保持生命力。

結論 /

仔細考慮 AI 集群的布線將有助于節省成本、功耗和安裝時間。合理的光纖布線將使企業能夠充分受益于人工智能。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據中心
    +關注

    關注

    16

    文章

    4859

    瀏覽量

    72381
  • AI
    AI
    +關注

    關注

    87

    文章

    31520

    瀏覽量

    270335
  • 布線
    +關注

    關注

    9

    文章

    777

    瀏覽量

    84430

原文標題:數據中心白皮書系列丨AI 數據中心的布線考量

文章出處:【微信號:康普中國,微信公眾號:康普中國】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Meta AI數據中心網絡用了哪家的芯片

    ? 在Meta,我們相信開放的硬件會推動創新。在當今世界,越來越多的數據中心基礎設施致力于支持新興的AI技術,開放硬件在協助分解方面發揮著重要作用。通過將傳統數據中心技術分解為其核心組件,我們可以
    的頭像 發表于 11-25 10:05 ?472次閱讀
    Meta <b class='flag-5'>AI</b><b class='flag-5'>數據中心</b>網絡用了哪家的芯片

    怎樣保障數據中心不間斷電源不斷電 提供可靠安全的供配電#數據中心

    數據中心配電系統
    安科瑞王金晶
    發布于 :2024年08月29日 14:51:36

    AI時代,我們需要怎樣的數據中心AI重新定義數據中心

    超過60%的中國企業計劃在未來12至24個月內部署生成式人工智能。AI、模型的構建,將顛覆數據中心基礎設施的建設、運維和運營。一個全新的數據中心智能化時代已經拉開序幕。
    發表于 07-16 11:33 ?779次閱讀
    <b class='flag-5'>AI</b>時代,我們需要怎樣的<b class='flag-5'>數據中心</b>?<b class='flag-5'>AI</b>重新定義<b class='flag-5'>數據中心</b>

    數據中心液冷需求、技術及實際應用

    夏日炎炎,數據中心制冷技術全新升級,液冷散熱,讓服務器清涼一夏。本文將帶您一起探索數據中心液冷需求、技術及實際應用。 1 數據中心液冷需求 AI浪潮來襲,
    的頭像 發表于 06-19 11:12 ?1273次閱讀
    <b class='flag-5'>數據中心</b>液冷需求、技術及實際應用

    數據中心布線標準有什么

    數據中心布線標準是現代IT基礎設施的基石。它們為組織建立可靠和有效的網絡提供了指導方針和框架。了解這些標準對于尋求優化其數據中心運營和確保無縫連接的組織至關重要。 什么是數據中心
    的頭像 發表于 06-14 10:51 ?572次閱讀

    HNS 2024:星河AI數據中心網絡,賦AI時代新動能

    華為數據通信創新峰會2024在巴庫隆重舉辦,在“星河AI數據中心網絡,賦AI時代新動能”主題論壇中,華為面向中東中亞地區發布星河AI
    的頭像 發表于 05-15 09:15 ?710次閱讀
    HNS 2024:星河<b class='flag-5'>AI</b><b class='flag-5'>數據中心</b>網絡,賦<b class='flag-5'>AI</b>時代新動能

    蘋果正在研發全新數據中心AI芯片

    蘋果正在秘密研發一款全新的數據中心AI芯片,這一項目在公司內部被稱為“ACDC”,并且已經經過了數年的精心籌備。據華爾街日報的知情人士透露,這款芯片的設計目標是為了優化蘋果數據中心服務器運行人工智能軟件的能力。
    的頭像 發表于 05-08 09:40 ?453次閱讀

    數據中心布線光纜設計方案

    數據中心布線光纜是指用于數據中心內部和數據中心之間傳輸光信號的光纜。它由多根光纖組成,每根光纖可以獨立傳輸數據,從而實現高速、大容量的
    的頭像 發表于 04-29 11:32 ?615次閱讀

    #mpo極性 #數據中心mpo

    數據中心MPO
    jf_51241005
    發布于 :2024年04月07日 10:05:13

    一圖看懂星河AI數據中心網絡,全面釋放AI時代算力

    華為中國合作伙伴大會 | 一圖看懂星河AI數據中心網絡,以網強算,全面釋放AI時代算力
    的頭像 發表于 03-22 10:28 ?832次閱讀
    一圖看懂星河<b class='flag-5'>AI</b><b class='flag-5'>數據中心</b>網絡,全面釋放<b class='flag-5'>AI</b>時代算力

    #mpo光纖跳線 #數據中心光纖跳線

    光纖數據中心
    jf_51241005
    發布于 :2024年03月22日 10:18:31

    #光纖彎曲 #光纖衰減 #數據中心光纖

    光纖數據中心
    jf_51241005
    發布于 :2024年03月08日 09:59:50

    #光纜防火等級 #數據中心光纜 #綜合布線光纜

    數據中心光纜
    jf_51241005
    發布于 :2024年03月04日 11:29:25

    #MPO預端接 #數據中心機房 #機房布線

    數據中心MPO
    jf_51241005
    發布于 :2024年03月01日 11:12:47

    #永久鏈路 #信道測試 #數據中心

    數據中心
    jf_51241005
    發布于 :2024年02月23日 10:17:58
    百家乐连赢的策略| 菲彩百家乐官网的玩法技巧和规则 | 香港六合彩开码| 澳门百家乐赌场娱乐网规则| 百家乐官网桌子定制| 网上百家乐官网辅助软件| 东方太阳城| 百家乐官网网址| 百家乐投注很不错| 阿玛尼百家乐官网的玩法技巧和规则| 百家乐官网专家赢钱打法| 尊龙代理| 百家乐合作| 百家乐棋牌游戏源码| 网上百家乐官网游戏玩法| 百家乐官网庄闲概率| 百家乐官网流水打法| 同乐城备用| 大发888娱乐客户端真钱| 真人百家乐娱乐场开户注册| 百家乐怎么才赢| 包赢百家乐官网的玩法技巧和规则| 百家乐官网投注注技巧| 炎陵县| 姚记娱乐城安全| 威尼斯人娱乐老品牌| 百家乐怎么才能| 澳门百家乐真人版| 百家乐玩法和技巧| 法拉利百家乐官网的玩法技巧和规则| 百家乐官网电脑游戏机投注法实例| 澳门百家乐官网投注法| 丹阳棋牌游戏中心| 威尼斯人娱乐开户送18| 百家乐庄闲路| 百家乐赢家电子书| 澳门百家乐海洋阿强| 新濠百家乐现金网| 做生意门朝向什么方向| 巴比伦百家乐官网娱乐城| 百家乐官网利来|