那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

未來智算中心:從單數據中心到多數據中心AI訓練集群的演變趨勢

SDNLAB ? 來源:SDNLAB ? 2024-11-13 10:05 ? 次閱讀

去年以來,以ChatGPT為代表的大模型迅速紅遍全球,展現出變革經濟社會的巨大潛能。全球主流科技公司紛紛參與其中,推動智能算力需求高速增長。華為公司去年曾預測,到2025年,智能算力需求將增長100倍。

與之相呼應的,是蓬勃興起的智算中心。從政策面看,我國2022年全面啟動“東數西算”工程建設,在京津冀、長三角、粵港澳大灣區、成渝、內蒙古、貴州、甘肅、寧夏建設8個國家算力樞紐,并規劃了10個國家數據中心集群。從產業來看,運營商資本開支重心正在向算力偏移,并大規模采購智算設備。

智算中心的未來將如何演變?構建跨數據中心的AI訓練集群是其中一個重要研究方向, “Region Scale Al”,已經成為業界關注的熱點話題

ODCC(開放數據中心委員會)攜手華為公司,在2024年3月28日召開的ODCC春季全會-新技術與測試工作組會議上提出了“Region Scale AI”研究項目。華為2012網絡技術實驗室專家李映輝做了《Region Scale AI 場景與挑戰》主題報告,介紹了AI大模型訓練對算力需求不斷增加的背景下,多數據中心聯合訓練的發展趨勢與業界實踐,深入分析了該場景下面臨的組網和通信挑戰,通過現網實驗數據初步論證了AI集群跨AZ、跨Region聯合訓練的可行性,并給出了“Region Scale AI”研究項目的工作計劃。李映輝因為此項目立項,榮獲ODCC2024年春季全會MVP演講嘉賓稱號。

報告中,還介紹了該場景下的創新技術探索和研究工作,包括跨AZ的模型切分算法、集合通信算法,以及如何在長距網絡上實現高吞吐傳輸、高性能加解密協議等等。同時指出,隨著AI模型的增大以及芯片算力的增強,未來跨AZ訓練對網絡帶寬的需求還會進一步增長,需要進一步考慮DCN和DCI網絡架構的演進。

單集群AI訓練存在極限,跨DC AI訓練成趨勢

業內人士都能感受到AI大模型發展的加速度。主流科技公司正在盡可能快地開發大模型并迭代新版本,以期在這個全新的產業中占據先機。大模型的訓練參數在過去5年增長百倍,已經達到萬億級,預計未來5年參數將再增長百倍,達到百萬億量級!

智算能力也隨之快速升級,目前單一數據中心已經達到萬卡集群規模,以盡力滿足幾乎永無止境的AI計算需求。公開消息顯示,華為昇騰AI集群2023年升級為萬卡AI集群;螞蟻基礎大模型已具備萬卡AI集群;中國電信宣布推出了首個國產單池萬卡液冷算力集群。

AI集群是通過將多個計算機節點連接起來,形成協同工作的計算環境,從而為人工智能應用提供強大的計算能力和數據處理能力。據了解,其技術門檻隨著訓練量快速增長而不斷抬高,絕非簡單的算力設備堆砌。僅有少數幾家廠商能夠提供萬卡AI集群,面對大模型參數的指數級增長,壓力巨大。

然而,任何具體事物都存在極限,算力集群同樣如此。單一AI集群不可能無限制擴張,會受到電力供應等因素影響,比如一些公司甚至考慮將數據中心建設在核電站附近。預計今后一個十萬卡級別的AI集群,需要上百MW的電力供應。跨數據中心AI訓練可以有效解決單集群供電不足問題,引起業界廣泛關注。

此外,云計算有峰谷效應,單集群算力面臨部署碎片化問題,難以承載云上大規模AI訓練業務,導致資源利用率下降。采用多個數據中心組成的跨AZ、跨Region AI訓練集群,可有效支撐十萬卡甚至百萬卡級別的訓練任務,同時提高資源利用率,將是智算產業發展和探索的重要方向。

業界大型科技公司紛紛啟動跨DC訓練技術研究

面向云上AI資源碎片化問題,微軟提出了“Singularity”框架,Planet-scale可搶占、可遷移、可彈性伸縮的AI任務調度。該框架可實現資源調度高彈性和可遷移性,增加云上AI資源利用率,但缺乏關注跨集群的訓練性能。面向公有云AI訓練網絡異構問題,AWS提出了MiCS方案,能夠充分利用異構網絡帶寬,通過減少較慢鏈路上的網絡流量,攤銷昂貴的全局梯度同步開銷。為了解決AI訓練集群造價昂貴問題,Meta提出去中心化異構訓練。利用分布式、異構和低帶寬互聯的AI訓練資源來訓練基礎大模型,降低訓練成本。

Region Scale AI研究計劃啟動,已制定進度表

華為云技術專家楊永強近日在交流中向SDNLAB表示,數字經濟是根本,東數西算是實施的第一步,華為云大力支持國家的東數西算戰略,積極布局Regionless等技術創新,其中東數西訓自不必說,而跨AZ、跨Region、線上線下跨集群的AI訓練等高階訴求也日益顯現。參數交換會大幅提升跨Region的數據流量,弱網長距下的Regionless確定性高速傳輸需求迫切,有機會打造成東數西算的 “特高壓”。

“Region Scale AI研究”項目旨在通過跨數據中心聯合訓練,突破單集群建設限制,靈活高效利用算力資源。未來幾個月,ODCC將與業界針對Region Scale AI面臨的技術挑戰展開具體研究,探索技術方向,期望在年內形成研究成果,并在9月份ODDC年度大會進行成果發布。

0e147092-9063-11ef-a511-92fbcf53809c.png

數字經濟時代,算力就是生產力。尤其是智能算力,在復雜的國際政經形勢下,能否取得突破,關系到新型數字技術的產業競爭力。ODCC跨AZ訓練立項已經走出了第一步,探索智算產業的發展路徑。未來華為公司會繼續在產業界開展分布式AI訓練的聯合創新、認證測試、標準制定等系列工作,也愿意與業界伙伴一起,賦能我國數字經濟產業的高質量發展。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據中心
    +關注

    關注

    16

    文章

    4859

    瀏覽量

    72382
  • AI
    AI
    +關注

    關注

    87

    文章

    31534

    瀏覽量

    270342

原文標題:AI訓練集群從單DC擴展至多DC,智算中心的未來將如何演變?

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    全球視野 未來,施耐德電氣助力數據中心把握智算機遇

    領域專家及行業合作伙伴,深入探討AI重塑未來之際,數據中心面臨的新挑戰、技術革新與未來發展趨勢,并分享了施耐德電氣賦能
    的頭像 發表于 11-21 15:50 ?357次閱讀
    全球視野 <b class='flag-5'>算</b>領<b class='flag-5'>未來</b>,施耐德電氣助力<b class='flag-5'>數據中心</b>把握智算機遇

    當今數據中心新技術趨勢

    當今數據中心的新技術趨勢正以前所未有的速度推動著行業的變革與創新。隨著云計算、大數據、人工智能等技術的快速發展,數據中心作為信息技術的核心基礎設施,正面臨著前所未有的機遇與挑戰。 一、
    的頭像 發表于 10-24 15:15 ?558次閱讀

    簡述數據中心網絡架構的演變

    隨著全球對人工智能(AI)的需求不斷增長,數據中心作為AI計算的重要基礎設施,其網絡架構與連接技術的發展變得尤為關鍵。
    的頭像 發表于 10-22 16:23 ?374次閱讀

    怎樣保障數據中心不間斷電源不斷電 提供可靠安全的供配電#數據中心

    數據中心配電系統
    安科瑞王金晶
    發布于 :2024年08月29日 14:51:36

    混合冷卻在數據中心中仍將是必不可少的#混合冷卻

    數據中心
    深圳崧皓電子
    發布于 :2024年08月06日 06:58:06

    AI時代,我們需要怎樣的數據中心AI重新定義數據中心

    超過60%的中國企業計劃在未來12至24個月內部署生成式人工智能。AI、模型的構建,將顛覆數據中心基礎設施的建設、運維和運營。一個全新的數據中心智能化時代已經拉開序幕。
    發表于 07-16 11:33 ?783次閱讀
    <b class='flag-5'>AI</b>時代,我們需要怎樣的<b class='flag-5'>數據中心</b>?<b class='flag-5'>AI</b>重新定義<b class='flag-5'>數據中心</b>

    數據中心、智中心、超中心,有何區別?

    數據中心、智中心和超中心是當前計算機領域中比較重要的研究方向,三者雖然都屬于數據中心的范疇
    的頭像 發表于 06-22 08:27 ?5676次閱讀
    云<b class='flag-5'>數據中心</b>、智<b class='flag-5'>算</b><b class='flag-5'>中心</b>、超<b class='flag-5'>算</b><b class='flag-5'>中心</b>,有何區別?

    #mpo極性 #數據中心mpo

    數據中心MPO
    jf_51241005
    發布于 :2024年04月07日 10:05:13

    一圖看懂星河AI數據中心網絡,全面釋放AI時代

    華為中國合作伙伴大會 | 一圖看懂星河AI數據中心網絡,以網強,全面釋放AI時代
    的頭像 發表于 03-22 10:28 ?834次閱讀
    一圖看懂星河<b class='flag-5'>AI</b><b class='flag-5'>數據中心</b>網絡,全面釋放<b class='flag-5'>AI</b>時代<b class='flag-5'>算</b>力

    #mpo光纖跳線 #數據中心光纖跳線

    光纖數據中心
    jf_51241005
    發布于 :2024年03月22日 10:18:31

    #gyta53光纜 #gyty53光纜 #數據中心光纜

    數據中心光纜
    jf_51241005
    發布于 :2024年03月18日 14:03:02

    #光纖彎曲 #光纖衰減 #數據中心光纖

    光纖數據中心
    jf_51241005
    發布于 :2024年03月08日 09:59:50

    #光纜防火等級 #數據中心光纜 #綜合布線光纜

    數據中心光纜
    jf_51241005
    發布于 :2024年03月04日 11:29:25

    #MPO預端接 #數據中心機房 #機房布線

    數據中心MPO
    jf_51241005
    發布于 :2024年03月01日 11:12:47

    #永久鏈路 #信道測試 #數據中心

    數據中心
    jf_51241005
    發布于 :2024年02月23日 10:17:58
    百家乐官网过滤软件| 真人百家乐官网免费送钱| 百家乐官网庄闲筹码| 百家乐官网免佣台| 好运来百家乐官网的玩法技巧和规则 | 正品百家乐官网的玩法技巧和规则| 24山在风水中的作用| 百家乐b28博你| 大发888玩哪个| 潍坊市| 百家乐官网六合彩3535| 做生意门朝哪个方向好| 悦榕庄百家乐的玩法技巧和规则 | 线上百家乐官网平台| 做生意摆放风水| 娱百家乐下载| 六合彩开奖历史记录| 百家乐官网赚钱项目| 上海百家乐官网的玩法技巧和规则| 澳门百家乐会出千吗| 大发888 这类平台| 百家乐官网路纸发表区| 网上的百家乐官网是真是假| 波音网百家乐合作| 全讯网ceo| 百家乐官网注册就送| 百家乐官网博赌城| 新利百家乐的玩法技巧和规则| 333娱乐| 专业百家乐官网软件| 皇冠百家乐在线游戏| 金豪娱乐| 状元百家乐官网的玩法技巧和规则| 百家乐中的小路怎样| 在线体育投注| 宝马百家乐官网的玩法技巧和规则| 百家乐3式打法微笑心法| 百家乐官网官方网址| 百家乐最新心得| 易胜博国际娱乐| 百家乐官网棋牌游戏币|