澳门网络赌博技巧,快乐炸金花号账号,棋牌室空气净化器吸烟宝(中国)·官方网站

電子發燒友網報道（文/周凱揚）近年來，有關大語言模型（LLM）的開發非常活躍，尤其是在中國、美國等市場。以OpenAI開發的ChatGPT為例，其迅速普及極大影響了技術研發、經濟系統等，為此不少國家政府也投入到LLM的計算資源整合中來，從而不至于落后這輪新的全球技術軍備戰。同樣的計算資源競爭也發生在超算領域，而兩者的計算資源存在一定的重合，不少人開始借助超算來進行LLM的開發。

超算訓練大模型的天然優勢

大語言模型的訓練經常會撞上GPU的內存墻，比如訓練一個萬億參數的模型，就需要至少24TB的GPU內存。好在對于現代超算系統而言，GPU已經成為不可或缺的算力資源之一，不少超算的GPU規模與云服務廠商的數據中心相比，也不遑多讓。以目前排名第一的Frontier超算為例，就集成了37888塊AMD MI250X GPU。

美國橡樹嶺國家實驗室的研究人員除了用Frontier完成科學計算任務以外，也使用了一部分GPU資源訓練一個萬億級參數的LLM。據他們發布的論文，使用3072塊MI250X GPU，他們訓練了一個一萬億參數的大語言模型，這樣的規模已經與OpenAI的GPT-4在同一水平線上了。

絕大多數模型的內存要求，除了來自參數量外，也來自梯度和優化器狀態。盡管對大模型訓練的任務進行了并行分解，美國橡樹嶺國家實驗室的研究人員發現訓練一個萬億級別的大模型還是需要14TB的內存，好在單個MI250X就擁有64GB的顯存，足以滿足訓練要求。

富岳大模型

日前，一隊日本研究員發布了富岳-LLM，一個專門針對日語能力進行加強的大語言模型，由RIKEN的超算系統富岳訓練。盡管目前GPU才是訓練LLM的首選硬件，而富岳超算是基于自研的Arm架構處理器構筑的，只有CPU并沒有GPU。

為了在富岳上訓練大語言模型，研究員們開發了分布式的訓練方案，將深度學習框架Megatron-DeepSpeed移植到富岳上，從而優化Transformer模型在富岳上的性能表現。通過加速Transformer的密集矩陣乘法庫，并結合三種并行化技術優化富岳的通信性能，富岳的并行訓練能力得到了最大化。

富岳大模型有130億參數，比目前已經在日本廣泛使用的70億參數模型規模還要大，盡管市面上早已出現參數更大的模型，但對于富岳超算來說，這已經是一個平衡高性能與計算資源的選擇了。

除此之外，不少日本公司開發的大模型采用持續學習，采用海外開發的公開模型，用日本數據進行持續訓練。而富岳大模型則是采用團隊自己的數據從頭開始訓練的，所以在透明度和安全性上更高一籌。

富岳大模型用到了3800萬個Token和富岳超算的13824個節點，其數據60%為日語，并與英語、數學運算和代碼結合。該模型在人文和社會科學任務中獲得了9.18的基準跑分，可以結合敬語或日語的其他特征進行自然對話。

寫在最后

隨著各地區紛紛開始建設超算智算資源，如何提高這些計算資源的利用率也成了關鍵。而訓練大模型恰好需要用到如此龐大的計算資源，也有助于為各行各業提供可用大模型應用，由此看來，未來超算上大模型訓練的場景也會越來越普遍。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

超算

超算

+關注

關注
1

文章
115

瀏覽量
9136
大模型

大模型

+關注

關注
2

文章
2551

瀏覽量
3171

GPU是如何訓練AI大模型的

在AI模型的訓練過程中，大量的計算工作集中在矩陣乘法、向量加法和激活函數等運算上。這些運算正是GPU所擅長的。接下來，AI部落小編帶您了解GPU是如何訓練AI大

發表于 12-19 17:54 ?242次閱讀

AI云端計算資源有哪些類型

AI云端計算資源涵蓋了從基礎設施到軟件服務的多個層面，為AI模型的訓練、推理和部署提供了強大的支持。下面，AI部落小編為您詳細介紹AI云端計算

發表于 11-15 09:39 ?204次閱讀

從零開始訓練一個大語言模型需要投資多少錢？

關于訓練技巧和模型評估的文章，但很少有直接告訴你如何估算訓練時間和成本的。前面分享了一些關于大模型/本地知識庫的安裝部署方法，無需編寫代碼，

發表于 11-08 14:15 ?333次閱讀

如何訓練自己的LLM模型

訓練自己的大型語言模型（LLM）是一個復雜且資源密集的過程，涉及到大量的數據、計算資源和專業知識

發表于 11-08 09:30 ?791次閱讀

ai模型訓練需要什么配置

AI模型訓練是一個復雜且資源密集的過程，它依賴于高性能的硬件配置來確保訓練的效率和效果。一、處

發表于 10-17 18:10 ?1942次閱讀

大模型后訓練時代，九章云極DataCanvas公司打造普惠算力服務新范式

在數據存儲與處理的關鍵環節，大模型后訓練模式對系統的安全性提出了更高要求，以確保算力資源能夠無縫且安全地融入各類業務系統。依托業務系統與互聯網的海量數據

發表于 09-14 16:00 ?470次閱讀

摩爾線程與羽人科技完成大語言模型訓練測試

近日，摩爾線程與羽人科技攜手宣布，雙方已成功實現夸娥（KUAE）千卡智算集群與羽人系列模型解決方案的訓練兼容適配。在本次測試中，羽人科技通過摩爾線程夸娥千卡智算集群，高效完成了70億參

發表于 08-27 16:19 ?593次閱讀

如何理解云計算？

和硬件資源。在數字化時代，互聯網已經成為基礎設施。云計算使得數據中心能夠像一臺計算機一樣去工作。通過互聯網將

發表于 08-16 17:02

llm模型訓練一般用什么系統

LLM（Large Language Model，大型語言模型）是近年來在自然語言處理領域取得顯著成果的一種深度學習模型。它通常需要大量的計算資源

發表于 07-09 10:02 ?496次閱讀

人臉識別模型訓練流程

人臉識別模型訓練流程是計算機視覺領域中的一項重要技術。本文將詳細介紹人臉識別模型的訓練流程，包括

發表于 07-04 09:19 ?1129次閱讀

預訓練模型的基本原理和應用

預訓練模型（Pre-trained Model）是深度學習和機器學習領域中的一個重要概念，尤其是在自然語言處理（NLP）和計算機視覺（CV）等領域中得到了廣泛應用。預

發表于 07-03 18:20 ?3157次閱讀

深度學習模型訓練過程詳解

深度學習模型訓練是一個復雜且關鍵的過程，它涉及大量的數據、計算資源和精心設計的算法。訓練

發表于 07-01 16:13 ?1506次閱讀

【大語言模型：原理與工程實踐】大語言模型的預訓練

具有以下三個非常顯著的特點，一個就是模型參數規模更大，訓練數據更多。當然，對計算資源的要求也會更高。構建強大的語言

發表于 05-07 17:10

科學計算的下一輪創新，AI超算與數字孿生

應用的行列中來。 ? AI 超算與數字孿生 ? 在過去通用計算負載的時代，我們難以采用更大規模的計算集群來打造數字孿生。可隨著AI技術，尤其是生成式AI技術的出現，采用高度定制化的AI

發表于 05-07 00:16 ?2067次閱讀

求問電子設計自學路徑

新手小白也想自己做出小車、小電視甚至小機器人等等有意思的項目，有C語言基礎并且對stm32有了一丁點基礎的了解，但是硬件、電路設計以及更高階的程序語言仍然一竅不通。請問自學路徑是怎么樣的（硬件和軟件）？如何從0開始入門呢？如果有推薦的網課或者書籍，那就更好啦！謝謝各位大佬

發表于 03-23 21:42

那曲檬骨新材料有限公司

搜索歷史

超算訓練大模型，不浪費一丁點計算資源

評論

GPU是如何訓練AI大模型的

AI云端計算資源有哪些類型

從零開始訓練一個大語言模型需要投資多少錢？

如何訓練自己的LLM模型

ai模型訓練需要什么配置

大模型后訓練時代，九章云極DataCanvas公司打造普惠算力服務新范式

摩爾線程與羽人科技完成大語言模型訓練測試

如何理解云計算？

llm模型訓練一般用什么系統

人臉識別模型訓練流程

預訓練模型的基本原理和應用

深度學習模型訓練過程詳解

【大語言模型：原理與工程實踐】大語言模型的預訓練

科學計算的下一輪創新，AI超算與數字孿生

求問電子設計自學路徑