棋牌游戏平台李逵劈鱼,线路检测官网,文化娱乐场所营业日志要求(中国)·官方网站

最近大語言模型模型LLM很火，大家總是說chatgpt的175Billion參數。做算法的人更關心網絡的結構，而我這種做硬件的人一直很好奇這個參數是怎么計算的。

最近看到了一篇文章，計算了參數的個數并且和chatgpt論文里的參數進行了比較，計算的還是比較準確的，我來總結一下。

1.Chatgpt背景

Chatgpt(chat generative pre-trained transformer)也是基于google最初的transformer模型，雖然LLM功能很強大，但是理解起來比fasterRCNN和LSTM好很多。

Transformer結構

Chatgpt結構

不同于從input到output可以進行翻譯工作的transformer結構，ChatGPT進行對話，只需要右側的decoder部分就可以。

2.一張立體圖：

整體的Bert 結構

看了很多解釋圖，上面的圖是看過的最好的，流程就是

1）inputembedding 分別和key，value，query的矩陣做乘法linear projection，得到的結果進行attention

2）將多個attention的結果進行concat拼接，得到的結果進行再次進行矩陣乘法，linearprojection

3）將得到的結果輸入feedforwardnetwork，兩層的lineartransform之后，輸出結果

4）如果有n_layer個layer，那么就重復2）和3）n_layer次

3.具體的參數個數計算

先解釋一下參數：

n_head : attention 中head的個數

d_model: 中間bottlenecklayer的向量的維度

n_vocalulary: 字典的維度

n_context: 上下文的長度

n_layer:網絡的層數

1）Inputembedding

對應UWe將U的(n_context,n_vocalulary) 維轉為UWe(n_context, d_model)維，其矩陣大小為(n_vocabulary,d_model) , 參數大小即為n_vocabulary* d_model。 ??

此外，??Wp對應(n_context,d_model)。因此此處的參數個數為： n_vocabulary*d_model+ n_context * d_model

2）Attention& MultiHead

a. WiQ, WiK,WiV都是相同的大小投影矩陣，每個都是d_model*d_head維度，這里的d_head就對應上面公式里面的de, ，dk，dv，ChatGPT中他們都是同樣的大小；

b.因此attention部分的計算量就是3*d_model*d_head，因為有三個矩陣WiQ,WiK, WiV;

c.如果有MultiHead，如果head的個數為n_head,那么即為W矩陣的總參數3*d_model*d_head*n_head

d. concat的結果的維度為（n_context,n_head*d_head）,經過矩陣WO計算后維度變為(n_context,d_head)維，因此WO的維度為（n_head*d_head，d_head）對c）和d)的參數求和，此時參數個數為 4*d_model*d_head*n_head

3）feedforward

在chatgpt中，feedforward內部由兩層lineartransformer組成，并且d_ff為d_model的4倍。 ???W1??的參數個數為（d_model,d_ff）, b??1??的參數個數為d_ff，W2的為(d_ff,d_model),b2????的參數個數為d_model，而d_model又是d_ff的四倍，因此： 2*d_model*d_ff+d_model+d_ff 即 8*d_model2+ 5* d_model 4）將2）和3）重復n_layer次 n_layer * (4*d_model*d_head*n_head+ 8*d_model2 + 5* d_model)

總體的參數計算：1)+ 4):

n?_vocabulary*d_model-> emb??edding atrix

+n_context * d_model??-> position matrix

+ n_layer *? ????-> layer 重復N次

// multi headattention

(4 * d_model * d_head * n_head ->???

??// feedforward network

??+ 8 * d_model2+ 5* d_mo??del??)

驗證一下：

如果按照chatGPT論文中設置的參數：

n_vocabulary = 50257

d_model = 12288

n_context = 2048

n_layer= 96

d_head= 128

n_head= 96

1）word_embeding +position

50257 * 12288 + 2048 * 12288 = 642723840

2）Attention& MultiHead

單層：4 * 12288 * 128 * 96 = 603979776??

3）feedforward

8 * 12288 * 12288 + 5 * 12288= 1208020992

4）2）和3）重復n_layer次

N_layer = 96 層96*(603979776+1208020992) = 173952073728

1)+2) = 174594797568 也就是所說的175Billion個參數。

這個方法估計出的參數和論文中參數的對比：

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

LSTM

LSTM

+關注

關注
0

文章
59

瀏覽量
3793
ChatGPT

ChatGPT

+關注

關注
29

文章
1570

瀏覽量
8067
LLM

LLM

+關注

關注
0

文章
299

瀏覽量
400

原文標題：chatGPT的175Billion個參數是哪兒來的

文章出處：【微信號：處理器與AI芯片，微信公眾號：處理器與AI芯片】歡迎添加關注！文章轉載請注明出處。

【國產FPGA+OMAPL138開發板體驗】（原創）6.FPGA連接ChatGPT 4

: LED輸出，我們要用它來展示ChatGPT4的“高見”。 ChatGPT4_IP_Core chatgpt4_core(...): 假設我們有一

發表于 02-14 21:58

在FPGA設計中是否可以應用ChatGPT生成想要的程序呢

當下AI人工智能崛起，很多開發領域都可看到ChatGPT的身影，FPGA設計中，是否也可以用ChatGPT輔助設計呢？

發表于 03-28 23:41

#chatgpt 使用chatGPT輔助開發第一彈-電路設計，讓它設計一個放大電路，看下效果#人工智能

ChatGPT

jf_82140138
發布于 :2023年02月27日 13:07:41

ChatGPT對話語音識別

ChatGPT

YS YYDS
發布于 :2023年05月30日 22:13:10

科技大廠競逐AIGC，中國的ChatGPT在哪？

迭代，需要大量的數據進行訓練。2020年發布的GPT-3，其訓練參數量已經達到了驚人的1750億個，“大量的數據被反復‘喂’給ChatGPT。” 而且，ChatGPT的訓練成本支出巨

發表于 03-03 14:28

【米爾MYD-JX8MMA7開發板-ARM+FPGA架構試用體驗】4.使用ChatGPT來助力測試GPU

領域的多種應用場景比較適用。本次將測試該開發板的GPU圖形圖像處理能力，并在ChatGPT幫助下使用OpenGL E2.0 開發一個簡單的3D模型實時渲染的應用，及使用ChatGPT來

發表于 04-10 02:07

ChatGPT系統開發AI人功智能方案

。ChatGPT是一個由OpenAI開發的人工智能語言模型，可以實現自然語言處理、對話生成等功能。要開發一個類似ChatGPT的人工智能系統軟件，可以遵循以下步驟：確定應用場景：確定人

發表于 05-18 10:16

J175 P溝道開關

電子發燒友網為你提供()J175相關產品參數、數據手冊，更有J175的引腳圖、接線圖、封裝手冊、中文資料、英文資料，J175真值表，J175

發表于 04-18 20:41

HMC175 S參數

HMC175 S參數

發表于 03-23 13:53 ?1次下載

ChatGPT入門指南

是基于聊天的生成預訓練transformer模型的縮寫，是一個強大的工具，可以以各種方式使用，以提高您在許多領域的生產力。 ChatGPT是一種人工智能（AI）技術，被稱為自然語言處理（NLP）模型　　由人工智能研發公司OpenAI創建。它使用機器學習算法

發表于 02-10 11:19 ?7次下載

chatgpt是什么

chatgpt是什么 ChatGPT，美國OpenAI 。ChatGPT是人工智能技術驅動的自然語言處理工具，它能夠通過學習和理解人類的語言來進行對話，還能根據聊天的上下文進行互動，真

發表于 02-10 14:05 ?4w次閱讀

chatgpt怎么用

使用了一種叫做Transformer的神經網絡架構，這是一種用于處理序列數據的模型，能夠在輸入序列中捕捉長期依賴性。它還使用了大量的語料庫來訓練模型，這些語料庫包含了真實世界中的對話，以便模型能夠更好地理解人類語言。 chatgpt怎么用？ 1、注冊或登錄OpenAI賬戶

發表于 02-10 14:22 ?5.8w次閱讀

從零開始談ChatGPT

　　那如何才能得到一個ChatGPT呢？　　首先我們需要一個具備各種能力（潛力）的LLM，所以它要足夠大，訓練的足夠好。OpenAI 大概率也是為此重新訓練了一個GPT-3 模

發表于 02-15 10:20 ?0次下載

ChatGPT了的七個開源項目

就推出了很多。估計，現在還有不少同學苦于不知道該如何體驗chatGPT。　　chatGPT火了，圍繞chatGPT盡心二次擴展的開源項目最近也涌現出很多，今天就來給大家介紹幾個最近發現的不錯的開源項目！　　這是一

發表于 02-15 09:26 ?3次下載

一個令人驚艷的ChatGPT項目，開源了！

而Visual ChatGPT這個項目則可以把ChatGPT和一系列視覺基礎模型（VFM，Visual Foundation Model）給聯系起來，以便實現在ChatGPT聊天的過程中來

發表于 03-31 11:00 ?2315次閱讀

那曲檬骨新材料有限公司

搜索歷史

chatGPT的175Billion個參數是哪兒來的

評論

【國產FPGA+OMAPL138開發板體驗】（原創）6.FPGA連接ChatGPT 4

在FPGA設計中是否可以應用ChatGPT生成想要的程序呢

#chatgpt 使用chatGPT輔助開發第一彈-電路設計，讓它設計一個放大電路，看下效果#人工智能

ChatGPT對話語音識別

科技大廠競逐AIGC，中國的ChatGPT在哪？

【米爾MYD-JX8MMA7開發板-ARM+FPGA架構試用體驗】4.使用ChatGPT來助力測試GPU

ChatGPT系統開發AI人功智能方案

J175 P溝道開關

HMC175 S參數

ChatGPT入門指南

chatgpt是什么

chatgpt怎么用

從零開始談ChatGPT

ChatGPT了的七個開源項目

一個令人驚艷的ChatGPT項目，開源了！