一文詳解LLM模型基本架構(gòu)

本篇是《Rust與AI》系列的第二篇，上一篇我們主要介紹了本系列的概覽和方向，定下了一個(gè)基調(diào)。本篇我們將介紹LLM的基本架構(gòu)，我們會(huì)以迄今為止使用最廣泛的開源模型LLaMA為例展開介紹。

LLM背景

Rust 本身是不挑 AI 模型的，但是 LLM 是當(dāng)下最熱的方向，我們就從它開始吧，先了解一些非常基礎(chǔ)的背景知識(shí)。

Token

LLM 中非常重要的一個(gè)概念是 Token，我們輸入給 LLM 和它輸出的都是 Token。Token 在這里可以看做語言的基本單位，中文一般是詞或字（其實(shí)字也是詞）。比如：”我們喜歡 Rust 語言“，Token 化后會(huì)變成類似 ”我們/喜歡/Rust/語言“ 這樣的四個(gè)詞，可以理解為四個(gè) Token。

給定一段任意的自然語言文本，我們可以用一個(gè)分詞器（Tokenizer）將其 Token 化成一個(gè)個(gè)連續(xù)的 Token。這些 Token 接下來就可以映射成一個(gè)個(gè)數(shù)字，其實(shí)是在詞表中的索引，索引進(jìn)而可以找到一個(gè)稠密向量，用來表示該位置 Token 的語義輸入。

我們以剛剛的”我們喜歡 Rust 語言“為例，假定已有詞表如下。

…… 1000 Rust …… 2000 我們 2001 喜歡 2002 語言 ……

注意，前面的數(shù)字是行號(hào)，并不是詞表內(nèi)容。剛剛那句話其實(shí)就是［2000， 2001， 1000， 2002］，這就是 LLM 的輸入。LLM 拿到這些 ID 后，會(huì)在一個(gè)非常大的表里查找對(duì)應(yīng)的稠密向量。這個(gè)非常大的表就是詞表，大小是：詞表大小N × 模型維度，如下所示。

…… 1000 0.9146， 0.066， 0.4469， 0.3867， 0.3221， 0.6566， 0.2895，。.. …… 2000 0.5702， 0.9579， 0.0992， 0.9667， 0.5013， 0.4752， 0.1397，。.. 2001 0.2896， 0.7756， 0.6392， 0.4034， 0.3267， 0.9643， 0.4311，。.. 2002 0.4344， 0.6662， 0.3205， 0.3929， 0.6418， 0.6707， 0.2414，。.. ……

也就是說，輸入”我們喜歡Rust語言“這句話，我們實(shí)際傳遞給模型的其實(shí)是一個(gè) 4×Dim 的矩陣，這里的 4 一般也叫 Sequence Length。

我們可以暫時(shí)把模型看作一個(gè)函數(shù) f（x），輸入一個(gè) Sequence Length × Dim 的矩陣，經(jīng)過模型 f（x）各種運(yùn)算后會(huì)輸出 Sequence Length × Vocabulary Size 大小的一個(gè)概率分布。有了概率分布就可以采樣一個(gè) Token ID（基于上下文最后一個(gè) Token ID 的分布），這個(gè) ID 也就是給定當(dāng)前上下文（”我們喜歡Rust語言“）時(shí)生成的下一個(gè) Token。接下來就是把這個(gè) ID 拼在剛剛的 4 個(gè) ID 后面（輸入變成 5 個(gè) ID），繼續(xù)重復(fù)這個(gè)過程。

生成

如上所言，生成過程就是從剛剛的概率分布中 “選擇” 出一個(gè) Token ID 作為下一個(gè) Token ID。選擇的方法可以很簡單，比如直接選擇概率最大的，此時(shí)就是 Greedy Search，或 Greedy Decoding。

不過我們平時(shí)用到大模型時(shí)一般都用的是采樣的方法，也就是基于概率分布進(jìn)行采樣。拋硬幣也是一種采樣，按概率分布（0.5，0.5）進(jìn)行采樣，但假設(shè)正面比較重，概率分布就可能變成了（0.8，0.2）了。基于 Vocabulary Size 個(gè)概率值進(jìn)行采樣也是類似的，只不過括號(hào)里的值就是詞表大小那么多個(gè)。

top_p/top_k 采樣是概率值太多了，大部分都是概率很小的 Token，為了避免可能采樣到那些概率很低的 Token（此時(shí)生成的結(jié)果可能很不連貫），干脆就只從前面的 Token 里挑。

top_k 就是把 Token 按概率從大到小排序，然后從前 k 個(gè)里面選擇（采用）下一個(gè) Token；top_p 也是把 Token 按概率從大到小排序，不過是從累積概率大于 p 的 Token 里選。就是這么簡單。

這里有個(gè)小細(xì)節(jié)需要說明，因?yàn)檫x擇了 top_p/k，所以這些備選的 Token 需要重新計(jì)算概率，讓它們的概率和為 1（100%）。

開源代表——LLaMA

接下來，我們把重心放在函數(shù) f（x）上，以最流行的開源 LLM——LLaMA 為例，簡單介紹一下模型的結(jié)構(gòu)和參數(shù)。

結(jié)構(gòu)

LLaMA 的結(jié)構(gòu)相對(duì)而言比較簡單，如果我們忽略其中的很多細(xì)節(jié)，只考慮推理過程，看起來如下圖所示。

圖中［］中的是該位置的張量 shape，B 表示 Batch Size，一般時(shí)候都是批量丟給 GPU 計(jì)算的，L 就是 Sequence Length，D 就是上面提到的 Dim。這是一個(gè)簡化了的架構(gòu)圖，但是足以清晰地表達(dá)模型了。

兩個(gè) Hidden states（以下簡稱 HS），外面（之上和之下）的部分我們前面已經(jīng)提到過了（注意上面部分，［B，L，D］會(huì)先變成［B，L，VS］，然后取最后一個(gè) Token 就得到了［B，1，VS］），上面的 HS 會(huì)傳回到 Block 里面，重復(fù) N 次，N 就是模型的層數(shù)。接下來我們就把重點(diǎn)放在中間這個(gè) Block 里。

每個(gè) Block 包括兩個(gè)主要模塊，一個(gè) MHA（Multi-Head Attention）模塊，一個(gè) FFN（Feedforward Network）模塊，每次傳給模塊之前都需要 Normalization，這個(gè)叫 Pre-Normalization，一般用來穩(wěn)定訓(xùn)練。另外，每個(gè)模塊結(jié)束后會(huì)疊加模塊之前的輸入，這個(gè)叫殘差連接，一般能加速收斂。

接下來是 MHA 和 FFN，先看 FFN 模塊，它的大概流程如下（@ 表示矩陣/張量乘法）。

z1 = ns @ up_weights z2 = ns @ gate_weights z3 = z1 * silu（z2） z4 = z3 @ down_weights

整體來看是先將網(wǎng)絡(luò)擴(kuò)大再收縮，擴(kuò)大時(shí)增加了一個(gè)激活處理。silu 函數(shù)大概長這樣：

等價(jià)于只激活了一部分參數(shù)，這個(gè)非線性激活非常重要，可以讓模型學(xué)習(xí)到更豐富的知識(shí)和表達(dá)。

再就是 MHA 模塊了，大概流程如下（為了更直觀，去掉了 Batch Size 和 Softmax）。

q = ns @ q_weights # （L， D） @ （D， D） = （L， D） k = ns @ k_weights # （L， D） @ （D， D） = （L， D） v = ns @ v_weights # （L， D） @ （D， D） = （L， D） q = q.reshape（L， NH， HD） k = k.reshape（L， NH， HD） v = v.reshpae（L， NH， HD） attn = q.trans（NH， L， HD） @ k.trans（NH， HD， L） # （NH， L， HD） @ （NH， HD， L） = （NH， L， L） v = attn @ v.trans（NH， L， HD） # （NH， L， L） @ （NH， L， HD） = （NH， L， HD） v = v.reshpe（L， NH*HD） # （L， D）

其中，NH 表示 Attention 的 Head 數(shù)，HD 表示 Head 的維度。因?yàn)橛?NH 個(gè) Head，所以叫 Multi-Head，但其實(shí)我們看上面的過程，在實(shí)際計(jì)算的時(shí)候它們是合并一起算的。我們不妨只看一個(gè) Head，如下所示。

q = ns @ hq_weights # （L， D） @ （D， HD） = （L， HD） k = ns @ hk_weights # （L， D） @ （D， HD） = （L， HD） v = ns @ hv_weights # （L， D） @ （D， HD） = （L， HD） attn = q @ k.T # （L， HD） @ （HD， L） = （L， L） v = attn @ v # （L， L） @ （L， HD） = （L， HD）

上面的多個(gè) Head 的 v 就是下面的每個(gè) Head 的 v 拼接起來的。

Multi-Head 是多個(gè)注意力頭去執(zhí)行 Attention，其思想是讓每個(gè) Head 去捕獲不同角度/層面的 Attention，這些角度/層面是什么？不是特別清楚（但一定是某種特征），但我們可以通過 Attention 的權(quán)重看出外在 Token 級(jí)別的注意力，知道每個(gè)注意力 Head，哪些 Token 之間有比較強(qiáng)的連接。

參數(shù)

關(guān)于 f（x）我們已經(jīng)介紹完了，可以發(fā)現(xiàn)這個(gè)函數(shù)其實(shí)還是有點(diǎn)復(fù)雜的。接下來，我們看看參數(shù)情況。

對(duì)一個(gè)一元一次方程（比如 f（x） = ax + b）來說，參數(shù)就兩個(gè)：a 和 b，但對(duì)于 LLM 來說，參數(shù)就非常多了，目前常用的是 7B、13B、20B 的級(jí)別，也就是 70億、130億和 200億的參數(shù)規(guī)模。

在神經(jīng)網(wǎng)絡(luò)中，可以把矩陣乘法看作是多元一次方程組的計(jì)算過程，輸入的 Hidden State 維度是 D，就表示未知變量的維度是 D，也就是 D 元一次方程組。

以前面的但 Head Attention 的 q 為例，q_weights 是一個(gè) DxHD 的參數(shù)矩陣，我們把 D 和 HD 設(shè)置的小一點(diǎn)（假設(shè)為4和2），看一個(gè)具體的例子。

torch.manual_seed（42） w = nn.Linear（4， 2， bias=False） # D=4， HD=2 hs = torch.rand（（3， 4）） # L=3， D=4 q = hs @ w.weight.T “”“ hq_weights = w.weight.T = tensor（［［ 0.3823， -0.1096］，［ 0.4150， 0.1009］，［-0.1171， -0.2434］，［ 0.4593， 0.2936］］） hs = tensor（［［0.9408， 0.1332， 0.9346， 0.5936］，［0.8694， 0.5677， 0.7411， 0.4294］，［0.8854， 0.5739， 0.2666， 0.6274］］） q = tensor（［［ 0.5781， -0.1428］，［ 0.6784， -0.0923］，［ 0.8336， 0.0803］］） ”“”

這個(gè)例子除了維度小一點(diǎn)，其他邏輯是一樣的。它對(duì)應(yīng)這么一個(gè)多元方程組。

w11*x11 + w21*x12 + w31*x13 + w41*x14 = y11 w12*x11 + w22*x12 + w32*x13 + w42*x14 = y12 w11*x21 + w21*x22 + w31*x23 + w41*x24 = y21 w12*x21 + w22*x22 + w32*x23 + w42*x24 = y22 w11*x31 + w21*x32 + w31*x33 + w41*x34 = y31 w12*x31 + w22*x32 + w32*x33 + w42*x34 = y32

其中 x 就是 hs，w 就是 hq_weights，寫成數(shù)學(xué)表達(dá)式大概就是下面的這樣。 $$ left［egin{array}{llll} x_{11} & x_{12} & x_{13} & x_{14} x_{21} & x_{22} & x_{23} & x_{24} x_{31} & x_{32} & x_{33} & x_{34} end{array} ight］ imesleft［egin{array}{ll} w_{11} & w_{12} w_{21} & w_{22} w_{31} & w_{32} w_{41} & w_{42} end{array} ight］=left［egin{array}{ll} y_{11} & y_{12} y_{21} & y_{22} y_{31} & y_{32} end{array} ight］ $$ 對(duì)于這樣的一個(gè) Linear 來說，參數(shù)量就是 2×4=8 個(gè)。現(xiàn)在讓我們看看 LLaMA，就按詞表大小=32000，維度=4096來計(jì)算。

首先是 Embedding 和 LM Head（就是映射到 32000 個(gè) Token 的那個(gè)參數(shù)），它們是一樣的，都是 32000×4096，有時(shí)候這兩個(gè)地方的參數(shù)也可以設(shè)計(jì)成共享的，LM Head 前面也有一個(gè) Normalization，4096 個(gè)參數(shù)。

然后是 Block，MHA 的 qkvo 是 4 個(gè) 4096×4096 的矩陣，F(xiàn)FN 的 gate、up、down 是 11008×4096 的矩陣，再加上兩個(gè) Normalization， 4096×2 個(gè)參數(shù)。每個(gè) Block 參數(shù)量為 4096×（4096×4+11008×3+2）。

這樣得到所有的參數(shù)總和為：32000*4096*2 + 4096 +（4096*（4096*4+11008*3+2））*32 = 6738415616，67億多的樣子，也就是常說的 7B。

Rust與LLaMA

終于來到了 Rust，之所以前面鋪墊那么多，是因?yàn)槿绻覀兺耆皇煜つＰ偷幕窘Y(jié)構(gòu)和執(zhí)行過程，這個(gè)代碼看起來就會(huì)知其然而不知其所以然。當(dāng)然，即便了解了基本結(jié)構(gòu)，里面也有一些細(xì)節(jié)需要單獨(dú)介紹，不過我們會(huì)放在后續(xù)的內(nèi)容。

只看上面的內(nèi)容，我們可以發(fā)現(xiàn) LLM 模型的結(jié)構(gòu)其實(shí)不算特別復(fù)雜，而且其中涉及到大量的矩陣運(yùn)算（至少占到 80% 以上）。關(guān)于矩陣運(yùn)算以及相關(guān)的優(yōu)化，我們也會(huì)在后面慢慢涉及。

LLaMA 的 Rust 實(shí)現(xiàn)有很多個(gè)版本，本次選擇的是來自 karpathy/llama2.c： Inference Llama 2 in one file of pure C 的 Rust 實(shí)現(xiàn)的版本中的：danielgrittner/llama2-rs： LLaMA2 + Rust，而且我們暫時(shí)只會(huì)涉及模型基礎(chǔ)結(jié)構(gòu)部分，其中涉及一些特別的細(xì)節(jié)會(huì)簡單解釋，不深入展開。

配置

首先是配置，如下所示。

struct Config { dim： usize， // transformer dimension hidden_dim： usize， // for ffn layers n_layers： usize， // number of layers n_heads： usize， // number of query heads head_size： usize， // size of each head （dim / n_heads） n_kv_heads： usize， // number of key/value heads shared_weights： bool， vocab_size： usize， // vocabulary size seq_len： usize， // max. sequence length }

dim 就是上面一直說的 Dim，hidden_dim 僅在 FFN 層，因?yàn)?FFN 層需要先擴(kuò)大再縮小。n_heads 和 n_kv_heads 是 Query 的 Head 數(shù)和 KV 的 Head 數(shù)，簡單起見可以認(rèn)為它們是相等的。如果我們加載 karpathy 的 15M 的模型，結(jié)果如下。

Config { dim： 288， hidden_dim： 768， n_layers： 6， n_heads： 6， head_size： 48， n_kv_heads： 6， shared_weights： true， vocab_size： 32000， seq_len： 256 }

shared_weights 就是上面提到的 Embedding 和 LM Head 是否共享參數(shù)。

Tokenizer 的功能我們暫且略過，目前只需知道它負(fù)責(zé)將文本轉(zhuǎn)為 ID 列表（encode）以及把 ID 列表轉(zhuǎn)為文本（decode）。

參數(shù)

接下來看模型參數(shù)，如下所示。

struct TransformerWeights { // Token Embedding Table token_embedding_table： Vec《f32》， // （vocab_size， dim） // Weights for RMSNorm rms_att_weight： Vec《f32》， // （layer， dim） rms_ffn_weight： Vec《f32》， // （layer， dim） // Weights for matmuls in attn wq： Vec《f32》， // （layer， dim， dim） wk： Vec《f32》， // （layer， dim， dim） wv： Vec《f32》， // （layer， dim， dim） wo： Vec《f32》， // （layer， dim， dim） // Weights for ffn w1： Vec《f32》， // （layer， hidden_dim， dim） w2： Vec《f32》， // （layer， dim， hidden_dim） w3： Vec《f32》， // （layer， hidden_dim， dim） // final RMSNorm rms_final_weights： Vec《f32》， // （dim） // freq_cis for RoPE relatively positional embeddings freq_cis_real： Vec《f32》， // （seq_len， head_size/2） freq_cis_imag： Vec《f32》， // （seq_len， head_size/2） // （optional） classifier weights for the logits， on the last layer wcls： Vec《f32》， // （vocab_size， dim） }

上面的參數(shù)應(yīng)該都比較直觀，我們不太熟悉的應(yīng)該是 freq_ 開頭的兩個(gè)參數(shù)，它們是和位置編碼有關(guān)的參數(shù)，也就是說，我們每次生成一個(gè) Token 時(shí)，都需要傳入當(dāng)前位置的位置信息。

位置編碼在 Transformer 中是比較重要的，因?yàn)?Self Attention 本質(zhì)上是無序的，而語言的先后順序在有些時(shí)候是很重要的，比如 “我喜歡你” 和 “你喜歡我”，“你” 和 “我” 的順序不同，語義也不同。但時(shí)候很多語義又不太響影我們解理語義，不妨再仔細(xì)讀一下剛剛這半句話。你看文本順序雖然變了，但你讀起來毫無障礙。這也是為什么會(huì)有研究說不要位置編碼語言模型也可以，但效果應(yīng)該是不如加了位置編碼的。

模型創(chuàng)建好后，接下來就是加載參數(shù)和執(zhí)行推理。加載參數(shù)要看模型文件的格式設(shè)計(jì)，本項(xiàng)目來自 karpathy 的 C 代碼，模型文件被安排成了 bin 文件，按規(guī)定的格式讀取即可，核心代碼如下。

fn byte_chunk_to_vec《T》（byte_chunk： &［u8］， number_elements： usize） -》 Vec《T》 where T： Clone， { unsafe { // 獲取起始位置的原始指針 let data = byte_chunk.as_ptr（） as *const T; // 從原始指針創(chuàng)建一個(gè) T 類型的切片，注意number_elements是element的數(shù)量，而不是bytes // 這句是 unsafe 的 let slice_data： &［T］ = std：：from_raw_parts（data， number_elements）; // 將切片轉(zhuǎn)為 Vec，需要 T 可以 Clone slice_data.to_vec（） } }

byte_chunk 表示原始的字節(jié)切片，number_elements 表示結(jié)果向量中元素的個(gè)數(shù)，T 有 Clone 的 Trait 約束，表示 T 必須實(shí)現(xiàn)該 Trait，也就是 T 必須能夠使用 Clone 方法。其他解釋已經(jīng)在代碼中給出了注釋，不再贅述。

加載模型就是讀取原始的 bin 文件并指定對(duì)應(yīng)的參數(shù)大小，我們以 Token Embedding 參數(shù)為例，如下所示。

let token_embedding_table_size = config.vocab_size * config.dim; // offset.。表示從 offset 往后的所有元素 let token_embedding_table： Vec《f32》 = byte_chunk_to_vec（&mmap［offset.。］， token_embedding_table_size）;

類似這樣就可以依次把模型參數(shù)讀取進(jìn)來了。

模型

接下來就是最復(fù)雜的模型部分了。這里最大的不同是 Token by Token 的處理，而不是給定一個(gè)上下文生成下一個(gè) Token。我們看一下基本的 Struct，如下所示。

struct LLaMA2《‘a(chǎn)》 { // buffers for current activations x： Vec《f32》， // activation at current timestep （dim，） xb： Vec《f32》， // same， but inside a residual branch （dim，） xb2： Vec《f32》， // additional buffer （dim，） hb： Vec《f32》， // buffer for hidden dimension in the ffn （hidden_dim，） hb2： Vec《f32》， // buffer for hidden dimension in the ffn （hidden_dim，） q： Vec《f32》， // query （dim，） k： Vec《f32》， // key （dim，） v： Vec《f32》， // value （dim，） att： Vec《f32》， // attention scores （n_heads， seq_len） logits： Vec《f32》， // output logits （vocab_size，） // kv cache key_cache： Vec《f32》， // （layer， seq_len， dim） value_cache： Vec《f32》， // （layer， seq_len， dim） // weights & config transformer： &’a TransformerWeights， config： &‘a(chǎn) Config， }

最后兩個(gè)參數(shù)我們上面已經(jīng)介紹過了，其他參數(shù)都是模型推理過程中需要用到的中間結(jié)果和最初的輸入，以及最終的結(jié)果，它們均被初始化成 0。至于為什么有些值是多個(gè)（比如 xb、hb等），是因?yàn)?Block 里面涉及到殘差連接，需要額外保存一個(gè)輸入。

現(xiàn)在我們從 forward 開始，方法如下。

fn forward（&mut self， token： usize， pos： usize） { // fetch the token embedding self.x.copy_from_slice（ &self.transformer.token_embedding_table ［（token * self.config.dim）。.（（token + 1） * self.config.dim）］，）; // Note： here it always holds that seqlen == 1 in comparison to the PyTorch implementation for l in 0..self.config.n_layers { self.layer（l， pos）; } // final RMSNorm rmsnorm（ self.x.as_mut_slice（）， self.transformer.rms_final_weights.as_slice（），）; // generate logits， i.e.， map activations from dim to vocab_size matmul（ self.logits.as_mut_slice（）， // out：（vocab_size，） self.transformer.wcls.as_slice（）， // W：（vocab_size， dim） self.x.as_slice（）， // x：（dim，））; }

這塊代碼是推理的全流程，一共四個(gè)步驟：取 Embedding、逐層計(jì)算、Normalization、映射到詞表大小的 logits（后續(xù)會(huì)基于此轉(zhuǎn)為概率分布）。

Embedding 是直接從參數(shù)里 copy 出對(duì)應(yīng)索引的參數(shù)，無序贅述。

Normalization 用的是 RMS（Root Mean Square）Normalization，基本公式如下。 $$ x’i = frac{x_i} {sqrt{sum{i=1}^N x_i}} * w_i $$ 它是標(biāo)準(zhǔn) Normalization 的簡單形式，但效果尚可，其代碼如下。

fn rmsnorm（x： &mut ［f32］， weight： &［f32］） { let size = x.len（）; let squared_sum = x.iter（）.fold（0.0， |acc， x| acc + x * x）; let rms = 1. / （squared_sum / size as f32）.sqrt（）; x.iter_mut（） .zip（weight.iter（）） .for_each（|（x， w）| *x *= rms * w）; }

代碼一目了然，先一個(gè) reduce，然后開方取倒數(shù)，接著就是遍歷計(jì)算更新每個(gè)參數(shù)值。

最后的矩陣乘法比較標(biāo)準(zhǔn)，輸入的 Hidden State（x）因?yàn)橹挥幸粋€(gè) Token，所以可以看成向量，長度為 Dim，與 LM Head 矩陣乘法后就得到一個(gè)詞表大小的輸出值，后續(xù)可以歸一化成概率值（即概率分布）。矩陣乘法代碼如下（準(zhǔn)確來說是向量和矩陣乘法）。

fn matmul（target： &mut ［f32］， w： &［f32］， x： &［f32］） { let in_dim = x.len（）; target.par_iter_mut（）.enumerate（）.for_each（|（i， t）| { let row_offset = i * in_dim; *t = x .iter（） .zip（w［row_offset.。］.iter（）） .fold（0.0， |result，（x， w）| result + x * w）; }）; }

這里需要注意的是 offset，因?yàn)閰?shù)是一個(gè) Vec 存儲(chǔ)的一維數(shù)組，要按二維取值，需要每次跳過對(duì)應(yīng)數(shù)量的參數(shù)。剩下的就很清晰了，最終的結(jié)果會(huì)存儲(chǔ)到 target，也就是 self.logits，進(jìn)而會(huì)轉(zhuǎn)為概率分布。

我們把重心放在中間的逐層計(jì)算上，LLM 的核心也在這里。先看 layer 的代碼，如下所示。

fn layer（&mut self， layer： usize， pos： usize） { // Note： we leave the buffer x as it is because we need it for the residual connection rmsnorm_with_dest（ self.xb.as_mut_slice（）， self.x.as_slice（）， &self.transformer.rms_att_weight ［layer * self.config.dim.。（layer + 1） * self.config.dim］，）; self.attn（layer， pos）; // residual connection add_vectors（self.x.as_mut_slice（）， self.xb2.as_slice（））; // Note： we leave the buffer x as it is because we need it for the residual connection rmsnorm_with_dest（ self.xb.as_mut_slice（）， self.x.as_slice（）， &self.transformer.rms_ffn_weight ［layer * self.config.dim.。（layer + 1） * self.config.dim］，）; self.ffn（layer）; // residual connection add_vectors（self.x.as_mut_slice（）， self.xb.as_slice（））; }

非常標(biāo)準(zhǔn)的流程（可回看前面的架構(gòu)圖），先歸一化，然后 MHA，殘差連接，再歸一化，F(xiàn)FN，殘差連接。歸一化的代碼剛剛已經(jīng)看過了，這里唯一的不同是將輸出放到第一個(gè)參數(shù)（即 self.xb）里。add_vectors 就是對(duì)應(yīng)元素值求和，結(jié)果放到第一個(gè)參數(shù)，這個(gè)比較簡單，我們就不放代碼了。重點(diǎn)就是 ffn 和 attn，它們內(nèi)部涉及大量矩陣乘法，我們開始。

先看 ffn，它比較簡單，主要是幾個(gè)矩陣乘法加非線性激活，代碼如下。

fn ffn（&mut self， layer： usize） { let weight_from = layer * self.config.hidden_dim * self.config.dim; let weight_to = （layer + 1） * self.config.hidden_dim * self.config.dim; // gate z2 matmul（ self.hb.as_mut_slice（）， // out：（hidden_dim，） &self.transformer.w1［weight_from..weight_to］， // W：（hidden_dim， dim） self.xb.as_slice（）， // x：（dim，））; // up z1 matmul（ self.hb2.as_mut_slice（）， // out：（hidden_dim，） &self.transformer.w3［weight_from..weight_to］， // W：（hidden_dim， dim） self.xb.as_slice（）， // x：（dim，））; // z3 for i in 0..self.config.hidden_dim { self.hb［i］ = silu（self.hb［i］） * self.hb2［i］; } // down z4 matmul（ self.xb.as_mut_slice（）， // out：（hidden_dim，） &self.transformer.w2［weight_from..weight_to］， // W：（hidden_dim， dim） self.hb.as_slice（）， // x：（dim，））; }

這個(gè)過程和我們《開源代表——LLaMA 結(jié)構(gòu)》一節(jié)中是一一對(duì)應(yīng)的，涉及到的主要是剛剛介紹過的 matmul 和一個(gè) silu，后者我們之前看過它的圖像，代碼如下。

fn silu（x： f32） -》 f32 { x / （1.0 + （-x）.exp（）） }

表達(dá)式如下所示。 $$ ext{SiLU}（x） = frac{x}{1 + e^{-x}} $$ 好了，最后我們把重心放在 attn 這個(gè)方法上，由于逐 Token 生成時(shí)，Query 是當(dāng)前 Token，這沒問題，但 Key 和 Value（Attention 里面的 K和V）是需要?dú)v史 Token 的（不然怎么算注意力）。常見的做法就是把歷史過程中的 K 和 V 緩存起來，每次生成時(shí)順便更新緩存，這樣下次生成時(shí)拿到的就是之前的所有 K 和 V。

先看一下基本的代碼流程，如下所示。

fn attn（&mut self， layer： usize， pos： usize） { // qkv matmuls self.attn_qkv_matmuls（layer）; // apply RoPE rotation to the q and k vectors for each head self.attn_rope（layer， pos）; // Multi-head attention with caching self.cache_kv（layer， pos）; self.multihead_attn（layer， pos）; // wo let weight_from = layer * self.config.dim * self.config.dim; let weight_to = （layer + 1） * self.config.dim * self.config.dim; matmul（ self.xb2.as_mut_slice（）， // out：（dim，） &self.transformer.wo［weight_from..weight_to］， // W：（dim， dim） self.xb.as_slice（）， // x：（dim，））; }

最后的 wo 比較簡單，不再贅述。一開始的 qkv 也比較簡單，都是矩陣乘法，如下所示。

fn attn_qkv_matmuls（&mut self， layer： usize） { let weight_from = layer * self.config.dim * self.config.dim; let weight_to = （layer + 1） * self.config.dim * self.config.dim; matmul（ self.q.as_mut_slice（）， // out：（dim，） &self.transformer.wq［weight_from..weight_to］， // W：（dim， dim） self.xb.as_slice（）， // x：（dim，））; matmul（ self.k.as_mut_slice（）， // out：（dim，） &self.transformer.wk［weight_from..weight_to］， // W：（dim， dim） self.xb.as_slice（）， // x：（dim，））; matmul（ self.v.as_mut_slice（）， // out：（dim，） &self.transformer.wv［weight_from..weight_to］， // W：（dim， dim） self.xb.as_slice（）， // x：（dim，））; }

還剩下三個(gè)方法：attn_rope、cache_kv 和 multihead_attn，我們分別看一下。

第一個(gè)用來加入位置信息，參數(shù)是一開始算好的，這里直接取出對(duì)應(yīng)位置的值進(jìn)行計(jì)算。代碼如下所示。

fn attn_rope（&mut self， layer： usize， pos： usize） { // apply RoPE rotation to the q and k vectors for each head let freq_cis_real_offset = pos * self.config.head_size / 2; let freq_cis_imag_offset = pos * self.config.head_size / 2; for i in （0..self.config.dim）.step_by（2） { let q0 = self.q［i］; let q1 = self.q［i + 1］; let k0 = self.k［i］; let k1 = self.k［i + 1］; let cos = self.transformer.freq_cis_real ［freq_cis_real_offset + （i % self.config.head_size） / 2］; let sin = self.transformer.freq_cis_imag ［freq_cis_imag_offset + （i % self.config.head_size） / 2］; self.q［i］ = q0 * cos - q1 * sin; self.q［i + 1］ = q1 * cos + q0 * sin; self.k［i］ = k0 * cos - k1 * sin; self.k［i + 1］ = k1 * cos + k0 * sin; } }

這部分代碼就是把位置信息注入到 Q 和 K 中，其理論分析比較復(fù)雜，此處不展開。

cache_kv 比較簡單，直接把當(dāng)前的 K 和 V 存起來即可，如下所示。

fn cache_kv（&mut self， layer： usize， pos： usize） { // cache the key， value for the current timestep （pos） let layer_offset = layer * self.config.seq_len * self.config.dim; // offset to get to the cache of the current layer let cache_from = layer_offset + pos * self.config.dim; let cache_to = layer_offset + （pos + 1） * self.config.dim; self.key_cache［cache_from..cache_to］.copy_from_slice（&self.k.as_slice（））; self.value_cache［cache_from..cache_to］.copy_from_slice（&self.v.as_slice（））; }

因?yàn)槲覀儾淮_定用戶生成的 Token 長度，所以就把最大長度（seq_len）的所有位置都占上，因?yàn)槭前磳哟娴模恳粚佣加杏?jì)算，所以需要層的 ID。每一層、每個(gè)位置都緩存 dim 個(gè)中間結(jié)果。

最后就是最重要的 multihead_attn 了，這里面的主要邏輯是計(jì)算 attention 分?jǐn)?shù)，然后得到 attention 之后的結(jié)果，代碼如下。

fn multihead_attn（&mut self， layer： usize， pos： usize） { // offset to get to the cache of the current layer let layer_offset_for_cache = layer * self.config.seq_len * self.config.dim; // 縮放因子 let sqrt_d = （self.config.head_size as f32）.sqrt（）; // att 和 xb 分別按指定大小切塊 // attn_scores每一塊是seq_len長度，共n_head（NH）塊，即按 head 處理 // xb每一塊是head_size長度，共n_head（NH）塊 self.att.par_chunks_exact_mut（self.config.seq_len） .zip（self.xb.par_chunks_exact_mut（self.config.head_size）） .enumerate（） .for_each（|（h，（attn_scores， xb））| { assert_eq！（attn_scores.len（）， self.config.seq_len）; assert_eq！（xb.len（）， self.config.head_size）; // get query vector of the timestep pos for the current head // 第h個(gè)head，Q是當(dāng)前Token，（1， HD） let q_from = h * self.config.head_size; let q_to = （h + 1） * self.config.head_size; let q = &self.q［q_from..q_to］; // Compute temp = （K * q_pos） / sqrt（dim） // K和V是要包含歷史Token，（L， HD） // q @ k.T 得到的是（1，HD）@（HD，L）=（1， L）大小的 attention score // 這里循環(huán)L（pos）次，所以每一個(gè)位置的值是（1，HD）@（HD，1）=（1，1），即點(diǎn)積 for t in 0.。=pos { // key_cache［l， t］ let timestep_and_layer_offset = layer_offset_for_cache + t * self.config.dim; // for the current key， select the correct range which corresponds to the current head let key_vector_from = timestep_and_layer_offset + h * self.config.head_size; let key_vector_to = timestep_and_layer_offset + （h + 1） * self.config.head_size; let key_vector = &self.key_cache［key_vector_from..key_vector_to］; attn_scores［t］ = inner_product（q， key_vector） / sqrt_d; } // softmax the scores to get attention weights， from 0..pos inclusively // 歸一化得到概率 softmax（&mut attn_scores［。.（pos + 1）］）; // Compute temp2^T * V // 計(jì)算加權(quán)的v // attention是（1，L），V是（L，HD），每個(gè)HD的權(quán)重是attention［i］ xb.fill（0.0）; for t in 0.。=pos { // value_cache［l， t］ let timestep_and_layer_offset = layer_offset_for_cache + t * self.config.dim; // for the current value， select the correct range which corresponds to the current head let value_vector_from = timestep_and_layer_offset + h * self.config.head_size; let value_vector_to = timestep_and_layer_offset + （h + 1） * self.config.head_size; let value_vector = &self.value_cache［value_vector_from..value_vector_to］; // weighted sum with attention scores as weights let attention_weight = attn_scores［t］; for i in 0..self.config.head_size { xb［i］ += attention_weight * value_vector［i］; } } }）; }

上面的過程是分 Head 計(jì)算的，需要我們深刻理解前面《開源代表——LLaMA 結(jié)構(gòu)》一小節(jié)的內(nèi)容，具體解釋可以參考代碼里的注釋。值得一提的是，分 Head 計(jì)算是并行的。

另外，有個(gè)新方法 inner_product 是點(diǎn)積，也就是對(duì)應(yīng)元素相乘后求和，代碼如下。

fn inner_product（x： &［f32］， y： &［f32］） -》 f32 { zip（x， y）.fold（0.0， |acc，（a， b）| acc + a * b） }

比較簡單，不再贅述。

生成

最后就是生成（或 Decoding）過程。代碼略有不同，我們先看下。

fn generate（&mut self， prompt_tokens： &Vec《usize》， n_tokens： usize， temperature： f32） -》 Vec《usize》 { let mut tokens = vec！［］; tokens.reserve（n_tokens）; let mut token = BOS_TOKEN; tokens.push（token）; // forward through the prompt to fill up the KV-cache！ for （pos， prompt_token） in prompt_tokens.iter（）.enumerate（） { self.forward（token， pos）; token = *prompt_token; tokens.push（token）; } // complete the prompt for pos in prompt_tokens.len（）。.（n_tokens - 1） { self.forward（token， pos）; if temperature == 0.0 { token = argmax（self.logits.as_slice（））; } else { // Apply temperature and then sample. self.logits.iter_mut（）.for_each（|p| *p = *p / temperature）; softmax（&mut self.logits.as_mut_slice（））; token = sample（self.logits.as_slice（））; } tokens.push（token）; } tokens }

這里有兩個(gè)值得注意的地方。

第一個(gè)是推理 Prompt（即第一次輸入時(shí)的 Context），此時(shí)給定的 Context 是多個(gè) Token 組成的，執(zhí)行該過程目的是填充 KV Cache。

第二個(gè)是采樣過程，temperature=0.0 時(shí)，就是 Greedy Search，每次返回概率最大位置的 Token；否則，會(huì)先應(yīng)用 temperature，然后按照概率分布進(jìn)行采樣。temperature 參數(shù)會(huì)平滑概率分布，值越大，平滑力度越大，更有可能生成多樣的結(jié)果。softmax 用來把一系列值歸一化成概率分布（所有值加起來和為 1.0）。我們重點(diǎn)看看這個(gè) sample 方法，它的主要思想是根據(jù)概率分布進(jìn)行采樣，也就是高概率的位置更容易被采樣到，低概率的位置更不容易被采樣到。代碼如下。

fn sample（probs： &［f32］） -》 usize { let mut rng = rand：：thread_rng（）; let mut cdf = 0.0; let r = rng.gen_range（0.0..1.0）; for （i， p） in probs.iter（）.enumerate（） { cdf += p; if cdf 》 r { return i; } } probs.len（） - 1 }

隨機(jī)生成 0-1 之間的一個(gè)值（均勻分布），計(jì)算累積概率，當(dāng)累積概率大于剛剛生成的值時(shí)，返回此時(shí)的位置。這樣就可以保證是按照概率分布進(jìn)行采樣的。我們舉個(gè)具體的例子，如下所示。

// 假設(shè)概率分布為 probs = ［0.1， 0.2， 0.1， 0.5， 0.1］ // 累積概率為 accu_probs = ［0.1， 0.3， 0.4， 0.9， 1.0］

假設(shè)隨機(jī)值為 r，因?yàn)樗蔷鶆蚍植嫉模月湓诓煌瑓^(qū)間的概率與該區(qū)間的長度成正比。我們看上面的累積概率，可以得出如下結(jié)果。

r落在區(qū)間返回 Index

［0， 0.1）0

［0.1， 0.3）1

［0.3， 0.4）2

［0.4， 0.9）3

［0.9， 1.0）4

也就是說返回 Index=3 的概率為 0.5，其他同理。

拿到 Token 向量后只要用 Tokenizer 解碼即可得到生成的文本。

小結(jié)

本文我們首先簡單介紹了 LLM 相關(guān)的背景，著重討論了關(guān)于 Token 和生成過程，這是應(yīng)用 LLM 時(shí)非常重要的兩個(gè)知識(shí)點(diǎn)。然后我們介紹了開源 LLM 的代表——LLaMA 的模型結(jié)構(gòu)和參數(shù)，給大家一個(gè)整體的感知和認(rèn)識(shí)。最后就是 Rust 的實(shí)現(xiàn)，主要包括配置、參數(shù)、模型和生成四個(gè)方面，其中最重要的就是模型部分，模型部分最重要、也最難理解的是 Multi-Head Attention 的計(jì)算。主要是因?yàn)榫唧w的計(jì)算過程都是把矩陣運(yùn)算給展開了，這需要對(duì)模型有一定程度的理解。

這種展開的寫法其實(shí)是比較底層的實(shí)現(xiàn)，如果能在上面抽象一層，直接操縱矩陣或張量，那計(jì)算起來應(yīng)該會(huì)簡單很多。事實(shí)上，大部分框架都是這么做的，比如 Python 的 NumPy 、PyTorch等，當(dāng)然 Rust 也有類似的框架，比如 NumPy 對(duì)應(yīng)的 ndarray，以及 Rust 版本的深度學(xué)習(xí)框架。使用這些框架時(shí)，我們使用的是矩陣/張量（或者叫多維數(shù)組）這個(gè)對(duì)象，所有的操作也都在這個(gè)粒度進(jìn)行，這無疑極大地提高了編程效率。同時(shí)，還可以利用這些框架底層的性能優(yōu)化。

不過，有時(shí)候當(dāng)我們需要框架暫未支持的更細(xì)致的優(yōu)化、或在一個(gè)框架不支持的設(shè)備上運(yùn)行時(shí)，這種 Pure X（此處為 Rust）的方式就比較方便靈活了。

總的來說，算法是多樣的，實(shí)現(xiàn)更是多樣的，優(yōu)化更更是無止境的，吾輩唯有不斷前行，持續(xù)向上。

審核編輯：黃飛

閱讀全文

gpu(126255) gpu(126255)
rust語言(2955) rust語言(2955)
LLM(229) LLM(229)

評(píng)論

相關(guān)推薦

【比特熊充電棧】實(shí)戰(zhàn)演練構(gòu)建LLM對(duì)話引擎

大模型時(shí)代，安全問題不容小覷。但如果把大模型比作孫悟空，那 NVIDIA NeMo Guardrails 就是“安全護(hù)欄”，可以輕松的為基于 LLM 的對(duì)話系統(tǒng)添加可編程護(hù)欄，來避免大語言模型輸出

2023-09-19 13:40:04

717

R2R和電阻串DAC架構(gòu)差異

　數(shù)模轉(zhuǎn)換器均采用兩種基本架構(gòu)，您對(duì)其特性的了解將有助于為應(yīng)用選擇正確的轉(zhuǎn)換器架構(gòu)。

2011-01-22 10:16:49

6066

運(yùn)動(dòng)控制系統(tǒng)基本架構(gòu)及控制軌跡要點(diǎn)簡述

運(yùn)動(dòng)控制起源于早期的伺服控制,本文與讀者分享的是運(yùn)動(dòng)控制的定義、運(yùn)動(dòng)控制系統(tǒng)的基本架構(gòu)組成以及在運(yùn)動(dòng)控制方面幾項(xiàng)運(yùn)動(dòng)所需控制軌跡等

2013-04-07 10:47:25

3455

AMD Zen處理器基本架構(gòu)首度曝光：32核心

Zen處理器的基礎(chǔ)模塊叫做“Zeppelin”（齊柏林/ZP），今天我們第一次看到了它的基本架構(gòu)圖：可以清楚地看到，每一個(gè)Zeppelin模塊都有8個(gè)物理核心（16個(gè)線程），每核心512KB二級(jí)緩存，同時(shí)每四個(gè)核心共享8MB三級(jí)緩存，那就是總計(jì)4MB二級(jí)緩存、16MB三級(jí)緩存。

2016-07-22 10:45:53

2069

突破邊界：高性能計(jì)算引領(lǐng)LLM駛向通用人工智能AGI的創(chuàng)新紀(jì)元

ChatGPT的成功帶動(dòng)整個(gè)AIGC產(chǎn)業(yè)的發(fā)展，尤其是LLM（大型語言模型，大語言模型）、NLP、高性能計(jì)算和深度學(xué)習(xí)等領(lǐng)域。LLM的發(fā)展將為全球和中國AI芯片、AI服務(wù)器市場(chǎng)的增長提供強(qiáng)勁動(dòng)力，據(jù)估算，LLM將為全球和中國AI服務(wù)器帶來約891.2億美元和338.2億美元的市場(chǎng)空間。

2023-06-25 14:31:15

575

對(duì)比解碼在LLM上的應(yīng)用

為了改進(jìn)LLM的推理能力，University of California聯(lián)合Meta AI實(shí)驗(yàn)室提出將Contrastive Decoding應(yīng)用于多種任務(wù)的LLM方法。實(shí)驗(yàn)表明，所提方法能有效改進(jìn)LLM的推理能力。讓我們走進(jìn)論文一探究竟吧！

2023-09-21 11:37:55

327

低比特量化技術(shù)如何幫助LLM提升性能

針對(duì)大語言模型 (LLM) 在部署過程中的性能需求，低比特量化技術(shù)一直是優(yōu)化效果最佳的方案之一，本文將探討低比特量化技術(shù)如何幫助 LLM 提升性能，以及新版 OpenVINO 對(duì)于低比特量化技術(shù)的支持。

2023-12-08 15:26:45

554

使用基于Transformers的API在CPU上實(shí)現(xiàn)LLM高效推理

英特爾 Extension for Transformers是英特爾推出的一個(gè)創(chuàng)新工具包，可基于英特爾 架構(gòu)平臺(tái)，尤其是第四代英特爾至強(qiáng) 可擴(kuò)展處理器（代號(hào) SapphireRapids，SPR）顯著加速基于Transformers的大語言模型( LargeLanguageModel,LLM)。

2024-01-22 11:11:06

1823

3D模型文件格式之OBJ詳解

`3D模型文件格式之OBJ詳解 2016.4.25 科技蛀蟲 OBJ文件是Alias|Wavefront公司為它的一套基于工作站的3D建模和動(dòng)畫軟件"Advanced

2016-04-27 17:02:59

LLM3225

LLM3225 - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R15H

LLM3225-R15H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R18H

LLM3225-R18H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R33H

LLM3225-R33H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R56H

LLM3225-R56H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R68H

LLM3225-R68H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

一文詳解ARM指令與ARM匯編

1、2、3、ARM嵌入式開發(fā)之ARM指令與ARM匯編入門4、ARM嵌入式開發(fā)之ARM匯編高級(jí)教程與APCS規(guī)范詳解視頻下載地址：內(nèi)容：01_ARM嵌入式開發(fā)之ARM基礎(chǔ)概念介紹...

2021-12-23 06:45:18

一文詳解CNN

，對(duì)應(yīng)數(shù)學(xué)模型的輸入，多個(gè)輸入有不同的權(quán)重細(xì)胞核：用來處理所接收的信息，對(duì)應(yīng)數(shù)學(xué)模型的sum求和+激活函數(shù)f，意味著：當(dāng)信號(hào)大于一定閾值時(shí)，神經(jīng)元處于激活狀態(tài)。軸突：用來將信息傳遞給其它神經(jīng)元

2023-08-18 06:56:34

一文詳解DPU架構(gòu)

的范圍：我們的目標(biāo)是設(shè)計(jì)一種交換架構(gòu)，以將計(jì)算量卸載和分解到網(wǎng)絡(luò)中。在語言級(jí)別，P4的最新版本（P4_16）引入了P4_extern的概念，以描述該語言的標(biāo)準(zhǔn)格式不支持的任何功能。但是，沒有靈活的交換機(jī)

2021-01-08 16:27:42

一文詳解SIMD架構(gòu)與SVE2的演進(jìn)

Arm推出了具有日益強(qiáng)大的安全性和人工智能 (AI) 能力的下一代 Armv9 架構(gòu)。緊隨其后的是推出的全新 Arm Total Compute 解決方案，其中包括首款 Armv9 CPU

2022-08-12 15:50:04

一文解析CXL系統(tǒng)架構(gòu)

CXL.mem和CXL.io。無論哪種類型，CXL.io都是不可缺少的，因?yàn)樵O(shè)備的發(fā)現(xiàn)，枚舉，配置等都是由CXL.io來負(fù)責(zé)。　　傳統(tǒng)的非一致I/O設(shè)備主要依賴于標(biāo)準(zhǔn)的生產(chǎn)者-消費(fèi)者訂單模型

2022-09-14 14:24:52

詳解MIPS架構(gòu)

增長率(CAGR)增長，到2014年，將達(dá)25.73億。對(duì)MCU產(chǎn)品而言，要實(shí)現(xiàn)性能、成本和上市時(shí)間目標(biāo)，關(guān)鍵在于選擇正確的處理器架構(gòu)。本文將概述采用具有業(yè)界領(lǐng)先性能的MIPS?處理器內(nèi)核實(shí)現(xiàn)的一

2019-07-08 07:19:10

詳解linux設(shè)備驅(qū)動(dòng)模型架構(gòu)

LDD3中說：“Linux內(nèi)核需要一個(gè)對(duì)系統(tǒng)結(jié)構(gòu)的一般性描述。”這個(gè)描述就是linux設(shè)備驅(qū)動(dòng)模型（下面簡稱為LDDM）。LDDM不是獨(dú)立存在，其體系如下圖所示：

2019-07-25 07:25:33

Android系統(tǒng)的CPU架構(gòu)

Android CPU 架構(gòu)詳解

2019-04-15 12:00:48

FAT32文件系統(tǒng)詳解

2016-08-17 12:34:56

Hexagon SDK之Audio APPI詳解

Hexagon SDK之Audio APPI詳解 Hexagon SDK包含一些作為創(chuàng)建新的自定義模型和拓?fù)涠x的模板。可以把它們分為兩大類：APPI和CAPI（模版的類別可以通過其名字的appi

2018-09-20 16:53:08

LabVIEW串行通訊的基本架構(gòu)

）?請(qǐng)參考附件的例程。更詳細(xì)的內(nèi)容，參加如下附件的介紹。 LabVIEW、LabVIEW開發(fā)、LabVIEW編程、LabVIEW程序上文中提到的例子和資料，均在word中的附件里，可點(diǎn)擊下載。進(jìn)一步了解，可聯(lián)系們。LabVIEW串行通訊的基本架構(gòu) - 北京瀚文網(wǎng)星科技有限公司 (bjcyck.com)

2022-05-12 21:08:06

NE555中文資料詳解

2012-08-20 13:49:07

NE555中文資料詳解

2012-08-21 09:27:19

NE555中文資料詳解

2012-11-23 22:08:18

THS系統(tǒng)的車輛平臺(tái)Simulink模型搭建

之前談增程式電動(dòng)汽車仿真平臺(tái)時(shí)，用過下圖的仿真軟件架構(gòu)。最近一段時(shí)間，我們想嘗試搭建一個(gè)豐田THS系統(tǒng)仿真平臺(tái)，其基本架構(gòu)也是一樣的。駕駛員模型部分一樣，不用修改；控制策略部分需要大改，因?yàn)榛靹?dòng)控制

2021-08-27 07:59:14

Xilinx FPGA:Virtex-II基本架構(gòu)

Xilinx FPGA:Virtex-II基本架構(gòu)

2012-08-02 23:12:34

arm920t架構(gòu)cpu詳解精選資料推薦

arm920t架構(gòu)cpu詳解1.處理器/DSP2.ARM9系列3.ARM920T CPU結(jié)構(gòu)1.處理器/DSP先來談一下ARM的發(fā)展史：1978年12月5日，物理學(xué)家赫爾曼·豪澤（Hermann

2021-07-16 06:31:34

信息家電的架構(gòu)及業(yè)務(wù)模型是什么？

信息家電的架構(gòu)及業(yè)務(wù)模型是什么？

2021-05-26 06:59:39

單片機(jī)程序架構(gòu)詳解篇

本帖最后由 eehome 于 2013-1-5 09:44 編輯單片機(jī)程序架構(gòu)詳解篇

2012-08-17 15:55:07

基于BES2300系列芯片的audio音頻通路詳解

基于BES2300系列芯片的audio音頻通路詳解引言BES2300X，BES2500X系列博文請(qǐng)點(diǎn)擊這里本文是BES2300X，BES2500X系列博文的audio音頻通路部分目前國內(nèi)市場(chǎng)，BES

2022-02-17 06:51:17

嵌入式架構(gòu)有多重要

原有的代碼。接下來嵌入式ARM便和大家分享一下，嵌入式架構(gòu)那些事兒……01嵌入式系統(tǒng)的基本架構(gòu)嵌入式系統(tǒng)一般由軟件和硬件兩個(gè)部分組成，基中嵌入式處理器、存儲(chǔ)器和外部設(shè)...

2021-10-27 08:15:52

嵌入式項(xiàng)目基本架構(gòu)由哪幾部分組成

嵌入式項(xiàng)目基本架構(gòu)大型項(xiàng)目體系架構(gòu)大型項(xiàng)目由三大部分構(gòu)成：分別是嵌入式終端、上位機(jī)、云服務(wù)器，如下圖所示：嵌入式終端：它的設(shè)計(jì)包含軟硬件兩部分。它的種類最豐富的，既有手機(jī)、平板、觸控板等人

2021-10-28 09:39:06

開放應(yīng)用模型（OAM）：全球首個(gè)云原生應(yīng)用標(biāo)準(zhǔn)定義與架構(gòu)模型

。應(yīng)用組件的概念，讓平臺(tái)架構(gòu)師能夠?qū)?yīng)用分解成一個(gè)個(gè)可被復(fù)用的模塊，這種模塊化封裝應(yīng)用組成部分的思想，代表了一種構(gòu)建安全、高可擴(kuò)展性應(yīng)用的最佳實(shí)踐：它通過一個(gè)完全分布式的架構(gòu)模型，實(shí)現(xiàn)了應(yīng)用組件描述

2019-10-23 10:06:26

請(qǐng)問隔離式ADC架構(gòu)如何利用分流電阻進(jìn)行三相電能計(jì)量？

新型隔離式ADC架構(gòu)利用分流電阻進(jìn)行三相電能計(jì)量詳解

2021-04-07 06:13:56

頻率合成器的高性能架構(gòu)實(shí)現(xiàn)技術(shù)，不看肯定后悔

頻率合成器的高性能架構(gòu)實(shí)現(xiàn)技術(shù)詳解

2021-04-07 06:48:49

TFT基本架構(gòu)及原理

TFT基本架構(gòu)及原理TFT ON / OFF TFT ON / OFF假想示意圖GE 信號(hào)OFF時(shí)Source和Drain是一斷路狀態(tài)電流無法流通使pixel充電GEG-SiNxa-SiSourceDrain電流GE 信號(hào)ON時(shí)Source和Drain是一通路狀態(tài)電流由Drai

2008-11-01 15:10:34

面向模型的動(dòng)態(tài)架構(gòu)

為了使應(yīng)用系統(tǒng)能夠動(dòng)態(tài)調(diào)整以適應(yīng)用戶需求的變化，提出一種面向模型的動(dòng)態(tài)應(yīng)用架構(gòu)。該架構(gòu)以生成的框架對(duì)象實(shí)例來調(diào)度各應(yīng)用構(gòu)件的工作，在框架層解釋模型與構(gòu)件間的引

2009-04-21 09:40:48

RLC層邏輯架構(gòu),RLC子層模型

RLC層邏輯架構(gòu) RLC子層模型

2009-09-18 15:23:21

1090

OpenStack Swift架構(gòu)詳解

OpenStack Swift是OpenStack開源云計(jì)算項(xiàng)目的子項(xiàng)目，被稱為對(duì)象存儲(chǔ)，本內(nèi)容深入詳解了OpenStack Swift架構(gòu)

2012-09-11 11:19:37

12044

基于云計(jì)算的架構(gòu)模型研究

為了構(gòu)建有效、穩(wěn)定的云計(jì)算平臺(tái)環(huán)境并對(duì)其應(yīng)用性能進(jìn)行研究，采用理論分析和實(shí)踐設(shè)計(jì)的方法，研究了云計(jì)算的關(guān)鍵技術(shù)，包括云數(shù)據(jù)中心串聯(lián)、云數(shù)據(jù)存儲(chǔ)管理技術(shù)和云編程模型，提出了- 一個(gè)通用的云計(jì)算架構(gòu)模型

2017-10-11 16:25:42

詳解SOA五種基本架構(gòu)模式

本文詳細(xì)解說了SOA五種基本架構(gòu)模式，面向服務(wù)的架構(gòu)（SOA）已成為連接復(fù)雜服務(wù)系統(tǒng)的主要解決方案。雖然SOA的理論很容易理解，但要部署一個(gè)設(shè)計(jì)良好、真正實(shí)用的SOA系統(tǒng)卻非常困難。本文試圖通過解析SOA的模式，提供與架構(gòu)相關(guān)的技術(shù)指導(dǎo)，進(jìn)而對(duì)以上問題提供詳盡的的解答。

2018-02-07 14:41:39

20957

MOS管模型分類 NMOS的模型圖詳解

MOS管常需要偏置在弱反型區(qū)和中反型區(qū)，就是未來在相同的偏置電流下獲得更高的增益。目前流行的MOS管模型大致可分為兩類，本文將詳解MOS管模型的類型和NMOS的模型圖。

2018-02-23 08:44:00

51664

AliOS Things的基本架構(gòu)和如何在MCU上應(yīng)用AliOS Things的介紹

，Amazon公司的Amazon FreeRTOS，再如開源社區(qū)領(lǐng)袖Linux基金會(huì)推出的Zephyr，以及在國內(nèi)知名度很高的RT-Thread等等。這些物聯(lián)網(wǎng)操作系統(tǒng)各具優(yōu)勢(shì)，小編參與過AliOS Things的開發(fā)，今天就講講AliOS Things的基本架構(gòu)。

2018-11-11 11:29:39

18841

51單片機(jī)的C程序基本架構(gòu)詳細(xì)說明

本文檔的主要內(nèi)容詳細(xì)介紹的是51單片機(jī)的C程序基本架構(gòu)詳細(xì)說明。

2019-08-15 17:32:00

區(qū)塊鏈的概念及架構(gòu)模型介紹

區(qū)塊鏈?zhǔn)鞘裁矗繀^(qū)塊鏈的架構(gòu)模型又是什么？下面是詳解匯總：

2020-11-02 11:44:50

6783

邏輯架構(gòu)模型開發(fā)概念原則詳解

邏輯架構(gòu)模型開發(fā)可以用作“開發(fā)候選架構(gòu)模型和視圖”活動(dòng)的一項(xiàng)任務(wù)，或者系統(tǒng)架構(gòu)定義過程的一個(gè)子過程(參見系統(tǒng)架構(gòu))。它的目的是詳細(xì)描述未來工程系統(tǒng)的功能和行為的模型和視圖，因?yàn)樗鼞?yīng)該在服務(wù)中運(yùn)行

2021-02-17 09:59:00

4306

一文詳解邊緣計(jì)算的參考架構(gòu)3.0

該參考架構(gòu)基于模型驅(qū)動(dòng)的工程方法（Model-Driven Engineering，MDE）進(jìn)行設(shè)計(jì)，如圖3-1所示，可將物理和數(shù)字世界的知識(shí)模型化，從而實(shí)現(xiàn)以下目標(biāo)。

2021-01-17 11:54:55

17341

MT-016: DAC基本架構(gòu)III：分段DAC

MT-016: DAC基本架構(gòu)III：分段DAC

2021-03-20 09:03:46

MT-014:DAC基本架構(gòu)I, DAC串和溫度計(jì)(完全解碼)DAC

MT-014:DAC基本架構(gòu)I, DAC串和溫度計(jì)(完全解碼)DAC

2021-03-20 10:28:31

MT-015: DAC基本架構(gòu)II：二進(jìn)制DAC

MT-015: DAC基本架構(gòu)II：二進(jìn)制DAC

2021-03-21 03:49:51

嵌入式項(xiàng)目基本架構(gòu)

2021-10-21 12:21:08

詳解ADC和DAC的基本架構(gòu)

工程師們會(huì)毫不猶豫地給出答案——使用ADC與DAC。模數(shù)轉(zhuǎn)換器(ADC)和數(shù)模轉(zhuǎn)換器(DAC)是將模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)或?qū)?shù)字信號(hào)轉(zhuǎn)換成模擬信號(hào)的器件。在此方面，ADI公司擁有齊全的數(shù)據(jù)轉(zhuǎn)換器產(chǎn)品系列，DAC涵蓋8位至24位，面向工業(yè)自動(dòng)化、可編程邏輯控制器、光收發(fā)器、數(shù)據(jù)采集等各種應(yīng)用，能夠提供精確可靠、無與倫比的轉(zhuǎn)換性能和價(jià)值;ADC可在各類應(yīng)用中實(shí)現(xiàn)精確可靠的轉(zhuǎn)換性能，包括通信、能源、醫(yī)療、儀器儀表和測(cè)量、電機(jī)和功率控制、工業(yè)自動(dòng)化等。

2022-03-01 09:59:22

7299

無線網(wǎng)絡(luò)協(xié)議的基本架構(gòu)解析

許多新興物聯(lián)網(wǎng)（IoT）無線網(wǎng)絡(luò)協(xié)議的基礎(chǔ)是兩種基本架構(gòu)：星形網(wǎng)絡(luò)和網(wǎng)狀網(wǎng)絡(luò)。

2022-04-16 16:29:52

3376

余壓監(jiān)控系統(tǒng)的基本架構(gòu)和功能及實(shí)際應(yīng)用

【摘要】：本文介紹了余壓監(jiān)控系統(tǒng)的基本架構(gòu)和功能，結(jié)合某高層住宅建設(shè)實(shí)例分析了高層民用建筑中設(shè)置此系統(tǒng)的優(yōu)點(diǎn)與必要性，總結(jié)了余壓監(jiān)控系統(tǒng)的功能用于高層建筑物中樓梯間和前室、前室和走道之間

2022-06-12 11:03:36

890

三相正弦波逆變電源電原理圖(基本架構(gòu)）REV1.0

弦波逆變電源電原理圖(基本架構(gòu)) ?REV1[1].0

2023-01-29 09:48:31

介紹一種基于Transformer的大語言模型

大模型的研究者和大公司出于不同的動(dòng)機(jī)站位 LLM，研究者出于對(duì) LLM 的突現(xiàn)能力 (emergent ability) 的好奇和對(duì) LLM 對(duì) NLP 領(lǐng)域能力邊界的拓展、而大公司可能更多出自于商業(yè)利益考量；

2023-02-21 18:05:10

940

Flume的基本架構(gòu)以及使用案例

在大數(shù)據(jù)時(shí)代背景下，如何采集出有用的信息已經(jīng)是大數(shù)據(jù)發(fā)展的關(guān)鍵因素之一，數(shù)據(jù)采集可以說是大數(shù)據(jù)產(chǎn)業(yè)的基石。Flume作為開源的數(shù)據(jù)采集系統(tǒng)，受到了業(yè)界的認(rèn)可與廣泛應(yīng)用。本文將帶你了解Flume的基本架構(gòu)以及使用案例等。

2023-03-29 13:39:54

1088

獲取大語言模型（LLM）核心開發(fā)技能，報(bào)名 NVIDIA DLI 實(shí)戰(zhàn)培訓(xùn)

ChatGPT 的誕生，帶來了 AI 產(chǎn)業(yè)的 “iPhone 時(shí)刻”，其成功背后大語言模型（Large Language Model，LLM）的商業(yè)價(jià)值正逐步被揭示和成為現(xiàn)實(shí)。隨著 LLM 技術(shù)

2023-04-05 00:25:03

416

如何利用LLM做多模態(tài)任務(wù)？

大型語言模型LLM（Large Language Model）具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力，但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力，但目前還未開放多模態(tài)輸入接口并且不會(huì)透露任何模型上技術(shù)細(xì)節(jié)。因此，現(xiàn)階段，如何利用LLM做一些多模態(tài)任務(wù)還是有一定的研究價(jià)值的。

2023-05-11 17:09:16

648

邱錫鵬團(tuán)隊(duì)提出具有內(nèi)生跨模態(tài)能力的SpeechGPT，為多模態(tài)LLM指明方向

大型語言模型（LLM）在各種自然語言處理任務(wù)上表現(xiàn)出驚人的能力。與此同時(shí)，多模態(tài)大型語言模型，如 GPT-4、PALM-E 和 LLaVA，已經(jīng)探索了 LLM 理解多模態(tài)信息的能力。然而，當(dāng)前

2023-05-22 14:38:06

417

LLM性能的主要因素

目前主要的模型的參數(shù) LLaMA系列是否需要擴(kuò)中文詞表不同任務(wù)的模型選擇影響LLM性能的主要因素 Scaling Laws for Neural Language Models OpenAI的論文

2023-05-22 15:26:20

1148

如何利用LLM做多模態(tài)任務(wù)？

大型語言模型LLM（Large Language Model）具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力，但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力，但目前還未開放多模態(tài)輸入接口

2023-05-22 15:57:33

466

LLM在各種情感分析任務(wù)中的表現(xiàn)如何

? 最近幾年，GPT-3、PaLM和GPT-4等LLM刷爆了各種NLP任務(wù)，特別是在zero-shot和few-shot方面表現(xiàn)出它們強(qiáng)大的性能。因此，情感分析(SA)領(lǐng)域也必然少不了LLM的影子

2023-05-29 17:24:41

1379

微軟將向美國政府客戶提供OpenAI的GPT模型

微軟增加了對(duì)大型語言模型（llm）的支持。openai推出chatgpt后，llm的使用大幅增加，微軟持有openai的股份，許多類型的公司爭相在llm上構(gòu)建功能。

2023-06-08 10:35:43

759

大型語言模型（LLM）的自定義訓(xùn)練：包含代碼示例的詳細(xì)指南

近年來，像 GPT-4 這樣的大型語言模型（LLM）因其在自然語言理解和生成方面的驚人能力而受到廣泛關(guān)注。但是，要根據(jù)特定任務(wù)或領(lǐng)域定制LLM，定制培訓(xùn)是必要的。本文提供了有關(guān)自定義訓(xùn)練 LLM 的詳細(xì)分步指南，其中包含代碼示例和示例。

2023-06-12 09:35:43

1782

基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)如何測(cè)試大語言模型(LLM)的純因果推理能力

? 因果推理是人類智力的標(biāo)志之一。因果關(guān)系NLP領(lǐng)域近年來引起了人們的極大興趣，但其主要依賴于從常識(shí)知識(shí)中發(fā)現(xiàn)因果關(guān)系。本研究提出了一個(gè)基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)來測(cè)試大語言模型(LLM

2023-06-20 15:39:05

1223

基于Transformer的大型語言模型（LLM）的內(nèi)部機(jī)制

工作原理變得越來越重要。更好地理解這些模型是如何做出決策的，這對(duì)改進(jìn)模型和減輕其故障（如幻覺或推理錯(cuò)誤）至關(guān)重要。眾所周知，最近 LLM 成功的一個(gè)重要因素是它們能夠從上下文中學(xué)習(xí)和推理。LLM 對(duì)這些上下文的學(xué)習(xí)能力通常歸功于 Transformer 架構(gòu)，特別

2023-06-25 15:08:49

991

基于一個(gè)完整的 LLM 訓(xùn)練流程

? ? 在這篇文章中，我們將盡可能詳細(xì)地梳理一個(gè)完整的 LLM 訓(xùn)練流程。包括模型預(yù)訓(xùn)練（Pretrain）、Tokenizer 訓(xùn)練、指令微調(diào)（Instruction Tuning）等環(huán)節(jié)。文末

2023-06-29 10:08:59

1202

基石DDPM（模型架構(gòu)篇），最詳細(xì)的DDPM架構(gòu)圖解

DDPM（模型架構(gòu)篇）：也就是本篇文章。在閱讀源碼的基礎(chǔ)上，本文繪制了詳細(xì)的DDPM模型架構(gòu)圖，同時(shí)附上關(guān)于模型運(yùn)作流程的詳細(xì)解說。本文不涉及數(shù)學(xué)知識(shí)，直觀幫助大家了解DDPM怎么用，為什么好用。

2023-06-29 16:32:59

5648

最新綜述！當(dāng)大型語言模型（LLM）遇上知識(shí)圖譜：兩大技術(shù)優(yōu)勢(shì)互補(bǔ)

LLM 是黑箱模型，缺乏可解釋性，因此備受批評(píng)。LLM 通過參數(shù)隱含地表示知識(shí)。因此，我們難以解釋和驗(yàn)證 LLM 獲得的知識(shí)。此外，LLM 是通過概率模型執(zhí)行推理，而這是一個(gè)非決斷性的過程。對(duì)于 LLM 用以得出預(yù)測(cè)結(jié)果和決策的具體模式和功能，人類難以直接獲得詳情和解釋。

2023-07-10 11:35:00

1354

RetNet架構(gòu)和Transformer架構(gòu)對(duì)比分析

微軟研究院最近提出了一個(gè)新的 LLM 自回歸基礎(chǔ)架構(gòu) Retentive Networks （RetNet）[1,4]，該架構(gòu)相對(duì)于 Transformer 架構(gòu)的優(yōu)勢(shì)是同時(shí)具備:訓(xùn)練可并行、推理成本低和良好的性能，不可能三角。

2023-07-26 10:44:47

933

一個(gè)簡單模型就讓ChatGLM性能大幅提升 | 最“in”大模型

引言自大語言模型 (LLM) 成為熱點(diǎn)話題以來，涌現(xiàn)了一大批中文大語言模型并在優(yōu)化平臺(tái)中得到了積極部署。 ChatGLM 正是廣受好評(píng)的主流中文 LLM 之一。然而，由于 ChatGLM 模型

2023-08-19 11:15:10

435

MLC-LLM的編譯部署流程

MLC-LLM部署在各種硬件平臺(tái)的需求，然后我就開始了解MLC-LLM的編譯部署流程和RWKV World模型相比于MLC-LLM已經(jīng)支持的Raven系列模型的特殊之處。 MLC-LLM的編譯部署流程

2023-09-04 09:22:46

1569

盤古大模型與ChatGPT的模型基礎(chǔ)架構(gòu)

華為盤古大模型以Transformer模型架構(gòu)為基礎(chǔ)，利用深層學(xué)習(xí)技術(shù)進(jìn)行訓(xùn)練。模型的每個(gè)數(shù)量達(dá)到2.6億個(gè)，是目前世界上最大的漢語預(yù)備訓(xùn)練模型之一。這些模型包含許多小模型，其中最大的模型包含1億4千萬個(gè)參數(shù)。

2023-09-05 09:55:56

1229

檢索增強(qiáng)LLM的方案全面的介紹

分分享了 ChatGPT 這類模型是如何一步一步訓(xùn)練的，后半部分主要分享了 LLM 模型的一些應(yīng)用方向，其中就對(duì)檢索增強(qiáng) LLM 這個(gè)應(yīng)用方向做了簡單介紹。

2023-09-08 16:39:55

799

射頻T/R模塊的組成及架構(gòu)

系列(二)主要講述了T/R模塊的基本架構(gòu)及T/R設(shè)計(jì)需要具備的知識(shí)儲(chǔ)備。

2023-09-09 10:13:20

1658

大語言模型（LLM）預(yù)訓(xùn)練數(shù)據(jù)集調(diào)研分析

model 訓(xùn)練完成后，使用 instruction 以及其他高質(zhì)量的私域數(shù)據(jù)集來提升 LLM 在特定領(lǐng)域的性能；而 rlhf 是 openAI 用來讓model 對(duì)齊人類價(jià)值觀的一種強(qiáng)大技術(shù)；pre-training dataset 是大模型在訓(xùn)練時(shí)真正喂給 model 的數(shù)據(jù)，從很多 paper 能看到一些觀

2023-09-19 10:00:06

506

從原理到代碼理解語言模型訓(xùn)練和推理，通俗易懂，快速修煉LLM

要理解大語言模型（LLM），首先要理解它的本質(zhì)，無論預(yù)訓(xùn)練、微調(diào)還是在推理階段，核心都是next token prediction，也就是以自回歸的方式從左到右逐步生成文本。

2023-09-19 16:25:47

519

mlc-llm對(duì)大模型推理的流程及優(yōu)化方案

在 MLC-LLM 部署RWKV World系列模型實(shí)戰(zhàn)（3B模型Mac M2解碼可達(dá)26tokens/s）中提到要使用mlc-llm部署模型首先需要一個(gè)編譯過程，將原始的基于Realx搭建的模型

2023-09-26 12:25:55

383

現(xiàn)已公開發(fā)布！歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語言模型推理

NVIDIA 于 2023 年 10 月 19 日公開發(fā)布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和優(yōu)化最新的大語言模型（Large Language Models）的推理性

2023-10-27 20:05:02

478

Hugging Face LLM部署大語言模型到亞馬遜云科技Amazon SageMaker推理示例

?本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開源LLMs，比如BLOOM大型語言模型部署到亞馬遜云科技Amazon SageMaker進(jìn)行推理的示例。我們將部署12B

2023-11-01 17:48:42

422

大模型在軟件研發(fā)中發(fā)揮哪些作用？

下面我們看一下大家對(duì)大模型（LLM）的態(tài)度，絕大多數(shù)（68.7%）是擁抱LLM，關(guān)注、開始使用或積極使用LLM的，說明但也有1/4的團(tuán)隊(duì)或公司處在觀望中，而只是很少的團(tuán)隊(duì)（6.3%）不了解LLM。

2023-11-12 11:25:03

610

基于檢索的大語言模型簡介

簡介章節(jié)講的是比較基礎(chǔ)的，主要介紹了本次要介紹的概念，即檢索（Retrieval）和大語言模型（LLM）

2023-11-15 14:50:36

282

使用MLC-LLM支持RWKV-5推理的過程思考

對(duì)LLM的理解比較有限，從代碼實(shí)現(xiàn)的角度來說，RWKV的狀態(tài)和KV Cache不同，不依賴序列長度，這讓RWKV模型在各種長度下運(yùn)行內(nèi)存和運(yùn)行速度都是趨于穩(wěn)定的，所以我感覺工程價(jià)值是比基于Transformer架構(gòu)比如Llama更好的，部署的性價(jià)比會(huì)天然更優(yōu)。

2023-11-19 15:58:57

502

Long-Context下LLM模型架構(gòu)全面介紹

的限制:當(dāng)前許多LLM受資源限制，主要是在較短的文本上進(jìn)行預(yù)訓(xùn)練，使它們對(duì)現(xiàn)實(shí)世界中常見的較長的上下文提示不太有效。本文對(duì)基于Transformer的LLM模型架構(gòu)的進(jìn)展進(jìn)行了全面的介紹。

2023-11-27 17:37:36

440

怎樣使用Accelerate庫在多GPU上進(jìn)行LLM推理呢？

大型語言模型(llm)已經(jīng)徹底改變了自然語言處理領(lǐng)域。隨著這些模型在規(guī)模和復(fù)雜性上的增長，推理的計(jì)算需求也顯著增加。

2023-12-01 10:24:52

396

全面解析大語言模型（LLM）

internal feedback：使用LLM去預(yù)測(cè)生成的plan取得成功的概率、Tree of Thought去對(duì)比不同的plan（有點(diǎn)類似AlphaGo的蒙特卡諾搜索的意思）、對(duì)中間結(jié)果進(jìn)行評(píng)估并作為長期記憶存儲(chǔ)

2023-12-05 14:49:47

857

智能座艙的基本架構(gòu)有哪些

智能座艙是指通過集成信息技術(shù)，將智能化設(shè)備和系統(tǒng)應(yīng)用于飛機(jī)座艙的一種新的航空技術(shù)發(fā)展趨勢(shì)。其目的是提升航空安全、提高飛行效率、增強(qiáng)乘客體驗(yàn)、降低維護(hù)成本等。智能座艙的基本架構(gòu)包括以下幾個(gè)方面：機(jī)載

2023-12-19 10:34:43

686

優(yōu)于10倍參數(shù)模型！微軟發(fā)布Orca 2 LLM

微軟發(fā)布 Orca 2 LLM，這是 Llama 2 的一個(gè)調(diào)優(yōu)版本，性能與包含 10 倍參數(shù)的模型相當(dāng)，甚至更好。

2023-12-26 14:23:16

247

2023年大語言模型(LLM)全面調(diào)研：原理、進(jìn)展、領(lǐng)跑者、挑戰(zhàn)、趨勢(shì)

大型語言模型(LLM)是基于人工智能的先進(jìn)模型，經(jīng)過訓(xùn)練，它可以密切反映人類自然交流的方式處理和生成人類語言。這些模型利用深度學(xué)習(xí)技術(shù)和大量訓(xùn)練數(shù)據(jù)來全面理解語言結(jié)構(gòu)、語法、上下文和語義。

2024-01-03 16:05:25

441

安霸發(fā)布N1系列生成式AI芯片支持前端設(shè)備運(yùn)行本地LLM應(yīng)用

單顆 SoC 支持 1 至 340 億參數(shù)的多模態(tài)大模型（Multi-Modal LLM）推理，實(shí)現(xiàn)前端低功耗生成式 AI。

2024-01-09 15:19:33

597

2023年LLM大模型研究進(jìn)展

作為做LLM應(yīng)用的副產(chǎn)品，我們提出了RLCD[11]，通過同時(shí)使用正例和負(fù)例prompt，自動(dòng)生成帶標(biāo)簽的生成樣本不需人工標(biāo)注，然后可以接大模型微調(diào)，或者用于訓(xùn)練reward models

2024-01-19 13:55:33

178

100%在樹莓派上執(zhí)行的LLM項(xiàng)目

ChatGPT的人性口語化回復(fù)相信許多人已體驗(yàn)過，也因此掀起一波大型語言模型（Large Language Model, LLM）熱潮，LLM即ChatGPT背后的主運(yùn)作技術(shù)，但LLM運(yùn)作需要龐大運(yùn)算力，因此目前多是在云端（Cloud）上執(zhí)行。

2024-02-29 16:29:59

476

基于NVIDIA Megatron Core的MOE LLM實(shí)現(xiàn)和訓(xùn)練優(yōu)化

本文將分享阿里云人工智能平臺(tái) PAI 團(tuán)隊(duì)與 NVIDIA Megatron-Core 團(tuán)隊(duì)在 MoE (Mixture of Experts) 大語言模型（LLM）實(shí)現(xiàn)與訓(xùn)練優(yōu)化上的創(chuàng)新工作。

2024-03-22 09:50:37

已全部加載完成

搜索歷史

一文詳解LLM模型基本架構(gòu)

評(píng)論