baichuan-7B 主要是參考LLaMA進(jìn)行的改進(jìn),且模型架構(gòu)與LLaMA一致。而在開源大模型中,LLaMA無(wú)疑是其中最閃亮的星,但LLaMA存在如下問(wèn)題:
LLaMA 原生僅支持 Latin 或 Cyrillic 語(yǔ)系,只使用了少量中文數(shù)據(jù)集進(jìn)行訓(xùn)練,因此,對(duì)于中文支持不是特別理想。
原版LLaMA模型的詞表大小是32K,僅有少量中文詞,對(duì)于中文的解碼效率較低。
baichuan-7B的改進(jìn)如下:
效果改進(jìn):用于提升模型的效果以及解碼效率。
分詞改進(jìn):詞表大小為64K(使用2000萬(wàn)條以中英為主的多語(yǔ)言語(yǔ)料訓(xùn)練分詞模型,顯著提升對(duì)于中文的壓縮率),而LLaMA詞表大小為32K。
數(shù)據(jù)集改進(jìn):使用了大約 1.2T 中英 tokens 進(jìn)行訓(xùn)練(基于開源的中英文數(shù)據(jù)和自行抓取的中文互聯(lián)網(wǎng)數(shù)據(jù)以及部分高質(zhì)量知識(shí)性數(shù)據(jù)進(jìn)行的數(shù)據(jù)清洗),而 LLaMA 7B 使用 1T 英文 tokens 進(jìn)行訓(xùn)練。
技術(shù)改進(jìn):用于提升訓(xùn)練穩(wěn)定性和吞吐量。
算子優(yōu)化技術(shù):采用更高效算子,如 Flash-attention,NVIDIA apex 的 RMSNorm 等。
算子切分技術(shù):將部分計(jì)算算子進(jìn)行切分,減小內(nèi)存峰值。
混合精度技術(shù):降低在不損失模型精度的情況下加速計(jì)算過(guò)程。
訓(xùn)練容災(zāi)技術(shù):訓(xùn)練平臺(tái)和訓(xùn)練框架聯(lián)合優(yōu)化,IaaS + PaaS 實(shí)現(xiàn)分鐘級(jí)的故障定位和任務(wù)恢復(fù)。
通信優(yōu)化技術(shù),具體包括:
采用拓?fù)涓兄募贤ㄐ潘惴?,避?a target="_blank">網(wǎng)絡(luò)擁塞問(wèn)題,提高通信效率。
根據(jù)卡數(shù)自適應(yīng)設(shè)置 bucket size,提高帶寬利用率。
根據(jù)模型和集群環(huán)境,調(diào)優(yōu)通信原語(yǔ)的觸發(fā)時(shí)機(jī),從而將計(jì)算和通信重疊。
此外,該模型開源可商用,也算是一個(gè)優(yōu)勢(shì)吧。
可以看到,現(xiàn)在的大模型,從算法層面改進(jìn)的空間似乎很小了,更多的是從工程和數(shù)據(jù)層面上進(jìn)行改進(jìn)從而來(lái)提升其性能。
最后,希望國(guó)產(chǎn)大模型越來(lái)越好~~
責(zé)任編輯:彭菁
-
帶寬
+關(guān)注
關(guān)注
3文章
953瀏覽量
41076 -
開源
+關(guān)注
關(guān)注
3文章
3402瀏覽量
42711 -
模型
+關(guān)注
關(guān)注
1文章
3305瀏覽量
49220
原文標(biāo)題:百川智能開源大模型baichuan-7B剖析
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論