那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

1-2B參數規模大模型的使用心得

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-12-28 11:47 ? 次閱讀

來自:劉聰NLP

寫在前面

大模型時代,根據大模型縮放定律,大家通常都在追求模型的參數規模更大、訓練的數據更多,從而使得大模型涌現出更多的智能。但是,模型參數越大部署壓力就越大。即使有gptq、fastllm、vllm等推理加速方法,但如果GPU資源不夠也很難保證高并發。

那么如何在模型變小的同時,模型效果不明顯下降,在指定任務上也可以媲美大模型的效果呢?

Google前幾天發布的Gemini,在移動端采用1.8B參數模型面向低端手機,3.25B參數模型面向高端手機。

dd7000f8-a091-11ee-8b88-92fbcf53809c.png

An overview of the Gemini 1.0 model family

而微軟最近也是推出了2.7B的Phi-2模型,評測效果絕群。

dd814c96-a091-11ee-8b88-92fbcf53809c.png

Averaged performance on grouped benchmarks compared to popular open-source SLMs

dd8e5508-a091-11ee-8b88-92fbcf53809c.png

Comparison between Phi-2 and Gemini Nano 2 Model on Gemini’s reported benchmarks

恰好筆者前段時間也在研究1-2B參數量左右的模型,因此寫寫心得體會;并匯總了一下現在市面上開源的1-2B參數量的大模型。

這波反向操作,佛曰:不可說。

如何使大模型變小

模型壓縮的方法包括:用更多的數據硬訓練小模型、通過大模型對小模型進行蒸餾、通過大模型對小模型進行剪枝、對大模型進行量化、對大模型進行低秩分解。

dd942064-a091-11ee-8b88-92fbcf53809c.png

Taxonomy of Model Compression methods for Large Language Models

但是模型參數量變小還是硬訓練或蒸餾一個參數量小的模型,剪枝和量化只是對模型進行推理加速,本質上參數量沒有變少。

對于預訓練階段來說,往往需要更多的數據硬訓練。參數規模不夠,只能數據質量和數據數量來湊。

ddd00b60-a091-11ee-8b88-92fbcf53809c.png

Textbooks Are All You Need

而在指令微調階段,往往是蒸餾更優秀的大模型,來讓小模型效果更好。利用GPT3.5、GPT4的數據直接指令微調是對閉源大模型蒸餾的方法之一,也是目前大家主流的做法。但也可以在蒸餾過程中,利用閉源大模型充當一個裁判來判別教師模型回答和學生模型回答的差異,讓學生模型向老師模型(閉源)進行反饋,重點是找到困難數據讓學生模型進行更好的學習。

dde1f2ee-a091-11ee-8b88-92fbcf53809c.png

Lion: Adversarial Distillation of Proprietary Large Language Models

當然如果你本身擁有更大更好的大模型,那么就可以用標準的知識蒸餾來進行模型蒸餾,利用KL散度,對教師模型和學生模型輸出概率分布之間的差異進行訓練學習。

將更大模型的效果蒸餾到小模型上,會比硬訓練的效果要理想,但首先要有一個可獲取網絡各層logits的大&好&強的模型。

訓練1-2B參數規模使我痛并快樂

訓練1-2B模型讓我又找到了全量調參的快樂,之前受顯卡限制,都是Lora、QLora等方法訓練。

模型部署階段,再也不用為顯存發愁,老卡也輕輕松松進行模型部署。對于2B模型,Float32進行參數部署也就8G、Float16就需要4G,如果再做量化的話更小,甚至CPU部署速度也可以接受。

同等數據情況下,效果確實不如更大的模型。以Qwen1.8B和7B為例,在自己任務上指標差了7-10個點。

在個人任務上,通過增加數據,將訓練數據擴大2-4倍并提高數據質量之后,效果基本上可以媲美。

小模型在沒有定制優化的任務上,就一言難盡了,泛化能力等都遠不如更大的模型。

用了小模型之后,再也沒被吐槽過速度了。

主流1-2B參數規模的大模型匯總

共整理了14個1-2B參數規模的大模型,按照參數量從大到小排序,如下所示。

ddec2c6e-a091-11ee-8b88-92fbcf53809c.png

PS: HF訪問不了的小伙伴,可以看一下《大模型下載使我痛苦》。

Yuan2.0-2B

Yuan2.0-2B是浪潮發布的Yuan2.0大模型的2B版本,采用中英文的高質量資料,包括書籍、百科、論文等。Yuan2.0-2B模型層數24層,隱藏層維度2048,支持最大長度8192。

Qwen-1.8B

Qwen-1.8B是阿里發布的Qwen大模型的1.8B版本,采用2.2TB Token的數據進行預訓練,包含高質量中、英、多語言、代碼、數學等數據,涵蓋通用及專業領域的訓練語料。Yuan2.0-2B模型層數24層,隱藏層維度2048,支持最大長度8192,并且開源了對應的Chat模型。

Bloom-1.7B&1.1B

Bloom-1.7B&1.1B是Hugging Face牽頭組織的BigScience項目開源的Bloom大模型的1.7B和1.1B版本。訓練數據涉及46種自然語言和13種編程語言,共計1.6TB的文本數據。Bloom-1.7B模型層數24層,隱藏層維度2048,支持最大長度2048。Bloom-1.1B模型層數24層,隱藏層維度1536,支持最大長度2048。

Pythia-1.4B&1B

Pythia-1.4B&1B是EleutherAI開源的Pythia的1.4B和1B版本。主要使用300B Token的The Pile數據集進行訓練。Pythia-1.4B模型層數24層,隱藏層維度2048。Pythia-1B模型層數16層,隱藏層維度2048。

Phi-1&Phi-1.5

Phi-1&Phi-1.5是微軟開源的Phi大模型的兩個不同版本,均有1.3B參數,模型層數24層,隱藏層維度2048。Phi-1模型訓練54B Token的數據,而Phi-1.5模型訓練150B Token的數據。

Deepseek-Coder-1.3B

Deepseek-Coder-1.3B是深度求索發布開源的Deepseek-Coder的1.3B版本,采用1TB Token的數據進行預訓練,數據由87%的代碼和13%的中英文自然語言組成,模型層數24層,隱藏層維度2048。

Galactica-1.3B

Galactica-1.3b是MetaAI開源的Galactica大模型的1.3B版本,采用106B Token數據進行訓練,數據主要來自論文、參考資料、百科全書和其他科學來源等。模型層數24層,隱藏層維度2048。

GPT-Sw3-1.3B

GPT-Sw3-1.3B是AI Sweden開源的GPT-SW3大模型的1.3B版本,采用320B Token數據進行訓練,數據主要由瑞典語、挪威語、丹麥語、冰島語、英語和編程代碼數據集組成。模型層數24層,隱藏層維度2048。

GPT-Neo-1.3B

GPT-Neo-1.3B是EleutherAI開源的GPT-Neo大模型的1.3B版本,GPT-Neo模型主要為了復現的GPT-3模型,采用380B Token數據進行訓練,模型層數24層,隱藏層維度2048。

OPT-1.3B

OPT-1.3B模型是由MetaAI開源的OPT大模型的1.3B版本,采用180B Token數據進行訓練,模型層數24層,隱藏層維度2048。

TinyLlama-1.1B

TinyLlama模型是一個1.1B參數的Llama模型,旨在3TB Token的數據上進行訓練,目前訓練到2.5TB Token數據,模型層數22層,隱藏層維度2048。

寫到最后

如果領導非要部署大模型,但對效果要求沒有那么高,又沒有資源支持,那么選擇一個1-2B的模型也是不錯的呦。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 手機
    +關注

    關注

    35

    文章

    6897

    瀏覽量

    158257
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4774

    瀏覽量

    129353
  • 參數
    +關注

    關注

    11

    文章

    1859

    瀏覽量

    32427
  • 開源
    +關注

    關注

    3

    文章

    3402

    瀏覽量

    42712
  • 大模型
    +關注

    關注

    2

    文章

    2545

    瀏覽量

    3165

原文標題:1-2B參數規模大模型使用心得及模型匯總

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【MATLAB使用心得匯總——Tips6 】

    本帖最后由 maxfiner 于 2013-12-12 12:48 編輯 MATLAB使用心得匯總——Tips6 變量使用前要預先定義大小。對于大變量來說,至關重要。如下例,僅僅是長度
    發表于 12-12 12:47

    濾波電容的使用心得

    圖說濾波電容的使用心得,非常詳細,不信你還不懂~
    發表于 07-18 15:23

    關于Spartan6板子的使用心得

    給大家分享一下關于Spartan6板子的使用心得
    發表于 04-30 07:03

    NE555關于計數器的使用心得

    NE555關于計數器的使用心得1.一般使用定時器0作為計數器這時使用定時器0的模式2(這種無需人為重裝,由硬件自動重裝)2.使用定時器1作為
    發表于 07-22 06:50

    TFT LCD使用心得

    TFT LCD使用心得體會的原因是,最近一段時間工作上一直在使用TFT LCD,主要是3.5寸LCD,以SAMSUNG的LTV350QV及其一些臺灣的兼容產品為主。工作的內容就是把這些屏在我們的產品上應用起
    發表于 10-16 13:04 ?45次下載

    詳細談談TFT LCD 的使用心得

    深入談談TFT LCD 的使用心得最近一段時間工作上一直在使用TFT LCD,主要是3、5 寸LCD,以SAMSUNG 的LTV350QV 及其一些臺灣的兼容產品為主。工作的內容就是把這些屏在我們的產品上
    發表于 03-18 17:49 ?3次下載

    CAD使用心得之五:圖層控制、視圖調整、圖形選擇

    CAD使用心得之五 圖層控制命令、視圖命令、圖元選擇方式 圖層控制命令和視圖命令都是輔助繪圖的命令,但是運用這些命令的關鍵,在于是否熟練,這將會極大的影響繪圖的效率。 先
    發表于 10-19 17:08 ?1976次閱讀

    ADXL345芯片使用心得

    ADXL345芯片使用心得,介紹使用傳感器過程的使用體會
    發表于 05-11 11:08 ?23次下載

    數字溫濕度傳感器DHT11使用心得

    一點溫濕度傳感器DHT11使用心得
    發表于 04-14 15:35 ?7次下載

    無線藍牙模塊CC2540使用心得

    CC2540作為一個超低消耗功率的真正系統單晶片已經得到普遍運用。本文開始介紹了CC2540的定義與CC2540應用市場,其次闡述了CC2540主要功能,最后詳細闡述了無線藍牙模塊CC2540的使用心得
    發表于 03-09 15:05 ?1.9w次閱讀

    Django教程之Django的使用心得詳細資料免費下載

    本文檔的主要內容詳細介紹的是Django教程之Django的使用心得詳細資料免費下載。
    發表于 10-17 18:03 ?11次下載
    Django教程之Django的使<b class='flag-5'>用心得</b>詳細資料免費下載

    Aultium Designer 的使用心得和基本電路圖的搭建

    Aultium Designer 的使用心得和基本電路圖的搭建總結一下我上學期學習AD的心得和見解。新手見諒,權當積累經驗。關于版本的問題:我用過18和20的版本,個人感覺18的漏洞很大,20優化
    發表于 11-24 14:36 ?9次下載
    Aultium Designer 的使<b class='flag-5'>用心得</b>和基本電路圖的搭建

    智慧服裝工廠電子看板試用心得

    智慧服裝工廠電子看板試用心得實現了企業生產的進度實時監控、現場拉式生產、生產節拍平衡和異常情況的反饋功能。而接下來我們主要討論的是智慧服裝工廠電子看板試用心得在生產線與倉庫之間的物料配送體系,要談到這個物料配送問題,則要首先考慮到物料的申請、準備、運輸追蹤和物料接收的流程
    的頭像 發表于 02-17 18:02 ?1101次閱讀
    智慧服裝工廠電子看板試<b class='flag-5'>用心得</b>

    開源大模型Falcon(獵鷹) 180B發布 1800億參數

    ? 世界最強開源大模型 Falcon 180B 忽然火爆全網,1800億參數,Falcon 在 3.5 萬億 token 完成訓練,性能碾壓 Llama 2,登頂 Hugging Fa
    的頭像 發表于 09-18 09:29 ?1563次閱讀
    開源大<b class='flag-5'>模型</b>Falcon(獵鷹) 180<b class='flag-5'>B</b>發布 1800億<b class='flag-5'>參數</b>

    HT for Web (Hightopo) 使用心得(5)- 動畫的實現

    的相關概念請參考《Hightopo 使用心得(4)- 3D 場景 Graph3dView 與 Obj 模型》。 這里的主要工作分為:3D 場景配置以及模型加載。其中 3D 場景部分的設置代碼
    的頭像 發表于 11-29 11:04 ?881次閱讀
    HT for Web (Hightopo) 使<b class='flag-5'>用心得</b>(5)- 動畫的實現
    网络百家乐官网娱乐| 定制百家乐桌垫| 百家乐官网开闲的几率多大| 四方百家乐官网的玩法技巧和规则 | 云鼎百家乐官网注册| 百家乐官网视频下载地址| 百家乐官网大路小路| 哪个百家乐官网平台信誉好| 百家乐官网筹码价格| 国美百家乐官网的玩法技巧和规则| 免费百家乐官网预测软件| 百家乐下注口诀| 百家乐庄闲的几率| 威尼斯人娱乐官方网站| 大发888真人娱乐场| 龙岩棋牌乐| 天峻县| 百家乐官网如何投注法| 视频百家乐官网是真是假| 百家乐官网推荐| 百家乐官网赌博牌路分析| 属鸡和属猪做生意好吗| 百家乐在线娱乐可信吗| 大世界百家乐的玩法技巧和规则 | 真人百家乐娱乐场| 大发888娱乐场漏洞| 澳盈88娱乐城| 奔驰百家乐官网可信吗| 斗地主百家乐官网的玩法技巧和规则| 百家乐庄闲的概率| 乐天堂百家乐娱乐网| 德州扑克排名| 百家乐官网玩法秘诀| 网上有百家乐官网玩吗| 百家乐博彩软件| 大发888赌场官方下载| 三江| 百家乐官网7scs娱乐网| 在线百家乐技巧| 大发888网页| 百家乐官网技术秘籍|