龙机老虎机程序,飞舞棋牌斗牛外挂,大家乐优惠大厅在哪里找到啊微信小程序 (中国)·官方网站

為優化LLM為“小模型/少數據/好效果”，提供了一種新思路：”一步步蒸餾”（Distillingstep-by-step）

具體做法：訓練出一個更小的模型，同時輸出推理過程和標簽

總結

大模型部署耗費內存/算力，訓練特定任務的小模型采用：

微調（BERT、T5）

蒸餾（Vicuna）

但仍需要大量數據

本文提出”一步步蒸餾”（Distillingstep-by-step）機制:

模型更小

數據更少

實驗證明效果更佳（770M的T5，效果優于540B的PaLM）

引言

1. LLM的作用

以LLM作為粗標注，同時標注時會給出推理過程，如“思維鏈”CoT

e.g.：

“Agentlemaniscarryingequipmentforgolf,whatdoeshelikelyhave?

(a)club,(b)assemblyhall,(c)meditationcenter,(d)meeting,(e)church”

答案是(a)，在上述選擇中，只有球桿用于高爾夫球。

上述邏輯會用于多任務訓練的額外數據

2. 任務準確性&所需訓練數據

相關工作

1. 知識蒸餾

從大的“老師模型”蒸餾出“學生模型”，缺點是“老師模型”產生的數據有噪聲

本文做法：蒸餾標簽、老師模型的推理過程，以降低對無標簽數據的需求量

2. 人類推理過程

規范模型行為

作為額外的模型輸入

作為高質量標簽

缺點：代價高昂

3. 大模型推理過程

可用于產生高質量的推理步驟，作為提示輸入到大模型

作為微調數據，進行“self-improve”大模型

一步步蒸餾

概覽圖：

分為兩步：

已有LLM和無標簽數據，利用推理過程，輸出標簽

以推理過程作為額外數據（細節信息較多），訓練更小的模型

基于這樣一個特性：LLM產生的推理過程能夠用于它自身的預測

假設prompt是個三元組，其中是輸入，是標簽，是推理過程

數據集記作，x是輸入，y是標簽，且二者都是自然語言

這個文本到文本的框架包括的自然語言處理任務有：分類、自然語言推理、問答等等

常見的做法：用監督數據微調預訓練模型。

缺少人工標簽，特定任務的蒸餾是用LLM教師模型生成偽噪聲訓練標簽，代替

待降低交叉熵損失：

其中hat{y_i}$是模型蒸餾得到的標簽

將推理過程hat{r_i}$融入訓練過程的方式：

放到input后面，一同輸入到模型，此時的損失計算：

需要先用LLM產生推理過程，此時LLM是必要條件

（本文）轉化為多任務學習問題，訓練模型：

同時產生標簽、推理過程

采用后者的方式，此時的損失計算為：

其中，推理過程生成的損失為：

推理過程生成是預測之前的中間一步，而不是測試過程中產生的（如同公式2），所以測試時不再需要LLM，這就是所謂的"一步步蒸餾"。

另外，預先定義任務前綴，如[label]是標簽，[rationale]是推理過程

實驗

從兩方面證明“一步步蒸餾”的有效性：

與傳統的微調和蒸餾對比，效果有所提升

模型更小、部署代價更小

以最小的模型規模、數據量作為標準，“一步步蒸餾”的模型優于LLM

基準模型

LLM：540B的PaLM

下游模型：T5

T5-Base(220M)

T5-Large(770M)

T5-XXL(11B)

數據集

e-SNLI （自然語言推理）：https://github.com/OanaMariaCamburu/e-SNLI

ANLI（自然語言推理）：https://huggingface.co/datasets/anli

CQA（問答）：https://www.tau-nlp.sites.tau.ac.il/commonsenseqa

SVAMP（算術數學詞問題）：https://github.com/arkilpatel/SVAMP

與一步步蒸餾對比的其他方法

標準的微調（有標簽）

標準的任務蒸餾（無標簽）

減少訓練數據

對比結果1

在標簽較少時，一步步蒸餾優于標準微調

對比結果2

在標簽較少時，一步步蒸餾優于標準蒸餾

降低模型大小

各種baseline模型大小不一時，一步步蒸餾都更優

通過使用更小的特定任務模型一步步蒸餾逐步優于LLM

對比結果3

在所有考慮的4個數據集上總是可以優于少樣本CoT、PINTO調優

對比結果4

在4個數據集中的3個上也優于教師模型LLM

增強無標簽數據，可進一步改進一步步蒸餾

使用最小模型大小和最小訓練數據

對比結果5

用更小模型、更少數據，一步步蒸餾優于LLM

對比結果6

標準的微調和蒸餾需要更多的數據和更大的模型

總結

實驗證明，一步步蒸餾降低了訓練數據量、特定任務的模型大小、優于初始LLM的性能

局限性：

用戶需要提供帶標簽數據

LLM推理能力有限，尤其面對復雜推理和規劃問題

審核編輯：彭靜

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

數據

數據

+關注

關注
8

文章
7137

瀏覽量
89562
模型

模型

+關注

關注
1

文章
3303

瀏覽量
49216

原文標題：小模型媲美2000倍體量大模型，谷歌提出新思路：蒸餾也能Step-by-Step

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

虛擬現實正一步步向我們走來

顯然，虛擬現實大發展的春天正在到來，虛擬現實正一步步走向消費者。那么，虛擬現實究竟涉及哪些重點技術領域？又將對整個產業帶來怎樣的影響？未來的“抓手”又有哪些？

發表于 10-26 16:38 ?901次閱讀

外國牛人教你一步步快速打造首臺機器人（超詳細）

外國牛人教你一步步快速打造首臺機器人（超詳細）

發表于 08-15 19:30

一步步寫嵌入式操作系統—ARM編程的方法與實踐ch02

一步步寫嵌入式操作系統—ARM編程的方法與實踐ch02

發表于 08-20 20:54

C語言step-by-step

C語言step-by-step！

發表于 12-27 09:59

CC2530一步步演示程序燒寫

CC2530一步步演示程序燒寫第一步——先安裝IAR開發環境第二歩——安裝CC2530燒寫工具第三歩——CC2530串口配置軟件使用具體完整步驟看下面文檔

發表于 03-03 14:33

一步步建立_STM32_UCOS_模板

一步步建立_STM32_UCOS_模板

發表于 09-29 11:46

菜鳥一步步入門SAM4S-XPLAINED--IAR開發環境

菜鳥一步步入門SAM4S-XPLAINED--IAR開發環境

發表于 01-25 10:55

一步步進行調試GPRS模塊

背景：在不知道硬件是否正確情況下，一步步進行調試，最終完成調試。以下是自己調試步驟。1、從gprs模塊TX ,RX 單獨焊接兩個線出來，通過上位機發送AT指令，是否能正常工作。

發表于 01-25 07:33

ARM嵌入式系統如何入門？怎樣一步步的去學習

ARM嵌入式系統的學習步驟對于很多新手來說，不知道ARM嵌入式系統如何入門？怎樣一步步的去學習？接下來信盈達教育嵌入式培訓網就詳解的為大家介紹：關于ARM嵌入式系統學習步驟：1．做個最小系統板：如果

發表于 02-16 06:33

stm32是如何一步步實現設置地址匹配接收喚醒中斷功能的

為什么要設置地址匹配接收喚醒中斷呢？stm32是如何一步步實現設置地址匹配接收喚醒中斷功能的？

發表于 02-28 08:07

一步步寫嵌入式操作系統

一步步寫嵌入式操作系統_ARM編程的方法與實踐

發表于 07-14 11:32 ?0次下載

看電工技術是如何一步步淪為勤雜工的

相信很多的電工老師傅也都聽說過這種話，那電工究竟是不是勤雜工？電工技術工種是如何一步步的淪為勤雜工的，我們今天就重點來看看。

發表于 02-18 15:47 ?4190次閱讀

看電路是怎么把電壓一步步頂上去的？資料下載

電子發燒友網為你提供看電路是怎么把電壓一步步頂上去的？資料下載的電子資料下載，更有其他相關的電路圖、源代碼、課件教程、中文資料、英文資料、參考設計、用戶指南、解決方案等資料，希望可以幫助到廣大的電子工程師們。

發表于 04-16 08:47 ?13次下載

看電路是怎么把電壓<b class='flag-5'>一步步</b>頂上去的？資料下載

ROM與RAM 單片機上電后如何一步步執行？資料下載

電子發燒友網為你提供ROM與RAM 單片機上電后如何一步步執行？資料下載的電子資料下載，更有其他相關的電路圖、源代碼、課件教程、中文資料、英文資料、參考設計、用戶指南、解決方案等資料，希望可以幫助到廣大的電子工程師們。

發表于 04-21 08:53 ?12次下載

ROM與RAM 單片機上電后如何<b class='flag-5'>一步步</b>執行？資料下載

一步步重新演繹汽車駕駛體驗

一步步重新演繹汽車駕駛體驗

發表于 11-04 09:52 ?0次下載

那曲檬骨新材料有限公司

搜索歷史

基于一步步蒸餾（Distilling step-by-step）機制

評論