那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GLoRA:一種廣義參數(shù)高效的微調(diào)方法

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-06-27 16:53 ? 次閱讀

近年來,大規(guī)模深度神經(jīng)網(wǎng)絡(luò)的顯著成就徹底改變了人工智能領(lǐng)域,在各種任務(wù)和領(lǐng)域展示了前所未有的性能。這些高度復(fù)雜的模型,通常具有數(shù)百萬甚至數(shù)十億個(gè)參數(shù),在計(jì)算機(jī)視覺、自然語言理解和語音識(shí)別等領(lǐng)域表現(xiàn)出了卓越的能力。

本文提出了廣義LoRA(GLoRA),一種通用參數(shù)高效微調(diào)任務(wù)的先進(jìn)方法。增強(qiáng)低秩適應(yīng)(LoRA),GLoRA采用廣義提示模塊優(yōu)化預(yù)訓(xùn)練模型權(quán)重并調(diào)整中間層激活函數(shù),為不同的任務(wù)和數(shù)據(jù)集提供更大的靈活性和能力。

GLoRA源于統(tǒng)一的數(shù)學(xué)公式,具有較強(qiáng)的transfer learningfew-shot learningdomain generalization能力,其通過權(quán)值和激活的附加維度調(diào)整到新任務(wù)。

實(shí)驗(yàn)表明,GLoRA在自然、專業(yè)和結(jié)構(gòu)化基準(zhǔn)測(cè)試中優(yōu)于所有以前的方法,在各種數(shù)據(jù)集上以更少的參數(shù)和計(jì)算實(shí)現(xiàn)了更高的準(zhǔn)確性。此外,結(jié)構(gòu)重新參數(shù)化設(shè)計(jì)確保GLoRA不需要額外的推理成本,使其成為資源有限應(yīng)用程序的實(shí)用解決方案。

GLoRA

簡(jiǎn)介

本文首先對(duì)現(xiàn)有最先進(jìn)的PEFT方法進(jìn)行數(shù)學(xué)概述,分析了它們的優(yōu)缺點(diǎn)。然后,引入了一個(gè)整合所有現(xiàn)有SOTA PEFT方法的統(tǒng)一公式,并根據(jù)統(tǒng)一公式的觀點(diǎn)詳細(xì)闡述了所提出的廣義LoRA。然后,提出了一種結(jié)構(gòu)重新參數(shù)化設(shè)計(jì),以在不增加額外成本的情況下顯示推理效率。為了實(shí)現(xiàn)廣義LoRA的目標(biāo),還引入了最優(yōu)分層配置的進(jìn)化搜索,進(jìn)一步對(duì)所提出的方法的更高性能進(jìn)行了理論分析和討論。

已有方法及其局限性

Visual Prompt Tuning(VPT) :VPT將少量特定于任務(wù)的可學(xué)習(xí)參數(shù)引入輸入空間,同時(shí)在下游微調(diào)期間凍結(jié)整個(gè)預(yù)先訓(xùn)練的Transformer主干。VPT提出了兩種策略:VPT-Shallow和VPT-Deep。

VPT-Shallow策略如下:其中P是可訓(xùn)練的提示。x是[CLS]token,E是圖像paches。ce81955e-14c1-11ee-962d-dac502259ad0.pngVPT-Deep策略如下:VTP-Deep在大多數(shù)視覺任務(wù)上都優(yōu)于完全微調(diào),在低數(shù)據(jù)狀態(tài)下也有更好的準(zhǔn)確性。cebaf52e-14c1-11ee-962d-dac502259ad0.png

AdaptFormer:AdaptFormer在MLP塊上引入了兩個(gè)線性層的并行可學(xué)習(xí)分支和ReLU,并在暫停其他部分的同時(shí)僅學(xué)習(xí)該路徑。cec91d34-14c1-11ee-962d-dac502259ad0.png

LoRa:LoRA方法凍結(jié)預(yù)訓(xùn)練模型權(quán)重并將可訓(xùn)練的低秩分解矩陣注入每一層。只從預(yù)訓(xùn)練的權(quán)重中學(xué)習(xí)殘差。在GPT-2模型家族上與prompt learning、adapters等相比,實(shí)現(xiàn)了SOTA性能。cef4efae-14c1-11ee-962d-dac502259ad0.png

Scaling & Shifting Features (SSF) :SSF模塊在訓(xùn)練過程中對(duì)所有的MLP、MHSA、Layernorm模塊進(jìn)行特征縮放和移位,并在推理過程中進(jìn)行重新參數(shù)化,其是一個(gè)線性結(jié)構(gòu)。cf091b64-14c1-11ee-962d-dac502259ad0.png

FacT:FacT提出使用張量分解方法來存儲(chǔ)額外的權(quán)重,將模型的權(quán)重張量化為單個(gè)3D張量,然后將其相加分解為輕量級(jí)因子。在微調(diào)中,只有因子會(huì)被更新和存儲(chǔ)。FacT有兩種方式:cf19ef8e-14c1-11ee-962d-dac502259ad0.png其中LoRA中的ΔW被分解為U、V和Σ。cf2d84e0-14c1-11ee-962d-dac502259ad0.png其中LoRA中的ΔW被分解為U、C、P和V。

RepAdapter:RepAdapter將輕量級(jí)網(wǎng)絡(luò)插入到預(yù)先訓(xùn)練的模型中,并且在訓(xùn)練后,額外的參數(shù)將被重新參數(shù)化為附近的投影權(quán)重。將順序適配器添加到MHA和MLP中,適配器是線性的,因此可以重新參數(shù)化,并且有兩層:下采樣密集FC層以下采樣輸入;對(duì)劃分為組的下采樣特征進(jìn)行上采樣,并且每個(gè)組都具有上采樣層。上采樣層組可以合并為單個(gè)稀疏上采樣層,并且可以直接重新參數(shù)化為原始MLP或MHSA。cf43f432-14c1-11ee-962d-dac502259ad0.png

局限性:許多現(xiàn)有的PETL方法,例如(VPT, Adapter)會(huì)增加推理時(shí)間,因其提出的結(jié)構(gòu)無法重新參數(shù)化。直接提示調(diào)優(yōu)也很難設(shè)計(jì),帶來了計(jì)算負(fù)擔(dān),并且需要超參數(shù)調(diào)整,即如何以及在哪里放置提示。LoRA在推理時(shí)可以重新參數(shù)化,但它不能擴(kuò)展到更大的矩陣,并且適應(yīng)能力受到權(quán)重空間的限制。SSF/RepAdaptor無法學(xué)習(xí)到權(quán)重的變化,即權(quán)重空間中的ΔW,而LoRA/FacT不能有效地學(xué)習(xí)特征變化的縮放和移動(dòng),即特征空間中的ΔH。在從大型模型執(zhí)行遷移學(xué)習(xí)時(shí),特征空間和權(quán)重空間都需要靈活性。因此本文在這項(xiàng)工作中提出的的改進(jìn)想法為:ΔW調(diào)整、ΔH調(diào)整以及W和H縮放和移位學(xué)習(xí)。

One-for-All unified formulation

對(duì)于模型微調(diào),本文提出了一個(gè)統(tǒng)一的公式,包含所有可調(diào)維度,包括但不限于權(quán)重空間和特征空間。此外,們采用重新參數(shù)化策略在推理階段將輔助參數(shù)合并到相鄰?fù)队皺?quán)重中。從廣義上講,本文提出的方法是所有先前解決方案的超集,即一次性機(jī)制。通過將不同的支持張量設(shè)置為零,GLoRA可以簡(jiǎn)化為這些先前方法中的任何一種。GLoRA體系結(jié)構(gòu)可以簡(jiǎn)潔地表述為統(tǒng)一的數(shù)學(xué)方程。cf57c002-14c1-11ee-962d-dac502259ad0.png其中 A、B、C、D、E 是GLoRA中下游任務(wù)的可訓(xùn)練張量,W0和b0在整個(gè)微調(diào)過程中被凍結(jié)。A用于縮放權(quán)重,B的作用是縮放輸入并移動(dòng)權(quán)重,C服務(wù)于VPT-Deep、D和E表示逐層提示,分別用于縮放和移動(dòng)偏差。具體流程如下圖所示:cf65b9d2-14c1-11ee-962d-dac502259ad0.png

Prompt Modules-提示模塊

prompt modules描述了為 A、B、C、D、E 設(shè)計(jì)分層適配器或提示模塊的方法。從某種意義上說,這些可以采用scalars, vectors,low-rank decompositions, or none形式。基于這些可訓(xùn)練支持張量的作用,可分為以下幾類:cf7f74f8-14c1-11ee-962d-dac502259ad0.png這種權(quán)重糾纏策略有助于在不增加參數(shù)數(shù)量的情況下增加搜索空間,并且由于不同子網(wǎng)中的權(quán)重共享,也顯示出更快的收斂

結(jié)構(gòu)重新參數(shù)化設(shè)計(jì)與推理效率分析

實(shí)現(xiàn)重新參數(shù)化的基本方面是消除相鄰變換中的非線性,從而允許將補(bǔ)充參數(shù)吸收到前面的參數(shù)中。去除這種非線性層不會(huì)對(duì)網(wǎng)絡(luò)的性能產(chǎn)生不利影響。GLoRA重新參數(shù)化策略如下:d0033e6e-14c1-11ee-962d-dac502259ad0.png在GLoRA中最終統(tǒng)一訓(xùn)練的權(quán)重和偏差。根據(jù)等式cf57c002-14c1-11ee-962d-dac502259ad0.png對(duì)它們進(jìn)行重新參數(shù)化:d025d294-14c1-11ee-962d-dac502259ad0.png因此,重新參數(shù)化策略將可學(xué)習(xí)參數(shù)集成到相鄰?fù)队皺?quán)重中,其可能是有利的,因?yàn)樵谕评黼A段不會(huì)產(chǎn)生額外的計(jì)算成本。

最優(yōu)分層配置的進(jìn)化搜索

對(duì)統(tǒng)一適配器的設(shè)計(jì)是在每層的基礎(chǔ)上實(shí)現(xiàn)的,其允許跨不同層的異構(gòu)性。為了確定每一層的最佳配置,采用了進(jìn)化搜索方法,它提供了效率和有效性的平衡。盡管這種搜索過程會(huì)導(dǎo)致訓(xùn)練時(shí)間的增加,但值得注意的是,現(xiàn)有工作需要進(jìn)行廣泛的超參數(shù)搜索。此外,本文使用權(quán)重共享策略,其中為每個(gè)支持張量定義單個(gè)矩陣,并且根據(jù)分量,對(duì)子矩陣進(jìn)行索引并應(yīng)用于當(dāng)前訓(xùn)練迭代,這允許更好的參數(shù)效率,因?yàn)樽畲蟮臋?quán)重共享是在子網(wǎng)中完成的。

具有更高容量的GLoRA

模型能力是指模型近似各種函數(shù)的能力。調(diào)節(jié)學(xué)習(xí)算法的能力的方法包括選擇一個(gè)適當(dāng)?shù)募僭O(shè)空間,本質(zhì)上是一組函數(shù),學(xué)習(xí)算法被允許考慮作為潛在的解決方案。本文使用Vapnik-Chervonenkis維數(shù)(VC維數(shù))進(jìn)行統(tǒng)計(jì)算法的容量和復(fù)雜性的度量。其定義如下所示d03a91c0-14c1-11ee-962d-dac502259ad0.png

實(shí)驗(yàn)

本文在VTAB-1K基準(zhǔn)上對(duì)不同參數(shù)計(jì)數(shù)的GLoRA進(jìn)行了全面評(píng)估。VTAB-1K包括19個(gè)圖像分類任務(wù)。任務(wù)分為三個(gè)領(lǐng)域:自然圖像;由遙感和醫(yī)學(xué)數(shù)據(jù)集組成的專門任務(wù);以及專注于場(chǎng)景結(jié)構(gòu)理解的結(jié)構(gòu)化任務(wù),如深度預(yù)測(cè)和方向預(yù)測(cè)等。為了測(cè)試少鏡頭微調(diào)性能,在五個(gè)細(xì)粒度視覺識(shí)別少鏡頭數(shù)據(jù)集上評(píng)估了GLoRA:Food101、OxfordFlowers102、StandfordCars、OxfordPets和FGVCAircraft。根據(jù)之前的工作,本文評(píng)估了shot為1、2、4、8和16下的結(jié)果。最后,為了展示GLoRA的領(lǐng)域泛化能力,在ImageNet上在shot為16設(shè)置下訓(xùn)練GLoRA,并在ImageNetV2、ImageNet Sketch、ImageNet-a和ImageNet-R上進(jìn)行測(cè)試。

VTAB-1K Dataset

通過訓(xùn)練三種不同的GLoRA超網(wǎng)配置,以改變可訓(xùn)練參數(shù)的數(shù)量。它們之間的區(qū)別僅在于搜索空間中的LoRA維度,該維度在最大模型中為8和4,在中間模型中為4和2,在最小模型中為2。本文方法中增加的參數(shù)靈活性允許在最終模型中進(jìn)行用戶定義的可訓(xùn)練參數(shù)計(jì)數(shù)。VTAB-1k基準(zhǔn)測(cè)試的結(jié)果如下表所示。將最先進(jìn)的參數(shù)有效遷移學(xué)習(xí)提高了2.9%,即使是最小的模型也大大優(yōu)于所有現(xiàn)有方法。值得注意的是,在與至少一個(gè)數(shù)據(jù)集上失敗的所有現(xiàn)有工作相比,GLoRA在數(shù)據(jù)集上表現(xiàn)有競(jìng)爭(zhēng)力,證明了GLoRA的高泛化能力。GLoRA在VTAB-1k基準(zhǔn)測(cè)試中的19個(gè)數(shù)據(jù)集中的14個(gè)數(shù)據(jù)集中顯現(xiàn)出了最優(yōu)的性能,同時(shí)在其余數(shù)據(jù)集上也表現(xiàn)得很有競(jìng)爭(zhēng)力。d06d35f8-14c1-11ee-962d-dac502259ad0.png

Few-shot Learning

為了在數(shù)據(jù)可用性有限的情況下擴(kuò)展GLoRA的評(píng)估,將GLoRA在細(xì)粒度視覺識(shí)別數(shù)據(jù)集上的性能作為few-shot Learning,并將其與LoRA、Adapter、VPT和NOAH進(jìn)行比較。1、2、4、8和16的shot結(jié)果如下圖所示。GLoRA在大多數(shù)few-shot learning數(shù)據(jù)集中表現(xiàn)出卓越的功效,在參數(shù)計(jì)數(shù)相似的情況下,其性能始終大大優(yōu)于現(xiàn)有方法。有趣的是,在Flowers102數(shù)據(jù)集上,由于已經(jīng)非常出色的整體性能,所有方法都產(chǎn)生了相似的準(zhǔn)確度水平。在Food101數(shù)據(jù)集上,GLoRA的平均準(zhǔn)確度與NOAH相當(dāng)。可以觀察到的第一個(gè)子假設(shè)來看,在較高的shot場(chǎng)景下,平均性能提升變得更加明顯,然而,即使在較低的shot設(shè)置下,效果仍然顯著。

d0986e9e-14c1-11ee-962d-dac502259ad0.png

Domain Generalization

域外泛化能力對(duì)于大規(guī)模神經(jīng)網(wǎng)絡(luò)具有重要的價(jià)值。通過PETL方法微調(diào)的模型應(yīng)該表現(xiàn)出增強(qiáng)的域泛化能力,從而使它們更適用于現(xiàn)實(shí)場(chǎng)景。下表展示了GLoRA的域外泛化能力,其中單個(gè)ImageNet-1K微調(diào)的GLoRA模型經(jīng)過域外數(shù)據(jù)集的測(cè)試。與以前的研究對(duì)齊,與現(xiàn)有方法相比,域外性能顯著提高。與LoRA相比,GLoRA提高了100% (ImageNet-A)和50%(ImageNet-Sketch)的域外性能。d0df615a-14c1-11ee-962d-dac502259ad0.png

總結(jié)

本文提出了GLoRA,這是一種廣義參數(shù)高效的微調(diào)方法,它成功地證明了增強(qiáng)大規(guī)模預(yù)訓(xùn)練模型的微調(diào)和遷移學(xué)習(xí)能力的有效性。通過采用廣義低秩自適應(yīng)和重新參數(shù)化框架,GLoRA減少了微調(diào)所需的參數(shù)數(shù)量和計(jì)算量,使其成為實(shí)際應(yīng)用的資源高效和實(shí)用的方法。在各種任務(wù)和數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)證實(shí)了GLoRA優(yōu)于現(xiàn)有的PEFT技術(shù),展示了其可擴(kuò)展性和適應(yīng)性。這項(xiàng)工作不僅有助于改進(jìn)大規(guī)模預(yù)訓(xùn)練模型的微調(diào)過程,而且還為未來的工作開辟了新的途徑,包括進(jìn)一步探索廣義低秩適應(yīng)技術(shù)、混合方法的開發(fā)以及搜索和優(yōu)化算法的改進(jìn)。這些領(lǐng)域的研究可能會(huì)繼續(xù)擴(kuò)大遷移學(xué)習(xí)在更廣泛的應(yīng)用中的可訪問性和效率。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:GLoRA—高效微調(diào)模型參數(shù)!

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    一種可用于單片機(jī)的中斷高效處理與事件機(jī)制方法

    一種可用于單片機(jī)的中斷高效處理與事件機(jī)制方法
    的頭像 發(fā)表于 10-17 15:08 ?790次閱讀

    一種修正的近場(chǎng)聲源定位時(shí)延估計(jì)方法

    和易于實(shí)現(xiàn)的特點(diǎn)使得此方法在實(shí)際的被動(dòng)聲定位系統(tǒng)中得到了廣泛應(yīng)用。但是此方法只能在高信噪比和適度混響條件下有較好的性能。針對(duì)此問題,給出了一種修正的PHAT-GCC方法,并在不同信噪比
    發(fā)表于 04-22 11:55

    有沒有一種方法可以在電機(jī)工作臺(tái)中微調(diào)電機(jī)參數(shù)呢?

    你好 !有沒有一種方法可以在電機(jī)工作臺(tái)中微調(diào)電機(jī)參數(shù)(最終斜坡值、速度斜升...),而無需從電機(jī)控制工作臺(tái)系統(tǒng)地重新生成代碼然后 Cube-MX 每次我想調(diào)整個(gè)
    發(fā)表于 01-03 09:59

    一種改進(jìn)的LPCC參數(shù)提取方法

    為了提高語音信號(hào)的識(shí)別率,提出了一種改進(jìn)的LPCC參數(shù)提取方法。該方法先對(duì)語音信號(hào)進(jìn)行預(yù)加重、分幀加窗處理,然后進(jìn)行小波分解,在此基礎(chǔ)上提取LPCC
    發(fā)表于 04-12 15:08 ?36次下載
    <b class='flag-5'>一種</b>改進(jìn)的LPCC<b class='flag-5'>參數(shù)</b>提取<b class='flag-5'>方法</b>

    一種線性調(diào)頻信號(hào)參數(shù)分析的綜合方法

    一種線性調(diào)頻信號(hào)參數(shù)分析的綜合方法,下來看看。
    發(fā)表于 01-15 15:17 ?10次下載

    一種開關(guān)磁阻電機(jī)模型參數(shù)的LS-SVM辨識(shí)方法

    一種開關(guān)磁阻電機(jī)模型參數(shù)的LS-SVM辨識(shí)方法
    發(fā)表于 01-20 17:28 ?0次下載

    PID調(diào)節(jié)器參數(shù)優(yōu)化設(shè)計(jì)的一種改進(jìn)方法

    PID調(diào)節(jié)器參數(shù)優(yōu)化設(shè)計(jì)的一種改進(jìn)方法
    發(fā)表于 01-24 16:00 ?12次下載

    一種廣義運(yùn)動(dòng)模糊模型

    從光流場(chǎng)的角度出發(fā),建立了一種廣義運(yùn)動(dòng)模糊模型,并依據(jù)該模型推導(dǎo)出前向運(yùn)動(dòng)模糊核,為高速鐵路前向運(yùn)動(dòng)視頻圖像去模糊奠定了理論基礎(chǔ).給出了理論分析后,設(shè)計(jì)了一種快速生成前向運(yùn)動(dòng)模糊核的方法
    發(fā)表于 01-12 14:46 ?0次下載

    一種新的基于電穿孔的皮膚高效核酸遞送方法

    研究人員提出了一種新的基于電穿孔的皮膚高效核酸遞送方法,該方法結(jié)合醫(yī)療美容領(lǐng)域的微針滾輪與柔性插指電極芯片,實(shí)現(xiàn)了核酸分子在皮膚組織的高效
    的頭像 發(fā)表于 05-10 10:05 ?5215次閱讀
    <b class='flag-5'>一種</b>新的基于電穿孔的皮膚<b class='flag-5'>高效</b>核酸遞送<b class='flag-5'>方法</b>

    介紹一種高效的線云重建算法ELSR

    提出了一種高效的線云重建方法,稱為ELSR,其利用了城市場(chǎng)景中常見的場(chǎng)景平面和稀疏的3D點(diǎn)
    的頭像 發(fā)表于 03-29 18:14 ?970次閱讀

    GLoRA高效微調(diào)模型參數(shù)

    近年來,大規(guī)模深度神經(jīng)網(wǎng)絡(luò)的顯著成就徹底改變了人工智能領(lǐng)域,在各種任務(wù)和領(lǐng)域展示了前所未有的性能。
    的頭像 發(fā)表于 06-27 16:47 ?882次閱讀
    <b class='flag-5'>GLoRA</b>—<b class='flag-5'>高效</b><b class='flag-5'>微調(diào)</b>模型<b class='flag-5'>參數(shù)</b>

    一種高效、靈巧的多通信信號(hào)產(chǎn)生方法

    電子發(fā)燒友網(wǎng)站提供《一種高效、靈巧的多通信信號(hào)產(chǎn)生方法.pdf》資料免費(fèi)下載
    發(fā)表于 11-07 09:54 ?0次下載
    <b class='flag-5'>一種</b><b class='flag-5'>高效</b>、靈巧的多通信信號(hào)產(chǎn)生<b class='flag-5'>方法</b>

    微調(diào)大模型的方法介紹

    微調(diào)(Full Fine-tuning):全微調(diào)是指對(duì)整個(gè)預(yù)訓(xùn)練模型進(jìn)行微調(diào),包括所有的模型參數(shù)。在這種方法中,預(yù)訓(xùn)練模型的所有層和
    發(fā)表于 01-03 10:57 ?2.5w次閱讀
    四<b class='flag-5'>種</b><b class='flag-5'>微調(diào)</b>大模型的<b class='flag-5'>方法</b>介紹

    一種簡(jiǎn)單高效配置FPGA的方法

    本文描述了一種簡(jiǎn)單高效配置FPGA的方法,該方法利用微處理器從串行外圍接口(SPI)閃存配置FPGA設(shè)備。這種方法減少了硬件組件、板空間和成
    的頭像 發(fā)表于 10-24 14:57 ?806次閱讀
    <b class='flag-5'>一種</b>簡(jiǎn)單<b class='flag-5'>高效</b>配置FPGA的<b class='flag-5'>方法</b>

    一種信息引導(dǎo)的量化后LLM微調(diào)新算法IR-QLoRA

    進(jìn)行量化+LoRA的路線為例,有研究表明,現(xiàn)有方法會(huì)導(dǎo)致量化的LLM嚴(yán)重退化,甚至無法從LoRA微調(diào)中受益。 為了解決這問題,來自蘇黎世聯(lián)邦理工學(xué)院、北京航空航天大學(xué)和字節(jié)跳動(dòng)的研究人員,最新提出了
    的頭像 發(fā)表于 11-19 17:16 ?417次閱讀
    <b class='flag-5'>一種</b>信息引導(dǎo)的量化后LLM<b class='flag-5'>微調(diào)</b>新算法IR-QLoRA
    百家乐路单网下载| 单机百家乐棋牌| 新加坡百家乐的玩法技巧和规则 | 澳博足球| 百家乐官网大白菜| 高档百家乐桌| 优博娱乐在线| 百家乐官网纸牌赌博| 游戏房百家乐赌博图片| 大发888hanpa| 信誉百家乐官网博彩网| 帝王百家乐全讯网2| 大发888充值100元| 百家乐官网娱乐城游戏| 星期8百家乐官网娱乐城| 三国百家乐娱乐城| 百家乐官网博彩博彩网| 赌博百家乐的路单| 百家乐官网金海岸| 全景网百家乐的玩法技巧和规则| 九龙县| 钱柜百家乐官网的玩法技巧和规则 | 广发百家乐官网的玩法技巧和规则 | 邛崃市| 百家乐官网小揽| 威尼斯人娱乐网反| 博彩百家乐官网在线| AG百家乐大转轮| 方正县| 百家乐半圆桌| 赣榆县| 百家乐游戏程序出售| 大家赢娱乐城| 百家乐稳赢投注方法| 太阳城代理| 属狗人做生意店铺朝向| 888bet| 百家乐什么平台好| 凯旋门娱乐城开户网址| 豪享博百家乐官网的玩法技巧和规则 | 最新百家乐官网双面数字筹码|