新99久热re在线精品996热视频,中文字幕在线无码手机一区

近年來，大規(guī)模深度神經(jīng)網(wǎng)絡(luò)的顯著成就徹底改變了人工智能領(lǐng)域，在各種任務(wù)和領(lǐng)域展示了前所未有的性能。這些高度復(fù)雜的模型，通常具有數(shù)百萬甚至數(shù)十億個參數(shù)，在計算機視覺、自然語言理解和語音識別等領(lǐng)域表現(xiàn)出了卓越的能力。

本文提出了廣義LoRA(GLoRA)，一種通用參數(shù)高效微調(diào)任務(wù)的先進方法。增強低秩適應(yīng)(LoRA)，GLoRA采用廣義提示模塊優(yōu)化預(yù)訓(xùn)練模型權(quán)重并調(diào)整中間層激活函數(shù)，為不同的任務(wù)和數(shù)據(jù)集提供更大的靈活性和能力。

GLoRA源于統(tǒng)一的數(shù)學公式，具有較強的transfer learning、few-shot learning和domain generalization能力，其通過權(quán)值和激活的附加維度調(diào)整到新任務(wù)。

實驗表明，GLoRA在自然、專業(yè)和結(jié)構(gòu)化基準測試中優(yōu)于所有以前的方法，在各種數(shù)據(jù)集上以更少的參數(shù)和計算實現(xiàn)了更高的準確性。此外，結(jié)構(gòu)重新參數(shù)化設(shè)計確保GLoRA不需要額外的推理成本，使其成為資源有限應(yīng)用程序的實用解決方案。

GLoRA

簡介

本文首先對現(xiàn)有最先進的PEFT方法進行數(shù)學概述，分析了它們的優(yōu)缺點。然后，引入了一個整合所有現(xiàn)有SOTA PEFT方法的統(tǒng)一公式，并根據(jù)統(tǒng)一公式的觀點詳細闡述了所提出的廣義LoRA。然后，提出了一種結(jié)構(gòu)重新參數(shù)化設(shè)計，以在不增加額外成本的情況下顯示推理效率。為了實現(xiàn)廣義LoRA的目標，還引入了最優(yōu)分層配置的進化搜索，進一步對所提出的方法的更高性能進行了理論分析和討論。

已有方法及其局限性

Visual Prompt Tuning(VPT) ：VPT將少量特定于任務(wù)的可學習參數(shù)引入輸入空間，同時在下游微調(diào)期間凍結(jié)整個預(yù)先訓(xùn)練的Transformer主干。VPT提出了兩種策略：VPT-Shallow和VPT-Deep。

VPT-Shallow策略如下：其中P是可訓(xùn)練的提示。x是[CLS]token，E是圖像paches。

VPT-Deep策略如下：VTP-Deep在大多數(shù)視覺任務(wù)上都優(yōu)于完全微調(diào)，在低數(shù)據(jù)狀態(tài)下也有更好的準確性。

AdaptFormer：AdaptFormer在MLP塊上引入了兩個線性層的并行可學習分支和ReLU，并在暫停其他部分的同時僅學習該路徑。

LoRa：LoRA方法凍結(jié)預(yù)訓(xùn)練模型權(quán)重并將可訓(xùn)練的低秩分解矩陣注入每一層。只從預(yù)訓(xùn)練的權(quán)重中學習殘差。在GPT-2模型家族上與prompt learning、adapters等相比，實現(xiàn)了SOTA性能。

Scaling & Shifting Features (SSF) ：SSF模塊在訓(xùn)練過程中對所有的MLP、MHSA、Layernorm模塊進行特征縮放和移位，并在推理過程中進行重新參數(shù)化，其是一個線性結(jié)構(gòu)。

FacT：FacT提出使用張量分解方法來存儲額外的權(quán)重，將模型的權(quán)重張量化為單個3D張量，然后將其相加分解為輕量級因子。在微調(diào)中，只有因子會被更新和存儲。FacT有兩種方式：

其中LoRA中的ΔW被分解為U、V和Σ。

其中LoRA中的ΔW被分解為U、C、P和V。

RepAdapter：RepAdapter將輕量級網(wǎng)絡(luò)插入到預(yù)先訓(xùn)練的模型中，并且在訓(xùn)練后，額外的參數(shù)將被重新參數(shù)化為附近的投影權(quán)重。將順序適配器添加到MHA和MLP中，適配器是線性的，因此可以重新參數(shù)化，并且有兩層：下采樣密集FC層以下采樣輸入；對劃分為組的下采樣特征進行上采樣，并且每個組都具有上采樣層。上采樣層組可以合并為單個稀疏上采樣層，并且可以直接重新參數(shù)化為原始MLP或MHSA。

局限性：許多現(xiàn)有的PETL方法，例如(VPT, Adapter)會增加推理時間，因其提出的結(jié)構(gòu)無法重新參數(shù)化。直接提示調(diào)優(yōu)也很難設(shè)計，帶來了計算負擔，并且需要超參數(shù)調(diào)整，即如何以及在哪里放置提示。LoRA在推理時可以重新參數(shù)化，但它不能擴展到更大的矩陣，并且適應(yīng)能力受到權(quán)重空間的限制。

SSF/RepAdaptor無法學習到權(quán)重的變化，即權(quán)重空間中的ΔW，而LoRA/FacT不能有效地學習特征變化的縮放和移動，即特征空間中的ΔH。在從大型模型執(zhí)行遷移學習時，特征空間和權(quán)重空間都需要靈活性。因此本文在這項工作中提出的的改進想法為：ΔW調(diào)整、ΔH調(diào)整以及W和H縮放和移位學習。

One-for-All unified formulation

對于模型微調(diào)，本文提出了一個統(tǒng)一的公式，包含所有可調(diào)維度，包括但不限于權(quán)重空間和特征空間。此外，們采用重新參數(shù)化策略在推理階段將輔助參數(shù)合并到相鄰?fù)队皺?quán)重中。從廣義上講，本文提出的方法是所有先前解決方案的超集，即一次性機制。通過將不同的支持張量設(shè)置為零，GLoRA可以簡化為這些先前方法中的任何一種。GLoRA體系結(jié)構(gòu)可以簡潔地表述為統(tǒng)一的數(shù)學方程。

其中 A、B、C、D、E 是GLoRA中下游任務(wù)的可訓(xùn)練張量，W0和b0在整個微調(diào)過程中被凍結(jié)。A用于縮放權(quán)重，B的作用是縮放輸入并移動權(quán)重，C服務(wù)于VPT-Deep、D和E表示逐層提示，分別用于縮放和移動偏差。具體流程如下圖所示：

Prompt Modules-提示模塊

prompt modules描述了為 A、B、C、D、E 設(shè)計分層適配器或提示模塊的方法。從某種意義上說，這些可以采用scalars, vectors,low-rank decompositions, or none形式?；谶@些可訓(xùn)練支持張量的作用，可分為以下幾類：

這種權(quán)重糾纏策略有助于在不增加參數(shù)數(shù)量的情況下增加搜索空間，并且由于不同子網(wǎng)中的權(quán)重共享，也顯示出更快的收斂

結(jié)構(gòu)重新參數(shù)化設(shè)計與推理效率分析

實現(xiàn)重新參數(shù)化的基本方面是消除相鄰變換中的非線性，從而允許將補充參數(shù)吸收到前面的參數(shù)中。去除這種非線性層不會對網(wǎng)絡(luò)的性能產(chǎn)生不利影響。GLoRA重新參數(shù)化策略如下：

在GLoRA中最終統(tǒng)一訓(xùn)練的權(quán)重和偏差。根據(jù)等式

對它們進行重新參數(shù)化：

因此，重新參數(shù)化策略將可學習參數(shù)集成到相鄰?fù)队皺?quán)重中，其可能是有利的，因為在推理階段不會產(chǎn)生額外的計算成本。

最優(yōu)分層配置的進化搜索

對統(tǒng)一適配器的設(shè)計是在每層的基礎(chǔ)上實現(xiàn)的，其允許跨不同層的異構(gòu)性。為了確定每一層的最佳配置，采用了進化搜索方法，它提供了效率和有效性的平衡。盡管這種搜索過程會導(dǎo)致訓(xùn)練時間的增加，但值得注意的是，現(xiàn)有工作需要進行廣泛的超參數(shù)搜索。此外，本文使用權(quán)重共享策略，其中為每個支持張量定義單個矩陣，并且根據(jù)分量，對子矩陣進行索引并應(yīng)用于當前訓(xùn)練迭代，這允許更好的參數(shù)效率，因為最大的權(quán)重共享是在子網(wǎng)中完成的。

具有更高容量的GLoRA

模型能力是指模型近似各種函數(shù)的能力。調(diào)節(jié)學習算法的能力的方法包括選擇一個適當?shù)募僭O(shè)空間，本質(zhì)上是一組函數(shù)，學習算法被允許考慮作為潛在的解決方案。本文使用Vapnik-Chervonenkis維數(shù)(VC維數(shù))進行統(tǒng)計算法的容量和復(fù)雜性的度量。其定義如下所示

實驗

本文在VTAB-1K基準上對不同參數(shù)計數(shù)的GLoRA進行了全面評估。VTAB-1K包括19個圖像分類任務(wù)。任務(wù)分為三個領(lǐng)域：自然圖像；由遙感和醫(yī)學數(shù)據(jù)集組成的專門任務(wù)；以及專注于場景結(jié)構(gòu)理解的結(jié)構(gòu)化任務(wù)，如深度預(yù)測和方向預(yù)測等。為了測試少鏡頭微調(diào)性能，在五個細粒度視覺識別少鏡頭數(shù)據(jù)集上評估了GLoRA：Food101、OxfordFlowers102、StandfordCars、OxfordPets和FGVCAircraft。根據(jù)之前的工作，本文評估了shot為1、2、4、8和16下的結(jié)果。最后，為了展示GLoRA的領(lǐng)域泛化能力，在ImageNet上在shot為16設(shè)置下訓(xùn)練GLoRA，并在ImageNetV2、ImageNet Sketch、ImageNet-a和ImageNet-R上進行測試。

VTAB-1K Dataset

通過訓(xùn)練三種不同的GLoRA超網(wǎng)配置，以改變可訓(xùn)練參數(shù)的數(shù)量。它們之間的區(qū)別僅在于搜索空間中的LoRA維度，該維度在最大模型中為8和4，在中間模型中為4和2，在最小模型中為2。本文方法中增加的參數(shù)靈活性允許在最終模型中進行用戶定義的可訓(xùn)練參數(shù)計數(shù)。VTAB-1k基準測試的結(jié)果如下表所示。將最先進的參數(shù)有效遷移學習提高了2.9%，即使是最小的模型也大大優(yōu)于所有現(xiàn)有方法。

值得注意的是，在與至少一個數(shù)據(jù)集上失敗的所有現(xiàn)有工作相比，GLoRA在數(shù)據(jù)集上表現(xiàn)有競爭力，證明了GLoRA的高泛化能力。GLoRA在VTAB-1k基準測試中的19個數(shù)據(jù)集中的14個數(shù)據(jù)集中顯現(xiàn)出了最優(yōu)的性能，同時在其余數(shù)據(jù)集上也表現(xiàn)得很有競爭力。

Few-shot Learning

為了在數(shù)據(jù)可用性有限的情況下擴展GLoRA的評估，將GLoRA在細粒度視覺識別數(shù)據(jù)集上的性能作為few-shot Learning，并將其與LoRA、Adapter、VPT和NOAH進行比較。1、2、4、8和16的shot結(jié)果如下圖所示。GLoRA在大多數(shù)few-shot learning數(shù)據(jù)集中表現(xiàn)出卓越的功效，在參數(shù)計數(shù)相似的情況下，其性能始終大大優(yōu)于現(xiàn)有方法。

有趣的是，在Flowers102數(shù)據(jù)集上，由于已經(jīng)非常出色的整體性能，所有方法都產(chǎn)生了相似的準確度水平。在Food101數(shù)據(jù)集上，GLoRA的平均準確度與NOAH相當?？梢杂^察到的第一個子假設(shè)來看，在較高的shot場景下，平均性能提升變得更加明顯，然而，即使在較低的shot設(shè)置下，效果仍然顯著。

Domain Generalization

域外泛化能力對于大規(guī)模神經(jīng)網(wǎng)絡(luò)具有重要的價值。通過PETL方法微調(diào)的模型應(yīng)該表現(xiàn)出增強的域泛化能力，從而使它們更適用于現(xiàn)實場景。下表展示了GLoRA的域外泛化能力，其中單個ImageNet-1K微調(diào)的GLoRA模型經(jīng)過域外數(shù)據(jù)集的測試。與以前的研究對齊，與現(xiàn)有方法相比，域外性能顯著提高。與LoRA相比，GLoRA提高了100% (ImageNet-A)和50%(ImageNet-Sketch)的域外性能。

總結(jié)

本文提出了GLoRA，這是一種廣義參數(shù)高效的微調(diào)方法，它成功地證明了增強大規(guī)模預(yù)訓(xùn)練模型的微調(diào)和遷移學習能力的有效性。通過采用廣義低秩自適應(yīng)和重新參數(shù)化框架，GLoRA減少了微調(diào)所需的參數(shù)數(shù)量和計算量，使其成為實際應(yīng)用的資源高效和實用的方法。在各種任務(wù)和數(shù)據(jù)集上進行的實驗證實了GLoRA優(yōu)于現(xiàn)有的PEFT技術(shù)，展示了其可擴展性和適應(yīng)性。這項工作不僅有助于改進大規(guī)模預(yù)訓(xùn)練模型的微調(diào)過程，而且還為未來的工作開辟了新的途徑，包括進一步探索廣義低秩適應(yīng)技術(shù)、混合方法的開發(fā)以及搜索和優(yōu)化算法的改進。這些領(lǐng)域的研究可能會繼續(xù)擴大遷移學習在更廣泛的應(yīng)用中的可訪問性和效率。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4783

瀏覽量
101236
適配器

適配器

+關(guān)注

關(guān)注
8

文章
1976

瀏覽量
68304
人工智能

人工智能

+關(guān)注

關(guān)注
1796

文章
47791

瀏覽量
240562
LoRa模塊

LoRa模塊

+關(guān)注

關(guān)注
5

文章
136

瀏覽量
14023

【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調(diào)技術(shù)解讀

。對于文本數(shù)據(jù)，可以采用同義詞替換、句法變換、上下文擴展等技術(shù)。微調(diào)策略和方法全參數(shù)微調(diào)：對模型的所有參數(shù)進行再訓(xùn)練。雖然需要大量的計算資源

發(fā)表于 01-14 16:51

微調(diào)前給預(yù)訓(xùn)練模型參數(shù)增加噪音提高效果的方法

為了減輕上述問題，提出了NoisyTune方法，即，在finetune前加入給預(yù)訓(xùn)練模型的參數(shù)增加少量噪音，給原始模型增加一些擾動，從而提高預(yù)訓(xùn)練語言模型在下游任務(wù)的效果，如下圖所示，

發(fā)表于 06-07 09:57 ?2591次閱讀

有哪些省內(nèi)存的大語言模型訓(xùn)練/微調(diào)/推理方法？

首先，我們需要了解如何根據(jù)參數(shù)量估計模型大致所需的 RAM，這在實踐中有很重要的參考意義。我們需要通過估算設(shè)置 batch_size，設(shè)置模型精度，選擇微調(diào)方法和

發(fā)表于 04-10 11:41 ?1540次閱讀

使用LoRA和Hugging Face高效訓(xùn)練大語言模型

在本文中，我們將展示如何使用大語言模型低秩適配 (Low-Rank Adaptation of Large Language Models，LoRA) 技術(shù)在單 GPU 上微調(diào) 110 億參數(shù)的 FLAN-T5 XXL

發(fā)表于 04-14 17:37 ?2082次閱讀

使用Alpaca-Lora進行參數(shù)高效模型微調(diào)

在推理時，將左右兩部分的結(jié)果加到一起即可，h=Wx+BAx=(W+BA)x，所以，只要將訓(xùn)練完成的矩陣乘積BA跟原本的權(quán)重矩陣W加到一起作為新權(quán)重參數(shù)替換原始預(yù)訓(xùn)練語言模型的W即可，不會增加額外的計算資源。

發(fā)表于 05-17 14:24 ?2215次閱讀

使用Alpaca-Lora進行<b class='flag-5'>參數(shù)</b><b class='flag-5'>高效</b><b class='flag-5'>模型</b><b class='flag-5'>微調(diào)</b>

調(diào)教LLaMA類模型沒那么難，LoRA將模型微調(diào)縮減到幾小時

工智能領(lǐng)域，以高效和有效的方式使用大型語言模型正變得越來越重要。 LoRA（Low-Rank Adaption，低秩自適應(yīng)）作為微調(diào) LLMs 一種比較出圈的技術(shù)，其額外引入了可訓(xùn)練的低秩分解矩陣，同時固定住預(yù)訓(xùn)練權(quán)重，從而

發(fā)表于 05-28 10:58 ?2814次閱讀

調(diào)教LLaMA類<b class='flag-5'>模型</b>沒那么難，LoRA將<b class='flag-5'>模型</b><b class='flag-5'>微調(diào)</b>縮減到幾小時

iPhone都能微調(diào)大模型了嘛

一起提出的新方法 QLoRA 把微調(diào)大模型的顯存需求從>780GB降低到。開源社區(qū)直接開始狂歡，相關(guān)論文成為24小時內(nèi)關(guān)注度最高的AI論文。 ? 以Meta的美洲駝LLaMA為基礎(chǔ)，得到原駝

發(fā)表于 06-02 15:26 ?756次閱讀

iPhone都能<b class='flag-5'>微調(diào)</b>大<b class='flag-5'>模型</b>了嘛

大模型參數(shù)高效微調(diào)技術(shù)原理綜述

神經(jīng)網(wǎng)絡(luò)包含很多全連接層，其借助于矩陣乘法得以實現(xiàn)，然而，很多全連接層的權(quán)重矩陣都是滿秩的。

發(fā)表于 06-13 14:59 ?2462次閱讀

大<b class='flag-5'>模型</b><b class='flag-5'>參數(shù)</b><b class='flag-5'>高效</b><b class='flag-5'>微調(diào)</b>技術(shù)原理綜述

GLoRA：一種廣義參數(shù)高效的微調(diào)方法

了卓越的能力。 ? 本文提出了廣義LoRA (GLoRA)，一種通用參數(shù)高效微調(diào)任務(wù)的先進方法。增強低秩適應(yīng)(LoRA)， GLoRA 采

發(fā)表于 06-27 16:53 ?847次閱讀

<b class='flag-5'>GLoRA</b>：一種廣義<b class='flag-5'>參數(shù)</b><b class='flag-5'>高效</b>的<b class='flag-5'>微調(diào)</b>方法

OpenAI開放大模型微調(diào)功能　GPT-3.5可以打造專屬ChatGPT

OpenAI開放大模型微調(diào)功能 GPT-3.5可以打造專屬ChatGPT OpenAI開放大模型微調(diào)功能，這意味著GPT-3.5 Turbo支持自定義

發(fā)表于 08-23 19:34 ?1298次閱讀

OpenAI開放大模型微調(diào)功能！

除了提高性能之外，還能縮短提示時間，確保類似性能。另外，微調(diào)目前僅支持處理4000 tokens，這也是此前微調(diào)型號的兩倍。16k tokens微調(diào)將于今年秋季推出。

發(fā)表于 08-24 16:39 ?685次閱讀

OpenAI開放大<b class='flag-5'>模型</b><b class='flag-5'>微調(diào)</b>功能！

北大&華為提出：多模態(tài)基礎(chǔ)大模型的高效微調(diào)

深度學習的大模型時代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個明顯缺點

發(fā)表于 11-08 16:20 ?1140次閱讀

北大&華為提出：多模態(tài)基礎(chǔ)大<b class='flag-5'>模型</b>的<b class='flag-5'>高效</b><b class='flag-5'>微調(diào)</b>

一種新穎的大型語言模型知識更新微調(diào)范式

我們使用LLAMA2-7B作為實驗的基礎(chǔ)模型。我們主要評估將舊知識更新為新知識的能力，因此模型將首先在舊知識上進行為期3個時期的微調(diào)。表1中F-Learning中設(shè)置的超參數(shù)λ分別取值

發(fā)表于 12-01 15:10 ?471次閱讀

一種新穎的大型語言<b class='flag-5'>模型</b>知識更新<b class='flag-5'>微調(diào)</b>范式

四種微調(diào)大模型的方法介紹

全微調(diào)（Full Fine-tuning）：全微調(diào)是指對整個預(yù)訓(xùn)練模型進行微調(diào)，包括所有的模型參數(shù)

發(fā)表于 01-03 10:57 ?2.5w次閱讀

大模型為什么要微調(diào)？大模型微調(diào)的原理

難以達到最佳性能。為了提升模型在特定任務(wù)上的表現(xiàn)，微調(diào)（Fine-tuning）成為了一個關(guān)鍵步驟。本文將詳細探討大模型為什么要進行微調(diào)以及微調(diào)

發(fā)表于 07-10 10:43 ?4749次閱讀

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

GLoRA—高效微調(diào)模型參數(shù)

評論