九色精品一区二区国产,精品久久久亚洲男人av

「論文」: Scaling Instruction-Finetuned Language Models
「地址」: https://arxiv.org/abs/2210.11416
「模型」: https://huggingface.co/google/flan-t5-xxl

1. Flan-T5是什么

「Flan-T5」是Google最新的一篇工作，通過(guò)在超大規(guī)模的任務(wù)上進(jìn)行微調(diào)，讓語(yǔ)言模型具備了極強(qiáng)的泛化性能，做到單個(gè)模型就可以在1800多個(gè)NLP任務(wù)上都能有很好的表現(xiàn)。這意味著模型一旦訓(xùn)練完畢，可以直接在幾乎全部的NLP任務(wù)上直接使用，實(shí)現(xiàn)「One model for ALL tasks」，這就非常有誘惑力！

這里的Flan指的是（Instruction finetuning），即"基于指令的微調(diào)"；T5是2019年Google發(fā)布的一個(gè)語(yǔ)言模型了。注意這里的語(yǔ)言模型可以進(jìn)行任意的替換（需要有Decoder部分，所以「不包括BERT這類純Encoder語(yǔ)言模型」），論文的核心貢獻(xiàn)是提出一套多任務(wù)的微調(diào)方案（Flan），來(lái)極大提升語(yǔ)言模型的泛化性。

Flat

例如下面文章中的例子，模型訓(xùn)練好之后，可直接讓模型做問(wèn)答:

「模型輸入」是："Geoffrey Hinton和George Washington這兩個(gè)人有沒(méi)有交談過(guò)？在回答之前想一想原因?！?/p>
「模型返回」是：Geoffrey Hinton是一個(gè)計(jì)算機(jī)科學(xué)家，出生在1947年；而George Washington在1799年去世。所以這兩個(gè)不可能有過(guò)交談。所以答案時(shí)“沒(méi)有”。

2. 怎么做的

1800+微調(diào)任務(wù)

(1) 「任務(wù)收集」：工作的第一步是收集一系列監(jiān)督的數(shù)據(jù)，這里一個(gè)任務(wù)可以被定義成<數(shù)據(jù)集，任務(wù)類型的形式>，比如“基于SQuAD數(shù)據(jù)集的問(wèn)題生成任務(wù)”。需要注意的是這里有9個(gè)任務(wù)是需要進(jìn)行推理的任務(wù)，即Chain-of-thought （CoT）任務(wù)。

(2) 「形式改寫(xiě)」：因?yàn)樾枰脝蝹€(gè)語(yǔ)言模型來(lái)完成超過(guò)1800+種不同的任務(wù)，所以需要將任務(wù)都轉(zhuǎn)換成相同的“輸入格式”喂給模型訓(xùn)練，同時(shí)這些任務(wù)的輸出也需要是統(tǒng)一的“輸出格式”。

輸入輸出格式

如上圖所示，根據(jù) “是否需要進(jìn)行推理（CoT）” 以及 “是否需要提供示例（Few-shot）” 可將輸入輸出劃分成四種類型：

chain-of-thought : and few-shot: （圖中左上）
- 輸入：指令 + 問(wèn)題
- 輸出：答案
chain-of-thought : and few-shot: （圖中右上）
- 輸入：指令 + CoT引導(dǎo)（by reasoning step by step） + 問(wèn)題
- 輸出：理由 + 答案
chain-of-thought: and few-shot: （圖中左下）
- 輸入：指令 + 示例問(wèn)題 + 示例問(wèn)題回答 + 指令 + 問(wèn)題
- 輸出：答案
chain-of-thought: and few-shot: （圖中右下）
- 輸入：指令 + CoT引導(dǎo) + 示例問(wèn)題 + 示例問(wèn)題理由 + 示例問(wèn)題回答 + 指令 + CoT引導(dǎo) + 問(wèn)題
- 輸出：理由 + 答案

(3) 「訓(xùn)練過(guò)程」：采用恒定的學(xué)習(xí)率以及Adafactor優(yōu)化器進(jìn)行訓(xùn)練；同時(shí)會(huì)將多個(gè)訓(xùn)練樣本“打包”成一個(gè)訓(xùn)練樣本，這些訓(xùn)練樣本直接會(huì)通過(guò)一個(gè)特殊的“結(jié)束token”進(jìn)行分割。訓(xùn)練時(shí)候在每個(gè)指定的步數(shù)會(huì)在“保留任務(wù)”上進(jìn)行模型評(píng)估，保存最佳的checkpoint。

保留任務(wù)

盡管微調(diào)的任務(wù)數(shù)量很多，但是相比于語(yǔ)言模型本身的預(yù)訓(xùn)練過(guò)程，計(jì)算量小了非常多，只有0.2%。所以通過(guò)這個(gè)方案，大公司訓(xùn)練好的語(yǔ)言模型可以被再次有效的利用，我們只需要做好“微調(diào)”即可，不用重復(fù)耗費(fèi)大量計(jì)算資源再去訓(xùn)一個(gè)語(yǔ)言模型。

微調(diào)過(guò)程與預(yù)訓(xùn)練本身的計(jì)算量對(duì)比

3. 一些結(jié)論

(1) 微調(diào)很重要

直接預(yù)測(cè)（紅框）微調(diào)（綠框）

與不微調(diào)相比，通過(guò)基于指令的微調(diào)（flan）可以大幅度提高語(yǔ)言模型的效果。

(2) 模型越大效果越好

模型大小與任務(wù)數(shù)量對(duì)效果的影響

伴隨模型體積的增加(上圖左)，尤其是指數(shù)級(jí)的增加，比如從8B->62B，再?gòu)?2B->540B，不論是否微調(diào)，效果都有非常顯著的提升，而且還沒(méi)有看到收斂的信號(hào)，可能如果有了 “萬(wàn)億”參數(shù)的模型，效果還能繼續(xù)提升。

(3) 任務(wù)越多效果越好

伴隨任務(wù)數(shù)量的增加(上圖右)，模型的性能也會(huì)跟著增加，但是當(dāng)任務(wù)數(shù)量超過(guò)282個(gè)之后，提升就不是很明顯了。因?yàn)槔^續(xù)增加新的任務(wù)，尤其任務(wù)形式跟之前一樣，不會(huì)給模型帶來(lái)新的知識(shí)；多任務(wù)微調(diào)的本質(zhì)是模型能夠更好的把從預(yù)訓(xùn)練學(xué)到的知識(shí)進(jìn)行表達(dá)，超過(guò)一定任務(wù)之后，繼續(xù)新增相似的任務(wù)，知識(shí)的表達(dá)能力不會(huì)繼續(xù)有很大的收益。進(jìn)一步統(tǒng)計(jì)全部微調(diào)數(shù)據(jù)集的token數(shù)，發(fā)現(xiàn)只占到了預(yù)訓(xùn)練數(shù)據(jù)token數(shù)的0.2%，這表明還是有很多的知識(shí)沒(méi)有在微調(diào)階段重新被激發(fā)。

(4) 混雜CoT相關(guān)的任務(wù)很重要

保留任務(wù)中 CoT相關(guān)的任務(wù) 以及非CoT相關(guān)的任務(wù)

盡管在1800多個(gè)任務(wù)中只有9個(gè)需要推理再給出回答的任務(wù)（CoT任務(wù)），但是混雜了這9個(gè)任務(wù)之后對(duì)整個(gè)模型的提升很大。在針對(duì)CoT相關(guān)任務(wù)的預(yù)測(cè)上，如果在微調(diào)中混淆CoT任務(wù)能帶來(lái)明顯的提升（左圖中藍(lán)色和綠色線）；在針對(duì)非CoT相關(guān)任務(wù)的預(yù)測(cè)上，如果在微調(diào)中混淆了CoT任務(wù)也不會(huì)對(duì)模型帶來(lái)傷害（右圖中藍(lán)色和綠色線）。

zero-shot上是否引入CoT的對(duì)比

(5) 整合起來(lái)

最終在多個(gè)不同尺寸的模型上進(jìn)行實(shí)驗(yàn)，都可以獲得一致性的結(jié)論：引入Flan微調(diào)方案，可以很好提高語(yǔ)言模型在超大規(guī)模任務(wù)上的整體效果。

不同版本的模型

總結(jié)一下，這篇工作提出了Flan的微調(diào)框架，核心有四點(diǎn)：統(tǒng)一的輸入輸出格式（4種類型），引入chain-of-thought，大幅提高任務(wù)數(shù)量，大幅提高模型體積；實(shí)現(xiàn)了用一個(gè)模型來(lái)解決超過(guò)1800種幾乎全部的NLP任務(wù)，通過(guò)較低的成本，極大發(fā)掘了現(xiàn)有語(yǔ)言模型的泛化性能，讓大家看到了通用模型的希望，即「One Model for ALL Tasks」。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

Google

Google

+關(guān)注

關(guān)注
5

文章
1772

瀏覽量
57837
模型

模型

+關(guān)注

關(guān)注
1

文章
3342

瀏覽量
49270
nlp

nlp

+關(guān)注

關(guān)注
1

文章
489

瀏覽量
22117

原文標(biāo)題：谷歌提出Flan-T5，一個(gè)模型解決所有NLP任務(wù)

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

Transformer語(yǔ)言模型簡(jiǎn)介與實(shí)現(xiàn)過(guò)程

在自然語(yǔ)言處理（NLP）領(lǐng)域，Transformer模型以其卓越的性能和廣泛的應(yīng)用前景，成為了近年來(lái)最引人注目的技術(shù)之一。Transformer模型由

發(fā)表于 07-10 11:48 ?2121次閱讀

nlp邏輯層次模型的特點(diǎn)

NLP（自然語(yǔ)言處理）邏輯層次模型是一種用于理解和生成自然語(yǔ)言文本的計(jì)算模型。它將自然語(yǔ)言文本分解為不同的層次，以便于計(jì)算機(jī)更好地處理和理解。以下是對(duì)

發(fā)表于 07-09 10:39 ?471次閱讀

nlp自然語(yǔ)言處理的主要任務(wù)及技術(shù)方法

自然語(yǔ)言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能和語(yǔ)言學(xué)領(lǐng)域的一個(gè)分支，它研究如何讓計(jì)算機(jī)能夠理解、生成和處理人類語(yǔ)言。NLP技術(shù)在許多領(lǐng)域

發(fā)表于 07-09 10:26 ?1318次閱讀

llm模型有哪些格式

LLM（Large Language Model，大型語(yǔ)言模型）是一種深度學(xué)習(xí)模型，主要用于處理自然語(yǔ)言處理（NLP）任務(wù)。LLM

發(fā)表于 07-09 09:59 ?787次閱讀

nlp自然語(yǔ)言處理模型怎么做

自然語(yǔ)言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能領(lǐng)域的一個(gè)重要分支，它涉及到計(jì)算機(jī)對(duì)人類語(yǔ)言的理解和生成。隨著深度學(xué)習(xí)技術(shù)的發(fā)展，NLP領(lǐng)域

發(fā)表于 07-05 09:59 ?728次閱讀

nlp自然語(yǔ)言處理模型有哪些

自然語(yǔ)言處理（Natural Language Processing，NLP）是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要分支，旨在使計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言。以下是對(duì)NLP領(lǐng)域

發(fā)表于 07-05 09:57 ?892次閱讀

NLP模型中RNN與CNN的選擇

在NLP中的應(yīng)用場(chǎng)景、工作原理、優(yōu)缺點(diǎn)，以及在選擇時(shí)應(yīng)考慮的關(guān)鍵因素，以期為讀者提供一個(gè)全面而深入的理解。

發(fā)表于 07-03 15:59 ?657次閱讀

谷歌提出大規(guī)模ICL方法

谷歌DeepMind團(tuán)隊(duì)近日取得了一項(xiàng)突破性的研究成果。他們提出了強(qiáng)化和無(wú)監(jiān)督兩種新型的ICL（In-Context Learning）學(xué)習(xí)方法，這一創(chuàng)新技術(shù)能夠在多個(gè)領(lǐng)域顯著提升

發(fā)表于 05-14 14:17 ?411次閱讀

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

，這也是如今生成式 AI 中大語(yǔ)言模型最流行訓(xùn)練架構(gòu)。(3) Encoder-Decoder預(yù)訓(xùn)練語(yǔ)言模型:這類模型旨在將各種自然語(yǔ)言處理任務(wù)統(tǒng)為一

發(fā)表于 05-05 12:17

谷歌模型框架是什么軟件？谷歌模型框架怎么用？

谷歌模型框架通常指的是谷歌開(kāi)發(fā)的用于機(jī)器學(xué)習(xí)和人工智能的軟件框架，其中最著名的是TensorFlow。TensorFlow是一個(gè)開(kāi)源的機(jī)器學(xué)

發(fā)表于 03-01 16:25 ?990次閱讀

谷歌模型怎么用手機(jī)打開(kāi)

要使用手機(jī)打開(kāi)谷歌模型，首先需要明確一點(diǎn)：谷歌模型本身是在計(jì)算機(jī)上運(yùn)行的程序或算法，而不是可以直接在手機(jī)上打開(kāi)的應(yīng)用程序。然而，你可以通過(guò)手

發(fā)表于 03-01 16:23 ?690次閱讀

谷歌模型合成軟件有哪些

谷歌模型合成軟件通常指的是谷歌提供的用于創(chuàng)建、修改和共享3D模型的軟件。目前，谷歌推出的模型合成

發(fā)表于 02-29 18:20 ?1474次閱讀

谷歌模型框架是什么？有哪些功能和應(yīng)用？

谷歌模型框架（Google Model Framework）并不是一個(gè)特定的框架，而是指谷歌開(kāi)發(fā)的一

發(fā)表于 02-29 18:11 ?1618次閱讀

谷歌交互世界模型重磅發(fā)布

谷歌模型

北京中科同志科技股份有限公司
發(fā)布于 :2024年02月28日 09:13:06

谷歌大型模型終于開(kāi)放源代碼，遲到但重要的開(kāi)源戰(zhàn)略

在人工智能領(lǐng)域，谷歌可以算是開(kāi)源的鼻祖。今天幾乎所有的大語(yǔ)言模型，都基于谷歌在 2017 年發(fā)布的 Transformer 論文；谷歌的發(fā)布

發(fā)表于 02-22 18:14 ?522次閱讀

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

谷歌提出Flan-T5，一個(gè)模型解決所有NLP任務(wù)