欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

介紹一種基于Transformer的大語言模型

深度學(xué)習(xí)自然語言處理 ? 來源:Hugging Face ? 2023-02-21 18:05 ? 次閱讀

譯者按: 最近一段時間,ChatGPT 作為一個現(xiàn)象級應(yīng)用迅速躥紅,也帶動了對其背后的大語言模型 (LLM) 的討論,這些討論甚至出了 AI 技術(shù)圈,頗有些到了街談巷議的程度。在 AI 技術(shù)圈,關(guān)于 LLM 和小模型的討論在此之前已經(jīng)持續(xù)了不短的時間,處于不同生態(tài)位置和產(chǎn)業(yè)環(huán)節(jié)的人都有表達(dá)自己的觀點(diǎn),其中不少是有沖突的。

大模型的研究者和大公司出于不同的動機(jī)站位 LLM,研究者出于對 LLM 的突現(xiàn)能力 (emergent ability) 的好奇和對 LLM 對 NLP 領(lǐng)域能力邊界的拓展、而大公司可能更多出自于商業(yè)利益考量;而社區(qū)和中小公司猶猶豫豫在小模型的站位上徘徊,一方面是由于對 LLM 最終訓(xùn)練、推理和數(shù)據(jù)成本的望而卻步,一方面也是對大模型可能加強(qiáng)大公司數(shù)據(jù)霸權(quán)的隱隱擔(dān)憂。但討論,尤其是公開透明的討論,總是好事,讓大家能夠聽到不同的聲音,才有可能最終收斂至更合理的方案。

我們選譯的這篇文章來自于 2021 年 10 月的 Hugging Face 博客,作者在那個時間點(diǎn)站位的是小模型,一年多以后的 2023 年作者的觀點(diǎn)有沒有改變我們不得而知,但開卷有益,了解作者當(dāng)時考慮的那些點(diǎn),把那些合理的點(diǎn)納入自己的思考體系,并結(jié)合新的進(jìn)展最終作出自己的判斷可能才是最終目的。

不久前,微軟和 Nvidia 推出了 Megatron-Turing NLG 530B,一種基于 Transformer 的模型,被譽(yù)為是 “世界上最大且最強(qiáng)的生成語言模型”。

毫無疑問,此項(xiàng)成果對于機(jī)器學(xué)習(xí)工程來講是一場令人印象深刻的能力展示,表明我們的工程能力已經(jīng)能夠訓(xùn)練如此巨大的模型。然而,我們應(yīng)該為這種超級模型的趨勢感到興奮嗎?我個人傾向于否定的回答。我將在通過本文闡述我的理由。

dc29e0bc-b1ca-11ed-bfe3-dac502259ad0.jpg

這是你的深度學(xué)習(xí)大腦

研究人員估計,人腦平均包含 860 億個神經(jīng)元和 100 萬億個突觸??梢钥隙ǖ氖牵@里面并非所有的神經(jīng)元和突觸都用于語言。有趣的是,GPT-4 預(yù)計有大約 100 萬億個參數(shù)...... 雖然這個類比很粗略,但難道我們不應(yīng)該懷疑一下構(gòu)建與人腦大小相當(dāng)?shù)恼Z言模型長期來講是否是最佳方案?

當(dāng)然,我們的大腦是一個了不起的器官,它經(jīng)過數(shù)百萬年的進(jìn)化而產(chǎn)生,而深度學(xué)習(xí)模型僅有幾十年的歷史。不過,我們的直覺告訴我們: 有些東西無法計算 (這是個雙關(guān)語,:)) 。

深度學(xué)習(xí),深度銷金窟?

如你所料,在龐大的文本數(shù)據(jù)集上訓(xùn)練一個 5300 億參數(shù)的模型需要相當(dāng)多的基礎(chǔ)設(shè)施。事實(shí)上,Microsoft 和 Nvidia 使用了數(shù)百臺 DGX A100 GPU 服務(wù)器,每臺 19 萬 9 千美元。如果再把網(wǎng)絡(luò)設(shè)備、托管成本等因素考慮進(jìn)去的話,任何想要重現(xiàn)該實(shí)驗(yàn)的組織或個人都必須花費(fèi)近 1 億美元。來根薯?xiàng)l壓壓驚?

說真的,有哪些組織有那種值得花費(fèi) 1 億美元來構(gòu)建深度學(xué)習(xí)基礎(chǔ)設(shè)施的業(yè)務(wù)?再少點(diǎn),又有哪些組織有那種可以值得花費(fèi) 1000 萬美元基礎(chǔ)設(shè)施的業(yè)務(wù)?很少。既然很少,那么請問,這些模型為誰而生呢?

GPU 集群的熱

盡管訓(xùn)練大模型需要杰出的工程能力,但在 GPU 上訓(xùn)練深度學(xué)習(xí)模型本身卻是一種蠻力技術(shù)。根據(jù)規(guī)格表,每臺 DGX 服務(wù)器可消耗高達(dá) 6.5 千瓦的功率。同時,數(shù)據(jù)中心 (或服務(wù)器機(jī)柜) 至少需要同樣多的冷卻能力。除非你是史塔克家族的人 (Starks) ,需要在冬天讓臨冬城 (Winterfell) 保持溫暖,否則你必須處理散熱問題。

此外,隨著公眾對氣候和社會責(zé)任問題意識的增強(qiáng),還需要考慮碳足跡問題。根據(jù)馬薩諸塞大學(xué) 2019 年的一項(xiàng)研究,“在 GPU 上訓(xùn)練一次 BERT 產(chǎn)生的碳足跡大致與一次跨美飛行相當(dāng)”。

BERT-Large 有 3.4 億個參數(shù)。我們可以通過此推斷 Megatron-Turing 的碳足跡大致如何……認(rèn)識我的人都知道,我并不是一個熱血環(huán)保主義者。盡管如此,這些數(shù)字也不容忽視。

所以呢?

我對 Megatron-Turing NLG 530B 和接下來可能會出現(xiàn)的模型巨獸感到興奮嗎?不。我認(rèn)為值得增加成本、復(fù)雜性以及碳足跡去換取 (相對較小的) 測試基準(zhǔn)上的改進(jìn)嗎?不。我認(rèn)為構(gòu)建和推廣這些龐大的模型能幫助組織理解和應(yīng)用機(jī)器學(xué)習(xí)嗎?不。

我想知道這一切有什么意義。為了科學(xué)而科學(xué)?好的老營銷策略?技術(shù)至上?可能每個都有一點(diǎn)。如果是這些意義的話,我就不奉陪了。

相反,我更專注于實(shí)用且可操作的技術(shù),大家都可以使用這些技術(shù)來構(gòu)建高質(zhì)量的機(jī)器學(xué)習(xí)解決方案。

使用預(yù)訓(xùn)練模型

在絕大多數(shù)情況下,你不需要自定義模型架構(gòu)。也許你會 想要 自己定制一個模型架構(gòu) (這是另一回事),但請注意此處猛獸出沒,僅限資深玩家!

一個好的起點(diǎn)是尋找已經(jīng)針對你要解決的任務(wù)預(yù)訓(xùn)練過的模型 (例如,英文文本摘要) 。

然后,你應(yīng)該快速嘗試一些模型,用它們來預(yù)測你自己的數(shù)據(jù)。如果指標(biāo)效果不錯,那么打完收工!如果還需要更高一點(diǎn)的準(zhǔn)確率,你應(yīng)該考慮對模型進(jìn)行微調(diào) (稍后會詳細(xì)介紹) 。

使用較小的模型

在評估模型時,你應(yīng)該從那些精度滿足要求的模型中選擇尺寸最小的那個。它預(yù)測得更快,并且需要更少的硬件資源來進(jìn)行訓(xùn)練和推理。節(jié)儉需要從一開始就做起。

這其實(shí)也不算什么新招。計算機(jī)視覺從業(yè)者會記得 SqueezeNet 2017 年問世時,與 AlexNet 相比,模型尺寸減少了 50 倍,而準(zhǔn)確率卻與 AlexNet 相當(dāng)甚至更高。多聰明!

自然語言處理社區(qū)也在致力于使用遷移學(xué)習(xí)技術(shù)縮減模型尺寸,如使用知識蒸餾技術(shù)。DistilBERT 也許是其中最廣為人知的工作。與原始 BERT 模型相比,它保留了 97% 的語言理解能力,同時尺寸縮小了 40%,速度提高了 60%。你可以 Hugging Face 嘗試一下 DistilBERT。同樣的方法也已經(jīng)應(yīng)用于其他模型,例如 Facebook 的 BART,你可以在 Hugging Face 嘗試 DistilBART。

Big Science 項(xiàng)目的最新模型也令人印象深刻。下面這張來自于論文的圖表明,他們的 T0 模型在許多任務(wù)上都優(yōu)于 GPT-3,同時尺寸小 16 倍。你可以 Hugging Face 嘗試 T0。

dc47ba88-b1ca-11ed-bfe3-dac502259ad0.png

微調(diào)模型

如果你需要特化一個模型,你不應(yīng)該從頭開始訓(xùn)練它。相反,你應(yīng)該對其進(jìn)行微調(diào),也就是說,僅針對你自己的數(shù)據(jù)訓(xùn)練幾個回合。如果你缺少數(shù)據(jù),也許這些數(shù)據(jù)集中的某個可以幫助你入門。

猜對了,這是進(jìn)行遷移學(xué)習(xí)的另一種方式,它會幫助你節(jié)省一切!

收集、存儲、清理和標(biāo)注的數(shù)據(jù)更少,

更快的實(shí)驗(yàn)和迭代,

生產(chǎn)過程所需的資源更少。

換句話說: 節(jié)省時間,節(jié)省金錢,節(jié)省硬件資源,拯救世界!

如果你需要教程,Hugging Face 課程可以幫助你立即入門。

使用云基礎(chǔ)設(shè)施

不管你是否喜歡它們,事實(shí)是云公司懂得如何構(gòu)建高效的基礎(chǔ)設(shè)施??沙掷m(xù)性研究表明,基于云的基礎(chǔ)設(shè)施比其他替代方案更節(jié)能減排: 請參閱 AWS、Azure 和 Google。Earth.org 宣稱雖然云基礎(chǔ)設(shè)施并不完美,“[它] 比替代方案更節(jié)能,并促進(jìn)了環(huán)境友好的服務(wù)及經(jīng)濟(jì)增長。"

在易用性、靈活性和隨用隨付方面,云肯定有很多優(yōu)勢。它也比你想象的更環(huán)保。如果你的 GPU 不夠用,為什么不嘗試在 AWS 的機(jī)器學(xué)習(xí)托管服務(wù) Amazon SageMaker 上微調(diào)你的 Hugging Face 模型?我們?yōu)槟銣?zhǔn)備了大量示例。

優(yōu)化你的模型

從編譯器到虛擬機(jī),軟件工程師長期以來一直在使用能夠針對任何運(yùn)行硬件自動優(yōu)化代碼的工具。

然而,機(jī)器學(xué)習(xí)社區(qū)仍在這個課題上苦苦掙扎,這是有充分理由的。優(yōu)化模型的尺寸和速度是一項(xiàng)極其復(fù)雜的任務(wù),其中涉及以下技術(shù):

專用硬件加速: 如訓(xùn)練加速硬件 (Graphcore、Habana) 、推理加速硬件 (Google TPU,AWS Inferentia)。

剪枝: 刪除對預(yù)測結(jié)果影響很小或沒有影響的模型參數(shù)。

融合: 合并模型層 (例如,卷積和激活) 。

量化: 以較小的位深存儲模型參數(shù) (例如,使用 8 位而不是 32 位)

幸運(yùn)的是,自動化工具開始出現(xiàn),例如 Optimum 開源庫和 Infinity,Infinity 是一個最低能以 1 毫秒的延遲提供 Transformers 推理能力的容器化解決方案。

結(jié)論

在過去的幾年里,大語言模型的尺寸平均每年增長 10 倍。這開始看起來像另一個摩爾定律。

這條路似曾相識,我們應(yīng)該知道這條路遲早會遇到收益遞減、成本增加、復(fù)雜性等問題以及新的風(fēng)險。指數(shù)的結(jié)局往往不是會很好。還記得 Meltdown and Spectre 嗎?我們想知道人工智能的 Meltdown and Spectre 會是什么嗎?





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4790

    瀏覽量

    129446
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8449

    瀏覽量

    133135
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    489

    瀏覽量

    22120
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1571

    瀏覽量

    8120

原文標(biāo)題:大語言模型: 新的摩爾定律?

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    語言模型背后的Transformer,與CNN和RNN有何不同

    ? 電子發(fā)燒友網(wǎng)報道(文/李彎彎)近年來,隨著大語言模型的不斷出圈,Transformer概念也走進(jìn)了大眾視野。Transformer
    的頭像 發(fā)表于 12-25 08:36 ?4455次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>背后的<b class='flag-5'>Transformer</b>,與CNN和RNN有何不同

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    模型仍以Transformer為基礎(chǔ)進(jìn)行訓(xùn)練。Transformer一種基于自注意力機(jī)制的編碼器-解碼器結(jié)構(gòu),其核心由編碼器和解碼器組成,每個部分均由多個相同層堆疊而成。自注意力機(jī)制
    發(fā)表于 05-05 12:17

    語言模型:原理與工程時間+小白初識大語言模型

    開拓深度學(xué)習(xí)的思路。對于新涌現(xiàn)的大語言模型的能力,主要是表現(xiàn)在學(xué)習(xí)能力的提升、語言理解和生成能力、創(chuàng)新和探索的能力。 基礎(chǔ)技術(shù) 詞表示技術(shù) 詞表示般分為三
    發(fā)表于 05-12 23:57

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

    的表達(dá)方式和生成能力。通過預(yù)測文本中缺失的部分或下個詞,模型逐漸掌握語言的規(guī)律和特征。 常用的模型結(jié)構(gòu) Transformer架構(gòu):大
    發(fā)表于 08-02 11:03

    如何更改ABBYY PDF Transformer+界面語言

    在安裝ABBYY PDF Transformer+時會讓您選擇界面語言。此語言將用于所有消息、對話框、按鈕和菜單項(xiàng)。在特殊情況下,您可能需要在安裝完成后更改界面語言以適應(yīng)需求,方法其實(shí)
    發(fā)表于 10-11 16:13

    ABBYY PDF Transformer+改善轉(zhuǎn)換結(jié)果之識別語言

    ABBYY PDF Transformer+識別語言、打開編輯菜單然后單擊首選項(xiàng);二、在首選項(xiàng)對話框中,從識別語言下拉列表中選擇項(xiàng):1
    發(fā)表于 10-18 10:09

    你了解在單GPU上就可以運(yùn)行的Transformer模型

    的鄰居:在深度學(xué)習(xí)中,注意力是一種機(jī)制,它使網(wǎng)絡(luò)能夠根據(jù)上下文的不同部分與當(dāng)前時間步長之間的相關(guān)性,將注意力集中在上下文的不同部分。transformer模型中存在三注意機(jī)制:圖3:
    發(fā)表于 11-02 15:19

    一種新的動態(tài)微觀語言競爭社會仿真模型

    語言競爭傳播演化現(xiàn)象是典型的不能假設(shè)、無法進(jìn)行真實(shí)性實(shí)驗(yàn)的社會科學(xué)問題,而建立在社會仿真模型基礎(chǔ)上的計算實(shí)驗(yàn)是可行的方案。利用基于Agent的社會圈子網(wǎng)絡(luò)理論并引入語言的內(nèi)部詞匯結(jié)構(gòu)給出一種
    發(fā)表于 11-23 15:41 ?6次下載

    超大Transformer語言模型的分布式訓(xùn)練框架

    NVIDIA Megatron 是個基于 PyTorch 的框架,用于訓(xùn)練基于 Transformer 架構(gòu)的巨型語言模型。本系列文章將詳細(xì)介紹
    的頭像 發(fā)表于 10-11 16:46 ?2795次閱讀
    超大<b class='flag-5'>Transformer</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>的分布式訓(xùn)練框架

    探究超大Transformer語言模型的分布式訓(xùn)練框架

    NVIDIA Megatron 是個基于 PyTorch 的框架,用于訓(xùn)練基于 Transformer 架構(gòu)的巨型語言模型。本系列文章將詳細(xì)介紹
    的頭像 發(fā)表于 10-20 09:25 ?2517次閱讀

    一種基于亂序語言模型的預(yù)訓(xùn)練模型-PERT

    由于亂序語言模型不使用[MASK]標(biāo)記,減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap,并由于預(yù)測空間大小為輸入序列長度,使得計算效率高于掩碼語言模型。PERT
    的頭像 發(fā)表于 05-10 15:01 ?1606次閱讀

    基于Transformer的大型語言模型(LLM)的內(nèi)部機(jī)制

    本文旨在更好地理解基于 Transformer 的大型語言模型(LLM)的內(nèi)部機(jī)制,以提高它們的可靠性和可解釋性。 隨著大型語言模型(LLM
    的頭像 發(fā)表于 06-25 15:08 ?1579次閱讀
    基于<b class='flag-5'>Transformer</b>的大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(LLM)的內(nèi)部機(jī)制

    語言模型中的語言與知識:一種神秘的分離現(xiàn)象

    自然語言處理領(lǐng)域存在著個非常有趣的現(xiàn)象:在多語言模型中,不同的語言之間似乎存在著一種隱含的對齊
    發(fā)表于 02-20 14:53 ?606次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>中的<b class='flag-5'>語言</b>與知識:<b class='flag-5'>一種</b>神秘的分離現(xiàn)象

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建
    的頭像 發(fā)表于 07-02 11:41 ?1903次閱讀

    Transformer語言模型簡介與實(shí)現(xiàn)過程

    在自然語言處理(NLP)領(lǐng)域,Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來最引人注目的技術(shù)之。Transformer
    的頭像 發(fā)表于 07-10 11:48 ?2131次閱讀