欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

只需一個(gè)API,包含了27個(gè)預(yù)訓(xùn)練模型

DPVg_AI_era ? 來(lái)源:lq ? 2019-07-27 07:52 ? 次閱讀

只需一個(gè)API,直接調(diào)用BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM等6大框架,包含了27個(gè)預(yù)訓(xùn)練模型。簡(jiǎn)單易用,功能強(qiáng)大。

One API to rule them all。

前幾日,著名最先進(jìn)的自然語(yǔ)言處理預(yù)訓(xùn)練模型庫(kù)項(xiàng)目pytorch-pretrained-bert改名Pytorch-Transformers重裝襲來(lái),1.0.0版橫空出世。

只需一個(gè)API,直接調(diào)用BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM等6大框架,包含了27個(gè)預(yù)訓(xùn)練模型。

簡(jiǎn)單易用,功能強(qiáng)大。目前已經(jīng)包含了PyTorch實(shí)現(xiàn)、預(yù)訓(xùn)練模型權(quán)重、運(yùn)行腳本和以下模型的轉(zhuǎn)換工具:

BERT,論文:“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”,論文作者:Jacob Devlin, Ming-Wei Chang, Kenton Lee,Kristina Toutanova

OpenAI 的GPT,論文:“Improving Language Understanding by Generative Pre-Training”,論文作者:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever

OpenAI的GPT-2,論文:“Language Models are Unsupervised Multitask Learners”,論文作者:Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei,Ilya Sutskever

谷歌和CMU的Transformer-XL,論文:“Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context”,論文作者:Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov.

谷歌和CMU的XLNet,論文:“XLNet: Generalized Autoregressive Pretraining for Language Understanding”,論文作者:Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le

Facebook的XLM,論文:“Cross-lingual Language Model Pretraining”,論文作者:Guillaume Lample,Alexis Conneau

這些實(shí)現(xiàn)都在幾個(gè)數(shù)據(jù)集(參見(jiàn)示例腳本)上進(jìn)行了測(cè)試,性能與原始實(shí)現(xiàn)相當(dāng),例如BERT中文全詞覆蓋在SQuAD數(shù)據(jù)集上的F1分?jǐn)?shù)為93;OpenAI GPT 在RocStories上的F1分?jǐn)?shù)為88;Transformer-XL在WikiText 103上的困惑度為18.3;XLNet在STS-B的皮爾遜相關(guān)系數(shù)為0.916。

項(xiàng)目中提供27個(gè)預(yù)訓(xùn)練模型,下面是這些模型的完整列表,以及每個(gè)模型的簡(jiǎn)短介紹。

BERT-base和BERT-large分別是110M和340M參數(shù)模型,并且很難在單個(gè)GPU上使用推薦的批量大小對(duì)其進(jìn)行微調(diào),來(lái)獲得良好的性能(在大多數(shù)情況下批量大小為32)。

為了幫助微調(diào)這些模型,作者提供了幾種可以在微調(diào)腳本中激活的技術(shù) run_bert_classifier.py和run_bert_squad.py:梯度累積(gradient-accumulation),多GPU訓(xùn)練(multi-gpu training),分布式訓(xùn)練(distributed training )和16- bits 訓(xùn)練( 16-bits training)。

注意,這里要使用分布式訓(xùn)練和16- bits 訓(xùn)練,你需要安裝NVIDIA的apex擴(kuò)展。

作者在doc中展示了幾個(gè)基于BERT原始實(shí)現(xiàn)和擴(kuò)展的微調(diào)示例,分別為:

九個(gè)不同GLUE任務(wù)的序列級(jí)分類(lèi)器;

問(wèn)答集數(shù)據(jù)集SQUAD上的令牌級(jí)分類(lèi)器;

SWAG分類(lèi)語(yǔ)料庫(kù)中的序列級(jí)多選分類(lèi)器;

另一個(gè)目標(biāo)語(yǔ)料庫(kù)上的BERT語(yǔ)言模型。

這里僅展示GLUE的結(jié)果:

該項(xiàng)目是在Python 2.7和3.5+上測(cè)試(例子只在python 3.5+上測(cè)試)和PyTorch 0.4.1到1.1.0測(cè)試。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    620

    瀏覽量

    13658
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    808

    瀏覽量

    13383

原文標(biāo)題:GitHub超9千星:一個(gè)API調(diào)用27個(gè)NLP預(yù)訓(xùn)練模型

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    KerasHub統(tǒng)、全面的預(yù)訓(xùn)練模型庫(kù)

    深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展,在處理各種類(lèi)型的任務(wù)中,預(yù)訓(xùn)練模型變得越來(lái)越重要。Keras 以其用戶(hù)友好型 API 和對(duì)易用性的重視而聞名,始終處于這
    的頭像 發(fā)表于 12-20 10:32 ?181次閱讀

    什么是大模型、大模型是怎么訓(xùn)練出來(lái)的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型個(gè)簡(jiǎn)稱(chēng),完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練
    的頭像 發(fā)表于 11-25 09:29 ?5422次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來(lái)的及大<b class='flag-5'>模型</b>作用

    從零開(kāi)始訓(xùn)練個(gè)大語(yǔ)言模型需要投資多少錢(qián)?

    ,前言 ? 在AI領(lǐng)域,訓(xùn)練個(gè)大型語(yǔ)言模型(LLM)是
    的頭像 發(fā)表于 11-08 14:15 ?362次閱讀
    從零開(kāi)始<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>大語(yǔ)言<b class='flag-5'>模型</b>需要投資多少錢(qián)?

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開(kāi)播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目預(yù)
    的頭像 發(fā)表于 10-18 08:09 ?282次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)

    如何訓(xùn)練個(gè)有效的eIQ基本分類(lèi)模型

    在 MCX CPU和eIQ Neutron NPU上。 eIQPortal它是個(gè)直觀(guān)的圖形用戶(hù)界面(GUI),簡(jiǎn)化了ML開(kāi)發(fā)。開(kāi)發(fā)人員可以創(chuàng)建、優(yōu)化、調(diào)試和導(dǎo)出ML模型,以及導(dǎo)入數(shù)據(jù)集和模型
    的頭像 發(fā)表于 08-01 09:29 ?2056次閱讀
    如何<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>有效的eIQ基本分類(lèi)<b class='flag-5'>模型</b>

    預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

    預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念,它們?cè)谔岣?b class='flag-5'>模型性能、減少訓(xùn)練時(shí)間和降低對(duì)數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定
    的頭像 發(fā)表于 07-11 10:12 ?1299次閱讀

    大語(yǔ)言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型預(yù)訓(xùn)練是這技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?564次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的個(gè)重要概念,尤其是在自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)
    的頭像 發(fā)表于 07-03 18:20 ?3225次閱讀

    解讀PyTorch模型訓(xùn)練過(guò)程

    PyTorch作為個(gè)開(kāi)源的機(jī)器學(xué)習(xí)庫(kù),以其動(dòng)態(tài)計(jì)算圖、易于使用的API和強(qiáng)大的靈活性,在深度學(xué)習(xí)領(lǐng)域得到了廣泛的應(yīng)用。本文將深入解讀PyTorch模型
    的頭像 發(fā)表于 07-03 16:07 ?1210次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過(guò)程詳解

    深度學(xué)習(xí)模型訓(xùn)練個(gè)復(fù)雜且關(guān)鍵的過(guò)程,它涉及大量的數(shù)據(jù)、計(jì)算資源和精心設(shè)計(jì)的算法。訓(xùn)練
    的頭像 發(fā)表于 07-01 16:13 ?1562次閱讀

    大語(yǔ)言模型:原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

    的分布式表示,基于預(yù)訓(xùn)練的詞嵌入表示。 獨(dú)熱表示就是在個(gè)大的向量空間中,其中個(gè)位1,其余都為
    發(fā)表于 05-12 23:57

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型預(yù)訓(xùn)練

    進(jìn)行損失計(jì)算,得到下一個(gè)目標(biāo)的預(yù)測(cè)。也會(huì)設(shè)計(jì)些其他輔助訓(xùn)練任務(wù),與主任務(wù)共同訓(xùn)練。選擇合適的預(yù)訓(xùn)練
    發(fā)表于 05-07 17:10

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    就無(wú)法修改,因此難以靈活應(yīng)用于下游文本的挖掘中。 詞嵌入表示:將每個(gè)詞映射為個(gè)低維稠密的實(shí)值向量。不同的是,基于預(yù)訓(xùn)練的詞嵌入表示先在語(yǔ)料庫(kù)中利用某種語(yǔ)言
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    的具體需求,這通常需要較少量的標(biāo)注數(shù)據(jù)。 多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí): LLMs利用在預(yù)訓(xùn)練中積累的知識(shí),可以通過(guò)遷移學(xué)習(xí)在相關(guān)任務(wù)上快速適應(yīng),有時(shí)還可以在個(gè)
    發(fā)表于 05-05 10:56

    谷歌模型訓(xùn)練軟件有哪些功能和作用

    谷歌模型訓(xùn)練軟件主要是指ELECTRA,這是種新的預(yù)訓(xùn)練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢(shì),而且在效率上更勝
    的頭像 發(fā)表于 02-29 17:37 ?868次閱讀