黄色小说在线观看免费无码片,少妇人妻精品免费视频久久久

產(chǎn)生性人工智能的近期進(jìn)展大部分來自去除傳播模型,這些模型能夠從文本提示中產(chǎn)生高質(zhì)量的圖像和視頻。這個家族包括圖像、 DALLE、延遲傳播等。但是,這個家族的所有模型都有一個共同的缺點: 生成速度相當(dāng)緩慢, 因為生成圖像的取樣過程具有迭接性。這使得優(yōu)化取樣圈內(nèi)運(yùn)行的代碼非常重要。

我們以開放源實施流行文本到圖像傳播模式作為起點,利用PyTorrch 2:編集和快速關(guān)注實施中的兩種優(yōu)化方法加快其生成速度,同時對代碼進(jìn)行少量的記憶處理改進(jìn),這些優(yōu)化使原實施速度比原實施速度加快49%。舊前和 39% 的推論比方使用舊前的原始代碼(不包括編譯時間)的速度加快,這取決于 GPU 架構(gòu)和批量大小。重要的是,加速不需要安裝舊前或其他任何額外依賴關(guān)系。

下表顯示從安裝了舊前的最初實施到我們以PyTorch集成內(nèi)存高效關(guān)注(最初為PyTorch集成內(nèi)存有效關(guān)注開發(fā)并在舊前圖書館)和PyTorrch匯編,不包括匯編時間。

與原x格式相比,運(yùn)行時間改善%%

見“基準(zhǔn)設(shè)定和成果摘要”一節(jié)中的絕對運(yùn)行時間數(shù)字。

GPU	批量大小 1	批量大小 2	批量大小 4
p100 p100 (p100)(沒有匯編)	-3.8 -3.8	0.44	5.47 5.47
T4	2.12 2.2.12	10.51 婦女 10.51	14.2 女14.2
A10	-2.34	8.99	10.57 10.57
v100 (v100)	18.63	6.39	10.43
a100 (a100)	38.5	20.33	12.17 12.17

人們可以注意到以下情況:

對于a100 (a100)和v100 (v100)等強(qiáng)大的GPU等強(qiáng)大的GPU來說,這些改進(jìn)是顯著的。對于這些GPU來說,第1批的改進(jìn)最為顯著。

對于功率較小的GPUs,我們觀察到較弱的GPUs,我們觀察到較小的超速超速(或兩種情況下略有倒退 ) 。這里的批量規(guī)模趨勢被逆轉(zhuǎn):較大批量的改進(jìn)更大

在以下各節(jié)中,我們介紹應(yīng)用優(yōu)化,并提供詳細(xì)的基準(zhǔn)數(shù)據(jù),將生成時間與不同最佳運(yùn)行/關(guān)閉功能進(jìn)行比較。

具體而言,我們以5個配置基準(zhǔn)和下面的地塊為基準(zhǔn),比較其不同GPU和批量大小的絕對性性能,這些配置的定義見“基準(zhǔn)設(shè)置和結(jié)果”一節(jié)。

優(yōu)化優(yōu)化

這里我們將更詳細(xì)地介紹在模式代碼中引入的優(yōu)化。這些優(yōu)化依賴于最近發(fā)布的PyTorrch 2.0的特征。

優(yōu)化關(guān)注

我們優(yōu)化的代碼的一部分就是對點產(chǎn)品的關(guān)注比例。人們知道,注意是一個繁重的操作:天真地執(zhí)行會影響關(guān)注矩陣,導(dǎo)致時間和記憶的復(fù)雜二次序列長度。擴(kuò)散模型使用關(guān)注是常見的( 通常使用關(guān)注的 ) ( ) 。相互注意))作為U-Net多個部分的變換元塊的一部分。由于U-Net運(yùn)行在每個取樣步驟,這成為優(yōu)化的關(guān)鍵點。多頭目,PyTorrch 2 中優(yōu)化了關(guān)注執(zhí)行的功能, 并被納入其中。這種優(yōu)化的示意圖可歸結(jié)為以下偽代碼 :

類交叉注意( nn. module): def __ initt_( 自 己, ) :

替換為

類交叉注意(nn.Module): def __initt_( 本身, ......): 自我. mmha = nn. Multihead 注意 (...) def 前進(jìn)( 自己, x, 上下文): 返回自我. mmha (x, 上下文, 上下文)

PyTorrch 1.13中已經(jīng)提供了最佳的注意落實(見在這里和廣泛通過(例如,見A/CN.9/WG.III/WP.Huggging 紙面變壓器庫示例特別是,它吸收了《公約》和《公約》的記憶有效關(guān)注。舊前和閃閃著的注意http://arxiv.org/abs/2205.14135PyTorrch 2.0將這一功能擴(kuò)大到更多的關(guān)注功能,如交叉關(guān)注和為進(jìn)一步加速而定制的內(nèi)核,使之適用于擴(kuò)散模型。

在計算能力為SM 7.5或SM 8.x的GPU上可提供閃光關(guān)注,例如,在T4、A10和a100 (a100)上可提供閃光關(guān)注,這些都包括在我們的基準(zhǔn)中(你可以檢查每個NVIDIA GPU的計算能力)。在這里然而,在我們對a100 (a100)a100 (a100)的測試中,由于關(guān)注頭和小批量數(shù)量少,因此對擴(kuò)散模型特定案例的記憶有效關(guān)注比對傳播模型的閃光關(guān)注效果的注意效果好于對傳播模型的具體案例的閃光關(guān)注效果。在這里為了充分控制注意力后端(模擬有效關(guān)注、閃光關(guān)注、“香草數(shù)學(xué)”或任何未來數(shù)學(xué)),電力用戶可以在上下文管理員的幫助下手動啟用和禁用這些后端。后端... cudda. sdp_ 內(nèi)核.

compilation

匯編是PyTorrch 2. 0 的新特性,從而能夠以非常簡單的用戶經(jīng)驗實現(xiàn)巨大的超速。要援引默認(rèn)行為,只需將一個 PyTorch 模塊或函數(shù)包成I. 火炬燃燒器:

模型 = 火炬. combile( 模型)

PyTorrch 編譯器然后將 Python 代碼轉(zhuǎn)換成一套指令, 可以在沒有 Python 管理費(fèi)的情況下高效執(zhí)行。該編譯器在代碼首次被執(zhí)行時動態(tài)發(fā)生。在默認(rèn)行為下, 在使用的 PyTorrch 頭罩下核電廠匯編代碼和火焚化器以進(jìn)一步優(yōu)化它。此教義以獲取更多細(xì)節(jié)。

雖然上面的單班條足以進(jìn)行編譯, 但對代碼的某些修改可以壓縮更大的速度。特別是, 人們應(yīng)該避免所謂的圖形分解, 即PyTorrch無法編譯的代碼中的位置。與先前的 PyTorrch 編譯方法( 如火炬Script ) 相比, PyTorrch 2 編譯器在此情況下不會中斷。相反, 它會回到急切的執(zhí)行中 - 所以代碼運(yùn)行, 但性能下降。我們對模式代碼做了一些小小改動, 以刪除圖形分解器。這包括刪除編譯器不支持的圖書館的功能, 比如。檢查職能和電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電離電。看看這個doc學(xué)習(xí)更多關(guān)于圖表分解和如何消除這些分解的信息。

從理論上講,可以適用I. 火炬燃燒器然而,在實踐中,僅僅匯編U-Net就足夠了。I. 火炬燃燒器還沒有環(huán)形分析器,因此將重新拼湊取樣循環(huán)的每一次迭代的代碼。此外,已編譯的樣本代碼可能會生成圖形折斷符 — — 因此,如果人們想從已編譯的版本中獲得良好的性能,就需要調(diào)整它。

注意該匯編requires GPU compute capability >= SM 7.0以非傾向模式運(yùn)行。這涵蓋了我們基準(zhǔn)中的所有 GPU ----T4, v100 (v100), A10, a100 (a100) - p100 p100 (p100) 除外(見完整列表).

其他優(yōu)化

此外,我們通過消除一些常見的陷阱提高了GPU內(nèi)存操作的效率,例如直接在GPU上創(chuàng)建高壓GPU,而不是直接在CPU上創(chuàng)建高壓GPU,然后轉(zhuǎn)移到GPU,因此我們提高了GPU內(nèi)存操作的效率。火焰圖.

制定基準(zhǔn)和成果摘要

我們有兩種版本的代碼可以比較:原原件和優(yōu)化優(yōu)化除此以外,還可以打開/關(guān)閉若干優(yōu)化功能(舊前、PyTorrch內(nèi)存高效關(guān)注、編譯)。

沒有舊前的原始代碼

舊前的原始代碼

與香草數(shù)學(xué)關(guān)注后端和無編譯的香草數(shù)學(xué)關(guān)注優(yōu)化代碼

最優(yōu)化代碼, 包含內(nèi)存高效關(guān)注后端, 沒有編譯

具有內(nèi)存高效注意后端和編譯功能的優(yōu)化代碼

作為原文原版我們采用了使用PyTorrch 1. 12的代碼版本,并按慣例執(zhí)行了關(guān)注標(biāo)準(zhǔn)。優(yōu)化版用途nn. 多頭目內(nèi)相互注意PyTerch 2.0.0.dev20230111 cu117。在與PyTerch有關(guān)的代碼中,它還有其他一些微小的優(yōu)化。

下表顯示每個版本代碼的運(yùn)行時間以秒計,與舊前原版相比的百分比改進(jìn)百分比。 _ 匯編時間不包括在內(nèi)。

1. 括號 -- -- " 原件與 x Formers " 行相對改進(jìn)

配置配置配置	p100 p100 (p100)	T4	A10	v100 (v100)	a100 (a100)
沒有格式的原件	30.4s (19.3%)	29.8s(-77.3%)	13.0(-83.9%)	10.9s(-33.1%)	8.0s (19.3%)
原件與舊前	25.5秒(0%)	16.8s (0.00%)	7.1s 7.1s 7.1s 7.1s(0%)	8.2s(0.00%)	6.7s(0.00%)
最優(yōu)化的香草數(shù)學(xué)關(guān)注, 沒有編譯	27.3s (--7.0%)	19.9s (18.7%)	13.2% (87.2%)	7.5s(8.7%)	5.7s(15.1%)
高效率的注意,沒有匯編。	26.5%(-3.8%)	16.8s (0.2%)	7.1s 7.1s 7.1s 7.1s(-0.8%)	6.9s (16.0%)	5.3s(20.6%)
高效關(guān)注和匯編	- 帶	16.4.4s 16.4.4s(2.1%)	7.2(-2.3%)	6.6.6s(18.6%)	4.1s 4.1s(38.5%)

批量規(guī)模 2 的運(yùn)行時間

配置配置配置	p100 p100 (p100)	T4	A10	v100 (v100)	a100 (a100)
沒有格式的原件	58.0s (21.6%)	57.6歲(84.0%)	24.4s (95.2%)	18.6秒 (-63.0%)	12.0s (-50.6%)
原件與舊前	47.7s(0.00%)	31.3s (0.00%)	12.5s (0.00%)	11.4秒 (0.00%)	8.0s(0.00%)
最優(yōu)化的香草數(shù)學(xué)關(guān)注, 沒有編譯	49.3%(-3.5%)	37.9s (-21.0%)	17.8s (-4.2.2%)	12.7s (10.7%)	7.8s(1.8%)
高效率的注意,沒有匯編。	47.5s 47.5s(0.4%)	31.2% (0.5%)	12.2% (2.6%)	11.5%(-0.7%)	7.0s (12.6%)
高效關(guān)注和匯編	- 帶	28.0秒(10.5%)	11.4秒(9.0%)	10.7s 10.7s(6.4%)	6.4.4s(20.3%)

批量大小 4 的批量運(yùn)行時間

配置配置配置	p100 p100 (p100)	T4	A10	v100 (v100)	a100 (a100)
沒有格式的原件	117.9s(-20.00%)	112.4s (-81.8%)	47.2s (-101.7 %)	35.8s (-71.9%)	22.8s (-78.9%)
原件與舊前	98.3s(0.00%)	61.8s(0.00%)	23.4s(0.00%)	20.8s (0.00%)	12.7s (0.00%)
最優(yōu)化的香草數(shù)學(xué)關(guān)注, 沒有編譯	101.1s (-2.9%)	73.0s(1.8.0%)	28.3s (-21.0%)	23.3s(11.9%)	14.5s (13.9%)
高效率的注意,沒有匯編。	92.9秒(5.5%)	61.1s(1.2%)	23.9s(-1.9%)	20.8s (-0.1%)	12.8s (-0.9%)
高效關(guān)注和匯編	- 帶	53.1s 53.1s(14.2%)	20.9秒(10.6%)	18.6秒(10.4%)	11.2. 11.2(12.2%)

為了盡量減少對基準(zhǔn)代碼性能的波動和外部影響,我們逐個運(yùn)行了代碼的每個版本,然后又重復(fù)了10次這個序列:A、B、C、D、E、A、B.......因此典型運(yùn)行的結(jié)果將看起來像下面的圖片。請注意,人們不應(yīng)該依賴對不同圖表之間絕對運(yùn)行時間的比較,但是對內(nèi)部運(yùn)行時間的比較是相當(dāng)可靠的,這要歸功于我們的基準(zhǔn)設(shè)置。

每卷文字到圖像生成腳本都產(chǎn)生幾批數(shù),其數(shù)量受CLI參數(shù)管制--niter --niter。在我們使用的基準(zhǔn)中n標(biāo)準(zhǔn)=2,但引入了額外的“暖化”迭代,這對運(yùn)行時間沒有幫助。這對編譯運(yùn)行是必要的,因為編譯發(fā)生在代碼運(yùn)行的第一次,因此第一次迭代的時間比后來的都要長。為了比較公平,我們還將這種額外的“暖化”迭代引入了所有其他運(yùn)行。

上表中的數(shù)字是迭代數(shù)2(加上“暖熱一號”),即時“A”照片,種子1,PLMS取樣器,自動打開。

基準(zhǔn)使用p100 p100 (p100)、v100 (v100)、a100 (a100)、A10和T4GPUs完成,T4基準(zhǔn)在Google Colab Pro完成,A10基準(zhǔn)在G5.4xmall AWS實例中與1GPU完成。

結(jié)論和下一步步驟

我們已經(jīng)表明,PyTorrch 2 - 編譯者和優(yōu)化關(guān)注實施的新特點 -- -- 使性能改進(jìn)超過或與以前要求安裝的外部依賴(舊前)的功能相仿;PyTorrch特別通過將舊前的內(nèi)存有效關(guān)注納入代碼庫來實現(xiàn)這一點,這是對用戶經(jīng)驗的重大改進(jìn),因為舊前是一家最先進(jìn)的圖書館,在許多情形中,需要定制的安裝過程和長期建筑。

這項工作可以繼續(xù)往幾個自然方向發(fā)展:

我們在這里所實施和描述的優(yōu)化只是為迄今為止的文字到圖像的推斷基準(zhǔn),有興趣了解它們?nèi)绾斡绊懪嘤?xùn)績效。 PyTorch匯編可以直接應(yīng)用于培訓(xùn);PyTorch優(yōu)化關(guān)注的扶持培訓(xùn)正在路線圖中。

我們有意盡量減少對原示范守則的修改。進(jìn)一步的定性和優(yōu)化可能帶來更多的改進(jìn)。

目前,匯編工作只適用于取樣器內(nèi)部的U-Net模型。由于在U-Net之外發(fā)生了很多事情(例如,在取樣環(huán)中直接作業(yè)),匯編整個取樣器將是有益的。然而,這需要對匯編過程進(jìn)行分析,以避免在每一取樣步驟中進(jìn)行重新匯編。

當(dāng)前代碼僅在PLMS取樣器內(nèi)應(yīng)用編譯程序,但將其擴(kuò)展至其他取樣器則微不足道。

除了文字到圖像生成外,還應(yīng)用推廣模型來進(jìn)行其他任務(wù) -- -- 圖像到圖像和油漆。

審核編輯：彭菁

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3338

瀏覽量
49266
代碼

代碼

+關(guān)注

關(guān)注
30

文章
4835

瀏覽量
69117
編譯程序

編譯程序

+關(guān)注

關(guān)注
0

文章
13

瀏覽量
4150
pytorch

pytorch

+關(guān)注

關(guān)注
2

文章
808

瀏覽量
13376

基于擴(kuò)散模型的圖像生成過程

近年來，擴(kuò)散模型在文本到圖像生成方面取得了巨大的成功，實現(xiàn)了更高圖像生成質(zhì)量，提高了推理性能，也可以激發(fā)擴(kuò)展創(chuàng)作靈感。不過僅憑文本來控制圖像的生成

發(fā)表于 07-17 11:00 ?2874次閱讀

如何在PyTorch中使用擴(kuò)散模型生成圖像

除了頂尖的圖像質(zhì)量，擴(kuò)散模型還帶來了許多其他好處，包括不需要對抗性訓(xùn)練。對抗訓(xùn)練的困難是有據(jù)可查的。在訓(xùn)練效率的話題上，擴(kuò)散模型還具有可伸縮性和并行性的額外好處。

發(fā)表于 11-22 15:51 ?547次閱讀

Pytorch模型訓(xùn)練實用PDF教程【中文】

？模型部分？還是優(yōu)化器？只有這樣不斷的通過可視化診斷你的模型，不斷的對癥下藥，才能訓(xùn)練出一個較滿意的模型。本教程內(nèi)容及結(jié)構(gòu)：本教程內(nèi)容主要為在 PyTorch 中訓(xùn)練一個

發(fā)表于 12-21 09:18

怎樣去解決pytorch模型一直無法加載的問題呢

rknn的模型轉(zhuǎn)換過程是如何實現(xiàn)的？怎樣去解決pytorch模型一直無法加載的問題呢？

發(fā)表于 02-11 06:03

將pytorch模型轉(zhuǎn)化為onxx模型的步驟有哪些

YoloV3模型的pytorch權(quán)重文件轉(zhuǎn)化為onxx然后使用圖形化界面進(jìn)行轉(zhuǎn)化，只要安裝了rknn模塊就會有圖形化界面python3 -m rknn.bin.visualization量化成功生成成功原作者：雨淺聽風(fēng)吟

發(fā)表于 05-09 16:36

怎樣使用PyTorch Hub去加載YOLOv5模型

在Python>=3.7.0環(huán)境中安裝requirements.txt，包括PyTorch>=1.7。模型和數(shù)據(jù)集從最新的 YOLOv5版本自動下載。簡單示例此示例從

發(fā)表于 07-22 16:02

通過Cortex來非常方便的部署PyTorch模型

，Hugging Face 生成的廣泛流行的自然語言處理(NLP)庫，是建立在 PyTorch 上的。Selene，生物前沿 ML 庫，建在 PyTorch 上。CrypTen，這個熱門的、新的、關(guān)注隱私

發(fā)表于 11-01 15:25

將Pytorch模型轉(zhuǎn)換為DeepViewRT模型時出錯怎么解決？

我正在尋求您的幫助以解決以下問題.. 我在 Windows 10 上安裝了 eIQ Toolkit 1.7.3，我想將我的 Pytorch 模型轉(zhuǎn)換為 DeepViewRT (.rtm) 模型，這樣

發(fā)表于 06-09 06:42

pytorch模型轉(zhuǎn)換需要注意的事項有哪些？

什么是JIT（torch.jit）？答：JIT（Just-In-Time）是一組編譯工具，用于彌合PyTorch研究與生產(chǎn)之間的差距。它允許創(chuàng)建可以在不依賴Python解釋器的情況下運(yùn)行的模型

發(fā)表于 09-18 08:05

擴(kuò)散模型在視頻領(lǐng)域表現(xiàn)如何？

在視頻生成領(lǐng)域，研究的一個重要里程碑是生成時間相干的高保真視頻。來自谷歌的研究者通過提出一個視頻生成擴(kuò)散模型來實現(xiàn)這一里程碑，顯示出非常有希

發(fā)表于 04-13 10:04 ?1736次閱讀

如何改進(jìn)和加速擴(kuò)散模型采樣的方法1

　　盡管擴(kuò)散模型實現(xiàn)了較高的樣本質(zhì)量和多樣性，但不幸的是，它們在采樣速度方面存在不足。這限制了擴(kuò)散模型在實際應(yīng)用中的廣泛采用，并導(dǎo)致了從這些模型

發(fā)表于 05-07 14:25 ?2429次閱讀

如何改進(jìn)和加速擴(kuò)散模型采樣的方法2

　　事實上，擴(kuò)散模型已經(jīng)在深層生成性學(xué)習(xí)方面取得了重大進(jìn)展。我們預(yù)計，它們可能會在圖像和視頻處理、 3D 內(nèi)容生成和數(shù)字藝術(shù)以及語音和語言建模等領(lǐng)域得到實際應(yīng)用。它們還將用于藥物發(fā)現(xiàn)和

發(fā)表于 05-07 14:38 ?3330次閱讀

蒸餾無分類器指導(dǎo)擴(kuò)散模型的方法

去噪擴(kuò)散概率模型（DDPM）在圖像生成、音頻合成、分子生成和似然估計領(lǐng)域都已經(jīng)實現(xiàn)了 SOTA 性能。同時無分類器（classifier-free）指導(dǎo)進(jìn)一步提升了

發(fā)表于 10-13 10:35 ?1264次閱讀

使用PyTorch加速圖像分割

使用PyTorch加速圖像分割

發(fā)表于 08-31 14:27 ?916次閱讀

PyTorch GPU 加速訓(xùn)練模型方法

在深度學(xué)習(xí)領(lǐng)域，GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時間的重要手段。PyTorch作為一個流行的深度學(xué)習(xí)框架，提供了豐富的工具和方法來利用GPU進(jìn)行模型訓(xùn)練。 1. 了解G

發(fā)表于 11-05 17:43 ?674次閱讀