欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深入理解 Sora 的技術(shù)原理

OSC開(kāi)源社區(qū) ? 來(lái)源:OSC開(kāi)源社區(qū) ? 2024-04-05 09:19 ? 次閱讀

OpenAI 發(fā)布的視頻生成模型 Sora(https://openai.com/sora),能根據(jù)文本生成長(zhǎng)達(dá)一分鐘的高質(zhì)量視頻,理論上支持任意分辨率,如 1920x1080 、1080x1920 ,生成能力遠(yuǎn)超此前只能生成 25 幀 576x1024 圖像的頂尖視頻生成模型 Stable Video Diffusion。

一起公布的,還有一篇非常簡(jiǎn)短的技術(shù)報(bào)告,報(bào)告大致介紹了 Sora 的架構(gòu)及應(yīng)用場(chǎng)景,并未對(duì)模型的原理做過(guò)多的介紹。

筆者參考了大量的資料,試著深入理解 Sora 的技術(shù)原理,最終將 Sora 生成視頻的原理總結(jié)成以下大致的步驟:

通過(guò)收集大量不同分辨率不同時(shí)長(zhǎng)的視頻,并對(duì)視頻進(jìn)行降維處理得到視頻的潛在空間數(shù)據(jù),并在潛在空間中進(jìn)行文本標(biāo)注與訓(xùn)練。

使用 DALLE3 的重標(biāo)注技術(shù),對(duì)人工標(biāo)注的文本進(jìn)行訓(xùn)練,生成能更加詳細(xì)描述視頻的標(biāo)注信息。

視頻生成時(shí),獲取隨機(jī)噪聲視頻,通過(guò)訓(xùn)練的視頻壓縮網(wǎng)絡(luò),將噪聲視頻壓縮成低維度的潛在空間數(shù)據(jù),以便更好的處理視頻數(shù)據(jù)。

將壓縮后的潛在空間數(shù)據(jù)分解成空間時(shí)間補(bǔ)丁 Patches,這些補(bǔ)丁包含了視頻中空間和時(shí)間的關(guān)系,并將這些補(bǔ)丁轉(zhuǎn)為一維的 Tokens 數(shù)據(jù)。

將Tokens數(shù)據(jù)提交給經(jīng)過(guò)擴(kuò)散模型訓(xùn)練后的Transformer(DiT),利用 Transformer 的注意力機(jī)制,時(shí)刻關(guān)注文本提示詞中的關(guān)鍵信息,結(jié)合擴(kuò)散模型(Diffusion Model)對(duì) Tokens 數(shù)據(jù)進(jìn)行去噪聲,并循環(huán)采樣觀察去噪音后的結(jié)果數(shù)據(jù)是否符合提示詞的要求。

將去除噪音后的結(jié)果數(shù)據(jù),利用視頻解碼器進(jìn)行解碼,將低維潛在空間數(shù)據(jù)還原成原始視頻數(shù)據(jù),這里可以實(shí)現(xiàn)不同分辨率的視頻解碼。

如果你不想查看冗余的細(xì)節(jié),看到這里就可以結(jié)束了,如果你還希望了解相關(guān)的細(xì)節(jié),可以繼續(xù)往下看,可能有理解不全面的地方歡迎大家補(bǔ)充交流。

文本生成圖片的流程

在理解文本生成視頻的原理之前,我們可以先回顧下文本生成圖片的原理,筆者的另一篇文章有做過(guò)相關(guān)介紹:AIGC 文生圖原理與實(shí)踐分享

本文我們不討論傳統(tǒng)的通過(guò)對(duì)抗網(wǎng)絡(luò)生成圖片的方式,我們主要討論的是基于擴(kuò)散模型生成圖片的方式,開(kāi)源的 Stable Diffusion 就是基于 LDM,即 Latent Diffusion Model(潛在的擴(kuò)展模型)實(shí)現(xiàn)的,另外 Stable Diffusion 通過(guò)引入 Transformer 架構(gòu)實(shí)現(xiàn)了對(duì)提示詞的支持,能夠在去除圖片噪音的過(guò)程中進(jìn)行精確的控制。

潛在的擴(kuò)散模型

Stable Diffusion 背后的技術(shù)方案被稱為 Latent Diffusion Model,即潛在的擴(kuò)散模型,此外 Stable Diffusion 模型在原始的 UNet 模型中加入了 Transformer 結(jié)構(gòu),這么做可謂一舉兩得,因?yàn)?Transformer 結(jié)構(gòu)不但能提升噪聲去除效果,還是實(shí)現(xiàn) Prompt 控制圖像內(nèi)容的關(guān)鍵技術(shù)。

深度學(xué)習(xí)領(lǐng)域中,潛在空間(Latent Space)是指模型學(xué)習(xí)到的表示數(shù)據(jù)的抽象空間。這個(gè)潛在空間通常是一個(gè)低維的向量空間,其中每個(gè)點(diǎn)(向量)代表著模型對(duì)輸入數(shù)據(jù)的一種表示或特征。潛在空間的概念在各種生成模型和表示學(xué)習(xí)方法中被廣泛應(yīng)用。

以下是潛在空間對(duì)模型的作用:

數(shù)據(jù)的抽象表示

潛在空間可以被視為對(duì)輸入數(shù)據(jù)的一種抽象表示。通過(guò)學(xué)習(xí)到的潛在空間可以更好地捕捉輸入數(shù)據(jù)的特征和結(jié)構(gòu),有助于模型更高效地學(xué)習(xí)和生成數(shù)據(jù)。

降維和去噪

潛在空間通常是一個(gè)低維空間,相比原始數(shù)據(jù)空間具有更低的維度。通過(guò)將數(shù)據(jù)映射到潛在空間,可以實(shí)現(xiàn)數(shù)據(jù)的降維和去噪,將數(shù)據(jù)的主要特征和模式表示在更緊湊的空間中。

生成和重建

在生成模型中,潛在空間扮演著重要角色,可以在潛在空間中生成新的數(shù)據(jù)樣本。模型可以從潛在空間中采樣并解碼生成具有逼真特征的數(shù)據(jù)樣本,這種生成過(guò)程通常通過(guò)解碼器(Decoder)實(shí)現(xiàn)。

插值和操作

在潛在空間中,向量表示不同的數(shù)據(jù)特征或?qū)傩?,可以通過(guò)向量之間的插值或操作來(lái)探索數(shù)據(jù)空間中的變化和關(guān)系。例如,通過(guò)在潛在空間中沿著不同方向移動(dòng)向量,可以觀察到在數(shù)據(jù)生成過(guò)程中對(duì)應(yīng)的變化。

擴(kuò)散模型的一個(gè)大概的過(guò)程可以描述為:對(duì)原始圖片不斷的加噪音可以得到一張?jiān)肼晥D,然后再對(duì)噪聲圖不斷的去除噪音的同時(shí)再添加其他信息,就可以得到一張新圖片。

12a959a4-ee8f-11ee-a297-92fbcf53809c.png

Stable Diffusion 生成圖片的大致流程如下:

Stable Diffusion 使用一個(gè)新穎的文本編碼器(OpenCLIP),將文本輸入轉(zhuǎn)換為一個(gè)向量表示。這個(gè)向量表示可以捕捉文本的語(yǔ)義信息,并與圖像空間對(duì)齊。

Stable Diffusion 使用一個(gè)擴(kuò)散模型(Diffusion Model),將一個(gè)隨機(jī)噪聲圖像逐漸變換為目標(biāo)圖像。擴(kuò)散模型是一種生成模型,可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)出一個(gè)概率分布,并從中采樣出新的數(shù)據(jù)。

在擴(kuò)散過(guò)程中,Stable Diffusion 利用文本向量和噪聲圖像作為條件輸入,給出每一步變換的概率分布。這樣,Stable Diffusion 可以根據(jù)文本指導(dǎo)噪聲圖像向目標(biāo)圖像收斂,并保持圖像的清晰度和連貫性。

最后,Stable Diffusion 使用一個(gè)超分辨率放大器(Upscaler Diffusion Model),將生成的低分辨率圖像放大到更高的分辨率。超分辨率放大器也是一個(gè)擴(kuò)散模型,可以從低分辨率圖像中恢復(fù)出細(xì)節(jié)信息,并增強(qiáng)圖像質(zhì)量。

以下是 Latent Diffusion 模型的技術(shù)架構(gòu):

Latent Diffusion Models 整體框架如圖,首先需要訓(xùn)練好一個(gè)自編碼模型(AutoEncoder,包括一個(gè)編碼器 ε 和一個(gè)解碼器 δ )。這樣一來(lái),我們就可以利用編碼器對(duì)圖片進(jìn)行壓縮,然后在潛在表示空間上做 Diffusion 操作,最后我們?cè)儆媒獯a器恢復(fù)到原始像素空間即可,論文將這個(gè)方法稱之為感知壓縮(Perceptual Compression)。個(gè)人認(rèn)為這種將高維特征壓縮到低維,然后在低維空間上進(jìn)行操作的方法具有普適性,可以很容易推廣到文本、音頻、視頻等領(lǐng)域。

在潛在表示空間上做 Diffusion 操作其主要過(guò)程和標(biāo)準(zhǔn)的擴(kuò)散模型沒(méi)有太大的區(qū)別,所用到的擴(kuò)散模型的具體實(shí)現(xiàn)為 Time-Conditional UNet。但是有一個(gè)重要的地方是論文為 Diffusion 操作引入了條件機(jī)制(Conditioning Mechanisms),通過(guò) Cross-Attention 的方式來(lái)實(shí)現(xiàn)多模態(tài)訓(xùn)練,使得條件圖片生成任務(wù)也可以實(shí)現(xiàn)。

12d13898-ee8f-11ee-a297-92fbcf53809c.png

https://github.com/CompVis/latent-diffusion

Transformer架構(gòu)

Transformer 架構(gòu)是 2017 年 6 月由 Google 提出的,是一種基于自注意力機(jī)制(Self-Attention)的模型,它有效解決了 RNN 類(lèi)方法的并行計(jì)算和長(zhǎng)時(shí)依賴兩大痛點(diǎn)。原本研究的重點(diǎn)是翻譯任務(wù),隨后推出了幾個(gè)有影響力的模型,以下是 Transformer 模型簡(jiǎn)短歷史中的一些關(guān)鍵節(jié)點(diǎn):

12dbb110-ee8f-11ee-a297-92fbcf53809c.png

Transformer 的架構(gòu)設(shè)計(jì)如下圖所示:

12e62ece-ee8f-11ee-a297-92fbcf53809c.png

12f250a0-ee8f-11ee-a297-92fbcf53809c.png

左邊的這張圖是 Transformers 架構(gòu)的一個(gè)簡(jiǎn)單表示形式,右邊的這張圖是 Transformers 架構(gòu)的一個(gè)完整表示形式,其中有一個(gè)重要的 Multi-Head Attention組件,稱為注意力層。

Transformer 模型的一個(gè)關(guān)鍵特性是注意力層。事實(shí)上,谷歌在發(fā)布 Transformer 架構(gòu)的論文時(shí),文章的標(biāo)題就是“注意力就是你所需要的”。注意力層將告訴模型在處理每個(gè)單詞的表示時(shí),要特別重視傳遞給它的句子中的某些單詞,也可以是或多或少地忽略其他單詞。通過(guò)注意力層,模型可以不斷修正自己處理的結(jié)果,以符合輸入的文本的意圖。

總結(jié)來(lái)說(shuō) Transformer 通過(guò)注意力層,來(lái)理解并觀察輸入文本的上下文,在 Decoder 的過(guò)程中,通過(guò)多頭注意力層來(lái)控制結(jié)果的輸出是符合上下文語(yǔ)境的。

在回顧完 Stable Diffusion 的原理后,我們可以想象下,對(duì)于視頻的生成該怎么做呢?

是否可以嘗試把預(yù)訓(xùn)練 Stable Diffusion 拓展成視頻生成模型呢。例如在拓展時(shí),將視頻的每一幀都單獨(dú)輸入進(jìn) Stable Diffusion 的自編碼器,再重新構(gòu)成一個(gè)壓縮過(guò)的圖像序列。這就是 VideoLDM 嘗試解決的問(wèn)題,然而經(jīng)過(guò) VideoLDM 研究發(fā)現(xiàn)直接對(duì)視頻使用之前的圖像自編碼器,會(huì)令輸出視頻出現(xiàn)閃爍的現(xiàn)象。為此,該工作對(duì)自編碼器的解碼器進(jìn)行了微調(diào),加入了一些能夠處理時(shí)間維度的模塊,使之能一次性處理整段壓縮視頻,并輸出連貫的真實(shí)視頻。

Sora生成視頻的流程

那 Sora 是怎么做的呢?接下來(lái)我們通過(guò)一張圖來(lái)了解下 Sora 的工作流程,大概可以簡(jiǎn)化為三個(gè)部分:

12f5d7b6-ee8f-11ee-a297-92fbcf53809c.png

簡(jiǎn)單來(lái)說(shuō),Sora 就是依賴了兩個(gè)模型 Latent Diffusion Model (LDM) 加上 Diffusion Transformer (DiT)。我們先簡(jiǎn)要回顧一下這兩種模型架構(gòu)。

LDM 就是 Stable Diffusion 使用的模型架構(gòu)。擴(kuò)散模型的一大問(wèn)題是計(jì)算需求大,難以擬合高分辨率圖像。為了解決這一問(wèn)題,實(shí)現(xiàn) LDM 時(shí),會(huì)先訓(xùn)練一個(gè)幾乎能無(wú)損壓縮圖像的自編碼器,能把 512x512 的真實(shí)圖像壓縮成 64x64 的壓縮圖像并還原。接著,再訓(xùn)練一個(gè)擴(kuò)散模型去擬合分辨率更低的壓縮圖像。這樣,僅需少量計(jì)算資源就能訓(xùn)練出高分辨率的圖像生成模型。

LDM 的擴(kuò)散模型使用的模型是 U-Net。而根據(jù)其他深度學(xué)習(xí)任務(wù)中的經(jīng)驗(yàn),相比 U-Net,Transformer 架構(gòu)的參數(shù)可拓展性強(qiáng),即隨著參數(shù)量的增加,Transformer 架構(gòu)的性能提升會(huì)更加明顯。這也是為什么大模型普遍都采用了 Transformer 架構(gòu)。從這一動(dòng)機(jī)出發(fā),DiT 應(yīng)運(yùn)而生。DiT 在 LDM 的基礎(chǔ)上,把 U-Net 換成了 Transformer。

總結(jié)來(lái)說(shuō) Sora 是一個(gè)視頻版的 DiT 模型,讓我們看一下 Sora 在 DiT 上做了哪些改進(jìn)。

視頻壓縮網(wǎng)絡(luò)

首先,Sora 通過(guò)一個(gè)叫做“視頻壓縮網(wǎng)絡(luò)”的技術(shù),將輸入的圖片或視頻壓縮成一個(gè)更低維度的數(shù)據(jù),即潛在空間數(shù)據(jù),為了實(shí)現(xiàn)視頻壓縮,Sora 從頭訓(xùn)練了一套能直接壓縮視頻的自編碼器。相比之前的工作,Sora 的自編碼器不僅能在空間上壓縮圖像,還能在時(shí)間上壓縮視頻長(zhǎng)度。

輸入的視頻在經(jīng)過(guò) Sora 的自編碼器后,會(huì)被轉(zhuǎn)換成一段空間和時(shí)間維度上都變小的壓縮視頻。這段壓縮視頻就是 Sora 的 DiT 的擬合對(duì)象。

這一過(guò)程類(lèi)似于將不同尺寸和分辨率的照片“標(biāo)準(zhǔn)化”,便于處理和存儲(chǔ),但壓縮并不意味著忽略原始數(shù)據(jù)的獨(dú)特性,而是將它們轉(zhuǎn)換成一個(gè)對(duì) Sora 來(lái)說(shuō)更容易理解和操作的格式。

報(bào)告中反復(fù)提及,Sora 在訓(xùn)練和生成時(shí)使用的視頻可以是任何分辨率(在 1920x1080 以內(nèi))、任何長(zhǎng)寬比、任何時(shí)長(zhǎng)的,這意味著視頻訓(xùn)練數(shù)據(jù)不需要做縮放、裁剪等預(yù)處理,因?yàn)?Sora 會(huì)把這些視頻進(jìn)行壓縮以獲得符合模型訓(xùn)練的數(shù)據(jù)。

空間時(shí)間補(bǔ)丁

接下來(lái),Sora 將這些壓縮后的數(shù)據(jù)進(jìn)一步分解為“空間時(shí)間補(bǔ)丁”(Spacetime Patches),這些補(bǔ)丁可以看作是視覺(jué)內(nèi)容的基本構(gòu)建塊,例如照片可以分解為包含獨(dú)特景觀、顏色和紋理的小片段。這樣不管原始視頻的長(zhǎng)度、分辨率或風(fēng)格如何,Sora 都可以將它們處理成一致的格式。

12fab2f4-ee8f-11ee-a297-92fbcf53809c.png

有了空間時(shí)間補(bǔ)丁之后,還需要將這些補(bǔ)丁轉(zhuǎn)換成一維的數(shù)據(jù)序列,以便提供給 Transformer 模型進(jìn)行處理,因?yàn)?Transformer 只能處理一維序列數(shù)據(jù)。

Sora 的這種性質(zhì)還是得益于 Transformer 架構(gòu)。雖然 Transformer 的計(jì)算與輸入順序無(wú)關(guān),但必須用位置編碼來(lái)指明每個(gè)數(shù)據(jù)的位置。盡管報(bào)告沒(méi)有提及,我覺(jué)得 Sora 的 DiT 使用了類(lèi)似于 (x,y,t) 的位置編碼來(lái)表示一個(gè)圖塊的時(shí)空位置。這樣不管輸入的視頻的大小如何,長(zhǎng)度如何,只要給每個(gè)圖塊都分配一個(gè)位置編碼,DiT 就能分清圖塊間的相對(duì)關(guān)系了。

Diffusion Transformer

最后,Sora 擴(kuò)展了 Transformer 模型,以便適用于視頻生成,這里的視頻就是一幀幀的靜態(tài)圖片加上了時(shí)間維度的信息,所以只需要用 Transformer 模型來(lái)生成攜帶時(shí)間維度信息的圖片。

需要注意的是,Transformer 本來(lái)是用于文本任務(wù)的,它只能處理一維的序列數(shù)據(jù)。為了讓 Transformer 處理二維圖像,通常會(huì)把輸入圖像先切成邊長(zhǎng)為 p 的圖塊,再把每個(gè)圖塊整理成一維數(shù)據(jù)。也就是說(shuō),原來(lái)邊長(zhǎng)為 I 的正方形圖片,經(jīng)圖塊化后,變成了長(zhǎng)度為 (I/p)2 的一維序列數(shù)據(jù)。

1304bdb2-ee8f-11ee-a297-92fbcf53809c.png

DiT 在處理輸入圖塊(也就是空間時(shí)間補(bǔ)丁)時(shí),因?yàn)槊總€(gè)視頻圖塊被編上了類(lèi)似 (x,y,t) 這樣的位置編碼,輸入視頻可以是任何分辨率、任何長(zhǎng)度。將每個(gè)空間時(shí)間補(bǔ)丁輸入 Transformer,作為輸入的 Token,接著 Transformer 會(huì)完成每個(gè)空間時(shí)間補(bǔ)丁的噪聲去除,最后所有的空間時(shí)間補(bǔ)丁都完成噪聲去除后,再通過(guò)解碼器將 Transformer 處理后的張量數(shù)據(jù)還原成視頻數(shù)據(jù)。

下圖展示了 DiT 的架構(gòu),左:我們訓(xùn)練調(diào)節(jié)的潛 DiT 模型。輸入潛變量被分解成幾個(gè) Patch 并由幾個(gè) DiT 塊處理。右:DiT 塊的細(xì)節(jié)。我們對(duì)標(biāo)準(zhǔn) Transformer 的變體進(jìn)行了實(shí)驗(yàn),這些變體通過(guò)自適應(yīng)層歸一化、交叉注意力和額外的輸入 Token 做調(diào)節(jié)。自適應(yīng)層歸一化效果最好。

假設(shè)輸入是一張 256x256x3 的圖片,對(duì)圖片做 Patch 后經(jīng)過(guò)投影得到每個(gè) Patch 的 Token,得到 32x32x4 的 Latent 潛在空間(在推理時(shí)輸入直接是 32x32x4 的噪聲)。結(jié)合當(dāng)前的 Step t, 將 Label y 作為輸入, 經(jīng)過(guò) N 個(gè) DiT Block 處理,處理中通過(guò) MLP 進(jìn)行控制輸出,得到輸出的噪聲以及對(duì)應(yīng)的協(xié)方差矩陣,經(jīng)過(guò) T 個(gè) Step 采樣,得到 32x32x4 的降噪后的 Latent。

1309e1b6-ee8f-11ee-a297-92fbcf53809c.png

得到處理后的 Latent 之后,通過(guò) Visual Decoder 對(duì) Latent 進(jìn)行解碼,最終得到生成的視頻。

從訓(xùn)練到生成視頻全流程

視頻標(biāo)注與訓(xùn)練

收集視頻及其文本標(biāo)注

初始步驟是收集大量視頻數(shù)據(jù),并獲取或創(chuàng)建這些視頻對(duì)應(yīng)的文本標(biāo)注。這些文本簡(jiǎn)要描述了視頻內(nèi)容,是訓(xùn)練模型理解視頻主題的關(guān)鍵。

預(yù)處理視頻數(shù)據(jù)

對(duì)視頻進(jìn)行預(yù)處理,包括調(diào)整分辨率、格式轉(zhuǎn)換、裁剪長(zhǎng)度等,以確保數(shù)據(jù)格式統(tǒng)一,適合模型處理。

生成高度描述性的文本標(biāo)注

使用 DALLE3 的技術(shù),首先訓(xùn)練一個(gè)模型,這個(gè)模型專(zhuān)門(mén)用于為視頻內(nèi)容生成高度描述性的文本標(biāo)注。這一步是為了提升文本標(biāo)注的質(zhì)量,讓其更加詳細(xì)和具體。對(duì)訓(xùn)練集中的所有視頻應(yīng)用這個(gè)模型,產(chǎn)生新的、更加詳細(xì)的文本標(biāo)注。

之前大部分文生圖擴(kuò)散模型都是在人工標(biāo)注的圖片-文字?jǐn)?shù)據(jù)集上訓(xùn)練的。后來(lái)大家發(fā)現(xiàn),人工標(biāo)注的圖片描述質(zhì)量較低,紛紛提出了各種提升標(biāo)注質(zhì)量的方法。Sora 復(fù)用了自家 DALL·E 3 的重標(biāo)注技術(shù),用一個(gè)訓(xùn)練的能生成詳細(xì)描述的標(biāo)注器來(lái)重新為訓(xùn)練視頻生成標(biāo)注。這種做法不僅解決了視頻缺乏標(biāo)注的問(wèn)題,且相比人工標(biāo)注質(zhì)量更高。Sora 的部分結(jié)果展示了其強(qiáng)大了抽象理解能力(如理解人和貓之間的交互),這多半是因?yàn)橐曨l標(biāo)注模型足夠強(qiáng)大,視頻生成模型學(xué)到了視頻標(biāo)注模型的知識(shí)。但同樣,視頻標(biāo)注模型的相關(guān)細(xì)節(jié)完全沒(méi)有公開(kāi)。

擴(kuò)散模型訓(xùn)練

Sora 作為一個(gè)擴(kuò)散模型,通過(guò)預(yù)測(cè)從含噪聲補(bǔ)丁到原始清晰補(bǔ)丁的轉(zhuǎn)換過(guò)程進(jìn)行訓(xùn)練。這個(gè)過(guò)程涉及到大量的迭代,逐步提高生成視頻的質(zhì)量。

視頻生成與處理

視頻壓縮和空間時(shí)間補(bǔ)丁生成

開(kāi)發(fā)并訓(xùn)練一個(gè)視頻壓縮網(wǎng)絡(luò),將高維的視頻數(shù)據(jù)壓縮到一個(gè)低維的潛在空間,簡(jiǎn)化后的數(shù)據(jù)表示更容易被模型處理。將壓縮后的視頻表示分解成空間時(shí)間補(bǔ)丁,這些補(bǔ)丁既包含空間上的信息也包含隨時(shí)間變化的信息。

利用 Transformer 架構(gòu)處理時(shí)空關(guān)系

基于 Transformer 架構(gòu),處理這些空間時(shí)間補(bǔ)丁。由于 Transformer 架構(gòu)在處理序列數(shù)據(jù)(如文本)方面的強(qiáng)大能力,這里用于捕獲視頻補(bǔ)丁之間復(fù)雜的時(shí)空關(guān)系。

通過(guò) GPT 模型理解并優(yōu)化提示詞

類(lèi)似于 DALLE3,Sora 在處理用戶提供的文本提示時(shí),也可以利用 GPT 模型來(lái)擴(kuò)展或優(yōu)化這些提示。GPT 模型可以將簡(jiǎn)短的用戶提示轉(zhuǎn)化成更詳細(xì)、更富有描述性的文本,這有助于 Sora 更準(zhǔn)確地理解并生成符合用戶意圖的視頻。

利用擴(kuò)散模型生成視頻

用戶提供一個(gè)文本提示,Sora 根據(jù)這個(gè)提示在潛在空間中初始化視頻的生成過(guò)程。利用訓(xùn)練好的擴(kuò)散模型,Sora 從這些初始化的空間時(shí)間補(bǔ)丁開(kāi)始,逐步生成清晰的視頻內(nèi)容。

視頻解碼與處理

使用與視頻壓縮相對(duì)應(yīng)的解碼器將潛在空間中的視頻轉(zhuǎn)換回原始像素視頻。

對(duì)生成的視頻進(jìn)行可能的后處理,如調(diào)整分辨率、裁剪等,以滿足發(fā)布或展示的需求。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1147

    瀏覽量

    40918
  • 放大器
    +關(guān)注

    關(guān)注

    143

    文章

    13627

    瀏覽量

    214150
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    359

    瀏覽量

    15500
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    145

    瀏覽量

    6043
  • Sora
    +關(guān)注

    關(guān)注

    0

    文章

    82

    瀏覽量

    246

原文標(biāo)題:深入理解Sora技術(shù)原理

文章出處:【微信號(hào):OSC開(kāi)源社區(qū),微信公眾號(hào):OSC開(kāi)源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    深入理解Android

    深入理解Android
    發(fā)表于 08-20 15:30

    深入理解和實(shí)現(xiàn)RTOS_連載

    和trcohili的帖子。深入理解和實(shí)現(xiàn)RTOS_連載1_RTOS的前生今世今天發(fā)布的是第一篇,"RTOS的前生今世"。通過(guò)軟件系統(tǒng)結(jié)構(gòu)的比對(duì)簡(jiǎn)要的介紹rtos為何而生。如果讀者對(duì)RTOS
    發(fā)表于 05-29 11:20

    深入理解和實(shí)現(xiàn)RTOS_連載

    和trcohili的帖子。trochili rtos完全是作者興趣所在,且行且堅(jiān)持,比沒(méi)有duo。深入理解和實(shí)現(xiàn)RTOS_連載1_RTOS的前生今世今天發(fā)布的是第一篇,"RTOS的前生今世"
    發(fā)表于 05-30 01:02

    深入理解Linux網(wǎng)絡(luò)技術(shù)內(nèi)幕》(EN)

    深入理解Linux網(wǎng)絡(luò)技術(shù)內(nèi)幕》(EN)
    發(fā)表于 02-06 15:17

    深入理解lte-a

    深入理解LTE-A
    發(fā)表于 02-26 10:21

    如何深入理解ES6之函數(shù)

    深入理解ES6之函數(shù)
    發(fā)表于 05-22 07:40

    深入理解STM32

    時(shí)鐘系統(tǒng)是處理器的核心,所以在學(xué)習(xí)STM32所有外設(shè)之前,認(rèn)真學(xué)習(xí)時(shí)鐘系統(tǒng)是必要的,有助于深入理解STM32。下面是從網(wǎng)上找的一個(gè)STM32時(shí)鐘框圖,比《STM32中文參考手冊(cè)》里面的是中途看起來(lái)清晰一些:重要的時(shí)鐘:PLLCLK,SYSCLK,HCKL,PCLK1,...
    發(fā)表于 08-12 07:46

    對(duì)棧的深入理解

    為什么要深入理解棧?做C語(yǔ)言開(kāi)發(fā)如果棧設(shè)置不合理或者使用不對(duì),棧就會(huì)溢出,溢出就會(huì)遇到無(wú)法預(yù)測(cè)亂飛現(xiàn)象。所以對(duì)棧的深入理解是非常重要的。注:動(dòng)畫(huà)如果看不清楚可以電腦看更清晰啥是棧先來(lái)看一段動(dòng)畫(huà):沒(méi)有
    發(fā)表于 02-15 07:01

    為什么要深入理解

    [導(dǎo)讀] 從這篇文章開(kāi)始,將會(huì)不定期更新關(guān)于嵌入式C語(yǔ)言編程相關(guān)的個(gè)人認(rèn)為比較重要的知識(shí)點(diǎn),或者踩過(guò)的坑。為什么要深入理解棧?做C語(yǔ)言開(kāi)發(fā)如果棧設(shè)置不合理或者使用不對(duì),棧就會(huì)溢出,溢出就會(huì)遇到無(wú)法
    發(fā)表于 02-15 06:09

    深入理解應(yīng)用廣泛的QMatrix 技術(shù)

    深入理解應(yīng)用廣泛的QMatrix 技術(shù)作者:Hal Philipp 量研集團(tuán)首席技術(shù)官摘要在家電、消費(fèi)電子和手機(jī)應(yīng)用中,觸摸傳感控制正在日益取代機(jī)電開(kāi)關(guān)。觸摸傳感的流行獲有很強(qiáng)的
    發(fā)表于 02-06 17:08 ?28次下載

    深入理解Android之資源文件

    深入理解Android之資源文件
    發(fā)表于 01-22 21:11 ?22次下載

    深入理解Android》文前

    深入理解Android》文前
    發(fā)表于 03-19 11:23 ?0次下載

    深入理解Android:卷I》

    深入理解Android:卷I》
    發(fā)表于 03-19 11:23 ?0次下載

    深入理解Android網(wǎng)絡(luò)編程

    深入理解Android網(wǎng)絡(luò)編程
    發(fā)表于 03-19 11:26 ?1次下載

    深入理解MOS管電子版資源下載

    深入理解MOS管電子版資源下載
    發(fā)表于 07-09 09:43 ?0次下載