OpenAI 發(fā)布的視頻生成模型 Sora(https://openai.com/sora),能根據(jù)文本生成長(zhǎng)達(dá)一分鐘的高質(zhì)量視頻,理論上支持任意分辨率,如 1920x1080 、1080x1920 ,生成能力遠(yuǎn)超此前只能生成 25 幀 576x1024 圖像的頂尖視頻生成模型 Stable Video Diffusion。
一起公布的,還有一篇非常簡(jiǎn)短的技術(shù)報(bào)告,報(bào)告大致介紹了 Sora 的架構(gòu)及應(yīng)用場(chǎng)景,并未對(duì)模型的原理做過(guò)多的介紹。
筆者參考了大量的資料,試著深入理解 Sora 的技術(shù)原理,最終將 Sora 生成視頻的原理總結(jié)成以下大致的步驟:
通過(guò)收集大量不同分辨率不同時(shí)長(zhǎng)的視頻,并對(duì)視頻進(jìn)行降維處理得到視頻的潛在空間數(shù)據(jù),并在潛在空間中進(jìn)行文本標(biāo)注與訓(xùn)練。
使用 DALLE3 的重標(biāo)注技術(shù),對(duì)人工標(biāo)注的文本進(jìn)行訓(xùn)練,生成能更加詳細(xì)描述視頻的標(biāo)注信息。
視頻生成時(shí),獲取隨機(jī)噪聲視頻,通過(guò)訓(xùn)練的視頻壓縮網(wǎng)絡(luò),將噪聲視頻壓縮成低維度的潛在空間數(shù)據(jù),以便更好的處理視頻數(shù)據(jù)。
將壓縮后的潛在空間數(shù)據(jù)分解成空間時(shí)間補(bǔ)丁 Patches,這些補(bǔ)丁包含了視頻中空間和時(shí)間的關(guān)系,并將這些補(bǔ)丁轉(zhuǎn)為一維的 Tokens 數(shù)據(jù)。
將Tokens數(shù)據(jù)提交給經(jīng)過(guò)擴(kuò)散模型訓(xùn)練后的Transformer(DiT),利用 Transformer 的注意力機(jī)制,時(shí)刻關(guān)注文本提示詞中的關(guān)鍵信息,結(jié)合擴(kuò)散模型(Diffusion Model)對(duì) Tokens 數(shù)據(jù)進(jìn)行去噪聲,并循環(huán)采樣觀察去噪音后的結(jié)果數(shù)據(jù)是否符合提示詞的要求。
將去除噪音后的結(jié)果數(shù)據(jù),利用視頻解碼器進(jìn)行解碼,將低維潛在空間數(shù)據(jù)還原成原始視頻數(shù)據(jù),這里可以實(shí)現(xiàn)不同分辨率的視頻解碼。
如果你不想查看冗余的細(xì)節(jié),看到這里就可以結(jié)束了,如果你還希望了解相關(guān)的細(xì)節(jié),可以繼續(xù)往下看,可能有理解不全面的地方歡迎大家補(bǔ)充交流。
一
文本生成圖片的流程
在理解文本生成視頻的原理之前,我們可以先回顧下文本生成圖片的原理,筆者的另一篇文章有做過(guò)相關(guān)介紹:AIGC 文生圖原理與實(shí)踐分享
本文我們不討論傳統(tǒng)的通過(guò)對(duì)抗網(wǎng)絡(luò)生成圖片的方式,我們主要討論的是基于擴(kuò)散模型生成圖片的方式,開(kāi)源的 Stable Diffusion 就是基于 LDM,即 Latent Diffusion Model(潛在的擴(kuò)展模型)實(shí)現(xiàn)的,另外 Stable Diffusion 通過(guò)引入 Transformer 架構(gòu)實(shí)現(xiàn)了對(duì)提示詞的支持,能夠在去除圖片噪音的過(guò)程中進(jìn)行精確的控制。
潛在的擴(kuò)散模型
Stable Diffusion 背后的技術(shù)方案被稱為 Latent Diffusion Model,即潛在的擴(kuò)散模型,此外 Stable Diffusion 模型在原始的 UNet 模型中加入了 Transformer 結(jié)構(gòu),這么做可謂一舉兩得,因?yàn)?Transformer 結(jié)構(gòu)不但能提升噪聲去除效果,還是實(shí)現(xiàn) Prompt 控制圖像內(nèi)容的關(guān)鍵技術(shù)。
在深度學(xué)習(xí)領(lǐng)域中,潛在空間(Latent Space)是指模型學(xué)習(xí)到的表示數(shù)據(jù)的抽象空間。這個(gè)潛在空間通常是一個(gè)低維的向量空間,其中每個(gè)點(diǎn)(向量)代表著模型對(duì)輸入數(shù)據(jù)的一種表示或特征。潛在空間的概念在各種生成模型和表示學(xué)習(xí)方法中被廣泛應(yīng)用。
以下是潛在空間對(duì)模型的作用:
數(shù)據(jù)的抽象表示:
潛在空間可以被視為對(duì)輸入數(shù)據(jù)的一種抽象表示。通過(guò)學(xué)習(xí)到的潛在空間可以更好地捕捉輸入數(shù)據(jù)的特征和結(jié)構(gòu),有助于模型更高效地學(xué)習(xí)和生成數(shù)據(jù)。
降維和去噪:
潛在空間通常是一個(gè)低維空間,相比原始數(shù)據(jù)空間具有更低的維度。通過(guò)將數(shù)據(jù)映射到潛在空間,可以實(shí)現(xiàn)數(shù)據(jù)的降維和去噪,將數(shù)據(jù)的主要特征和模式表示在更緊湊的空間中。
生成和重建:
在生成模型中,潛在空間扮演著重要角色,可以在潛在空間中生成新的數(shù)據(jù)樣本。模型可以從潛在空間中采樣并解碼生成具有逼真特征的數(shù)據(jù)樣本,這種生成過(guò)程通常通過(guò)解碼器(Decoder)實(shí)現(xiàn)。
插值和操作:
在潛在空間中,向量表示不同的數(shù)據(jù)特征或?qū)傩?,可以通過(guò)向量之間的插值或操作來(lái)探索數(shù)據(jù)空間中的變化和關(guān)系。例如,通過(guò)在潛在空間中沿著不同方向移動(dòng)向量,可以觀察到在數(shù)據(jù)生成過(guò)程中對(duì)應(yīng)的變化。
擴(kuò)散模型的一個(gè)大概的過(guò)程可以描述為:對(duì)原始圖片不斷的加噪音可以得到一張?jiān)肼晥D,然后再對(duì)噪聲圖不斷的去除噪音的同時(shí)再添加其他信息,就可以得到一張新圖片。
Stable Diffusion 生成圖片的大致流程如下:
Stable Diffusion 使用一個(gè)新穎的文本編碼器(OpenCLIP),將文本輸入轉(zhuǎn)換為一個(gè)向量表示。這個(gè)向量表示可以捕捉文本的語(yǔ)義信息,并與圖像空間對(duì)齊。
Stable Diffusion 使用一個(gè)擴(kuò)散模型(Diffusion Model),將一個(gè)隨機(jī)噪聲圖像逐漸變換為目標(biāo)圖像。擴(kuò)散模型是一種生成模型,可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)出一個(gè)概率分布,并從中采樣出新的數(shù)據(jù)。
在擴(kuò)散過(guò)程中,Stable Diffusion 利用文本向量和噪聲圖像作為條件輸入,給出每一步變換的概率分布。這樣,Stable Diffusion 可以根據(jù)文本指導(dǎo)噪聲圖像向目標(biāo)圖像收斂,并保持圖像的清晰度和連貫性。
最后,Stable Diffusion 使用一個(gè)超分辨率放大器(Upscaler Diffusion Model),將生成的低分辨率圖像放大到更高的分辨率。超分辨率放大器也是一個(gè)擴(kuò)散模型,可以從低分辨率圖像中恢復(fù)出細(xì)節(jié)信息,并增強(qiáng)圖像質(zhì)量。
以下是 Latent Diffusion 模型的技術(shù)架構(gòu):
Latent Diffusion Models 整體框架如圖,首先需要訓(xùn)練好一個(gè)自編碼模型(AutoEncoder,包括一個(gè)編碼器 ε 和一個(gè)解碼器 δ )。這樣一來(lái),我們就可以利用編碼器對(duì)圖片進(jìn)行壓縮,然后在潛在表示空間上做 Diffusion 操作,最后我們?cè)儆媒獯a器恢復(fù)到原始像素空間即可,論文將這個(gè)方法稱之為感知壓縮(Perceptual Compression)。個(gè)人認(rèn)為這種將高維特征壓縮到低維,然后在低維空間上進(jìn)行操作的方法具有普適性,可以很容易推廣到文本、音頻、視頻等領(lǐng)域。
在潛在表示空間上做 Diffusion 操作其主要過(guò)程和標(biāo)準(zhǔn)的擴(kuò)散模型沒(méi)有太大的區(qū)別,所用到的擴(kuò)散模型的具體實(shí)現(xiàn)為 Time-Conditional UNet。但是有一個(gè)重要的地方是論文為 Diffusion 操作引入了條件機(jī)制(Conditioning Mechanisms),通過(guò) Cross-Attention 的方式來(lái)實(shí)現(xiàn)多模態(tài)訓(xùn)練,使得條件圖片生成任務(wù)也可以實(shí)現(xiàn)。
https://github.com/CompVis/latent-diffusion
Transformer架構(gòu)
Transformer 架構(gòu)是 2017 年 6 月由 Google 提出的,是一種基于自注意力機(jī)制(Self-Attention)的模型,它有效解決了 RNN 類(lèi)方法的并行計(jì)算和長(zhǎng)時(shí)依賴兩大痛點(diǎn)。原本研究的重點(diǎn)是翻譯任務(wù),隨后推出了幾個(gè)有影響力的模型,以下是 Transformer 模型簡(jiǎn)短歷史中的一些關(guān)鍵節(jié)點(diǎn):
Transformer 的架構(gòu)設(shè)計(jì)如下圖所示:
左邊的這張圖是 Transformers 架構(gòu)的一個(gè)簡(jiǎn)單表示形式,右邊的這張圖是 Transformers 架構(gòu)的一個(gè)完整表示形式,其中有一個(gè)重要的 Multi-Head Attention組件,稱為注意力層。
Transformer 模型的一個(gè)關(guān)鍵特性是注意力層。事實(shí)上,谷歌在發(fā)布 Transformer 架構(gòu)的論文時(shí),文章的標(biāo)題就是“注意力就是你所需要的”。注意力層將告訴模型在處理每個(gè)單詞的表示時(shí),要特別重視傳遞給它的句子中的某些單詞,也可以是或多或少地忽略其他單詞。通過(guò)注意力層,模型可以不斷修正自己處理的結(jié)果,以符合輸入的文本的意圖。
總結(jié)來(lái)說(shuō) Transformer 通過(guò)注意力層,來(lái)理解并觀察輸入文本的上下文,在 Decoder 的過(guò)程中,通過(guò)多頭注意力層來(lái)控制結(jié)果的輸出是符合上下文語(yǔ)境的。
在回顧完 Stable Diffusion 的原理后,我們可以想象下,對(duì)于視頻的生成該怎么做呢?
是否可以嘗試把預(yù)訓(xùn)練 Stable Diffusion 拓展成視頻生成模型呢。例如在拓展時(shí),將視頻的每一幀都單獨(dú)輸入進(jìn) Stable Diffusion 的自編碼器,再重新構(gòu)成一個(gè)壓縮過(guò)的圖像序列。這就是 VideoLDM 嘗試解決的問(wèn)題,然而經(jīng)過(guò) VideoLDM 研究發(fā)現(xiàn)直接對(duì)視頻使用之前的圖像自編碼器,會(huì)令輸出視頻出現(xiàn)閃爍的現(xiàn)象。為此,該工作對(duì)自編碼器的解碼器進(jìn)行了微調(diào),加入了一些能夠處理時(shí)間維度的模塊,使之能一次性處理整段壓縮視頻,并輸出連貫的真實(shí)視頻。
二
Sora生成視頻的流程
那 Sora 是怎么做的呢?接下來(lái)我們通過(guò)一張圖來(lái)了解下 Sora 的工作流程,大概可以簡(jiǎn)化為三個(gè)部分:
簡(jiǎn)單來(lái)說(shuō),Sora 就是依賴了兩個(gè)模型 Latent Diffusion Model (LDM) 加上 Diffusion Transformer (DiT)。我們先簡(jiǎn)要回顧一下這兩種模型架構(gòu)。
LDM 就是 Stable Diffusion 使用的模型架構(gòu)。擴(kuò)散模型的一大問(wèn)題是計(jì)算需求大,難以擬合高分辨率圖像。為了解決這一問(wèn)題,實(shí)現(xiàn) LDM 時(shí),會(huì)先訓(xùn)練一個(gè)幾乎能無(wú)損壓縮圖像的自編碼器,能把 512x512 的真實(shí)圖像壓縮成 64x64 的壓縮圖像并還原。接著,再訓(xùn)練一個(gè)擴(kuò)散模型去擬合分辨率更低的壓縮圖像。這樣,僅需少量計(jì)算資源就能訓(xùn)練出高分辨率的圖像生成模型。
LDM 的擴(kuò)散模型使用的模型是 U-Net。而根據(jù)其他深度學(xué)習(xí)任務(wù)中的經(jīng)驗(yàn),相比 U-Net,Transformer 架構(gòu)的參數(shù)可拓展性強(qiáng),即隨著參數(shù)量的增加,Transformer 架構(gòu)的性能提升會(huì)更加明顯。這也是為什么大模型普遍都采用了 Transformer 架構(gòu)。從這一動(dòng)機(jī)出發(fā),DiT 應(yīng)運(yùn)而生。DiT 在 LDM 的基礎(chǔ)上,把 U-Net 換成了 Transformer。
總結(jié)來(lái)說(shuō) Sora 是一個(gè)視頻版的 DiT 模型,讓我們看一下 Sora 在 DiT 上做了哪些改進(jìn)。
視頻壓縮網(wǎng)絡(luò)
首先,Sora 通過(guò)一個(gè)叫做“視頻壓縮網(wǎng)絡(luò)”的技術(shù),將輸入的圖片或視頻壓縮成一個(gè)更低維度的數(shù)據(jù),即潛在空間數(shù)據(jù),為了實(shí)現(xiàn)視頻壓縮,Sora 從頭訓(xùn)練了一套能直接壓縮視頻的自編碼器。相比之前的工作,Sora 的自編碼器不僅能在空間上壓縮圖像,還能在時(shí)間上壓縮視頻長(zhǎng)度。
輸入的視頻在經(jīng)過(guò) Sora 的自編碼器后,會(huì)被轉(zhuǎn)換成一段空間和時(shí)間維度上都變小的壓縮視頻。這段壓縮視頻就是 Sora 的 DiT 的擬合對(duì)象。
這一過(guò)程類(lèi)似于將不同尺寸和分辨率的照片“標(biāo)準(zhǔn)化”,便于處理和存儲(chǔ),但壓縮并不意味著忽略原始數(shù)據(jù)的獨(dú)特性,而是將它們轉(zhuǎn)換成一個(gè)對(duì) Sora 來(lái)說(shuō)更容易理解和操作的格式。
報(bào)告中反復(fù)提及,Sora 在訓(xùn)練和生成時(shí)使用的視頻可以是任何分辨率(在 1920x1080 以內(nèi))、任何長(zhǎng)寬比、任何時(shí)長(zhǎng)的,這意味著視頻訓(xùn)練數(shù)據(jù)不需要做縮放、裁剪等預(yù)處理,因?yàn)?Sora 會(huì)把這些視頻進(jìn)行壓縮以獲得符合模型訓(xùn)練的數(shù)據(jù)。
空間時(shí)間補(bǔ)丁
接下來(lái),Sora 將這些壓縮后的數(shù)據(jù)進(jìn)一步分解為“空間時(shí)間補(bǔ)丁”(Spacetime Patches),這些補(bǔ)丁可以看作是視覺(jué)內(nèi)容的基本構(gòu)建塊,例如照片可以分解為包含獨(dú)特景觀、顏色和紋理的小片段。這樣不管原始視頻的長(zhǎng)度、分辨率或風(fēng)格如何,Sora 都可以將它們處理成一致的格式。
有了空間時(shí)間補(bǔ)丁之后,還需要將這些補(bǔ)丁轉(zhuǎn)換成一維的數(shù)據(jù)序列,以便提供給 Transformer 模型進(jìn)行處理,因?yàn)?Transformer 只能處理一維序列數(shù)據(jù)。
Sora 的這種性質(zhì)還是得益于 Transformer 架構(gòu)。雖然 Transformer 的計(jì)算與輸入順序無(wú)關(guān),但必須用位置編碼來(lái)指明每個(gè)數(shù)據(jù)的位置。盡管報(bào)告沒(méi)有提及,我覺(jué)得 Sora 的 DiT 使用了類(lèi)似于 (x,y,t) 的位置編碼來(lái)表示一個(gè)圖塊的時(shí)空位置。這樣不管輸入的視頻的大小如何,長(zhǎng)度如何,只要給每個(gè)圖塊都分配一個(gè)位置編碼,DiT 就能分清圖塊間的相對(duì)關(guān)系了。
Diffusion Transformer
最后,Sora 擴(kuò)展了 Transformer 模型,以便適用于視頻生成,這里的視頻就是一幀幀的靜態(tài)圖片加上了時(shí)間維度的信息,所以只需要用 Transformer 模型來(lái)生成攜帶時(shí)間維度信息的圖片。
需要注意的是,Transformer 本來(lái)是用于文本任務(wù)的,它只能處理一維的序列數(shù)據(jù)。為了讓 Transformer 處理二維圖像,通常會(huì)把輸入圖像先切成邊長(zhǎng)為 p 的圖塊,再把每個(gè)圖塊整理成一維數(shù)據(jù)。也就是說(shuō),原來(lái)邊長(zhǎng)為 I 的正方形圖片,經(jīng)圖塊化后,變成了長(zhǎng)度為 (I/p)2 的一維序列數(shù)據(jù)。
DiT 在處理輸入圖塊(也就是空間時(shí)間補(bǔ)丁)時(shí),因?yàn)槊總€(gè)視頻圖塊被編上了類(lèi)似 (x,y,t) 這樣的位置編碼,輸入視頻可以是任何分辨率、任何長(zhǎng)度。將每個(gè)空間時(shí)間補(bǔ)丁輸入 Transformer,作為輸入的 Token,接著 Transformer 會(huì)完成每個(gè)空間時(shí)間補(bǔ)丁的噪聲去除,最后所有的空間時(shí)間補(bǔ)丁都完成噪聲去除后,再通過(guò)解碼器將 Transformer 處理后的張量數(shù)據(jù)還原成視頻數(shù)據(jù)。
下圖展示了 DiT 的架構(gòu),左:我們訓(xùn)練調(diào)節(jié)的潛 DiT 模型。輸入潛變量被分解成幾個(gè) Patch 并由幾個(gè) DiT 塊處理。右:DiT 塊的細(xì)節(jié)。我們對(duì)標(biāo)準(zhǔn) Transformer 的變體進(jìn)行了實(shí)驗(yàn),這些變體通過(guò)自適應(yīng)層歸一化、交叉注意力和額外的輸入 Token 做調(diào)節(jié)。自適應(yīng)層歸一化效果最好。
假設(shè)輸入是一張 256x256x3 的圖片,對(duì)圖片做 Patch 后經(jīng)過(guò)投影得到每個(gè) Patch 的 Token,得到 32x32x4 的 Latent 潛在空間(在推理時(shí)輸入直接是 32x32x4 的噪聲)。結(jié)合當(dāng)前的 Step t, 將 Label y 作為輸入, 經(jīng)過(guò) N 個(gè) DiT Block 處理,處理中通過(guò) MLP 進(jìn)行控制輸出,得到輸出的噪聲以及對(duì)應(yīng)的協(xié)方差矩陣,經(jīng)過(guò) T 個(gè) Step 采樣,得到 32x32x4 的降噪后的 Latent。
得到處理后的 Latent 之后,通過(guò) Visual Decoder 對(duì) Latent 進(jìn)行解碼,最終得到生成的視頻。
三
從訓(xùn)練到生成視頻全流程
視頻標(biāo)注與訓(xùn)練
收集視頻及其文本標(biāo)注
初始步驟是收集大量視頻數(shù)據(jù),并獲取或創(chuàng)建這些視頻對(duì)應(yīng)的文本標(biāo)注。這些文本簡(jiǎn)要描述了視頻內(nèi)容,是訓(xùn)練模型理解視頻主題的關(guān)鍵。
預(yù)處理視頻數(shù)據(jù)
對(duì)視頻進(jìn)行預(yù)處理,包括調(diào)整分辨率、格式轉(zhuǎn)換、裁剪長(zhǎng)度等,以確保數(shù)據(jù)格式統(tǒng)一,適合模型處理。
生成高度描述性的文本標(biāo)注
使用 DALLE3 的技術(shù),首先訓(xùn)練一個(gè)模型,這個(gè)模型專(zhuān)門(mén)用于為視頻內(nèi)容生成高度描述性的文本標(biāo)注。這一步是為了提升文本標(biāo)注的質(zhì)量,讓其更加詳細(xì)和具體。對(duì)訓(xùn)練集中的所有視頻應(yīng)用這個(gè)模型,產(chǎn)生新的、更加詳細(xì)的文本標(biāo)注。
之前大部分文生圖擴(kuò)散模型都是在人工標(biāo)注的圖片-文字?jǐn)?shù)據(jù)集上訓(xùn)練的。后來(lái)大家發(fā)現(xiàn),人工標(biāo)注的圖片描述質(zhì)量較低,紛紛提出了各種提升標(biāo)注質(zhì)量的方法。Sora 復(fù)用了自家 DALL·E 3 的重標(biāo)注技術(shù),用一個(gè)訓(xùn)練的能生成詳細(xì)描述的標(biāo)注器來(lái)重新為訓(xùn)練視頻生成標(biāo)注。這種做法不僅解決了視頻缺乏標(biāo)注的問(wèn)題,且相比人工標(biāo)注質(zhì)量更高。Sora 的部分結(jié)果展示了其強(qiáng)大了抽象理解能力(如理解人和貓之間的交互),這多半是因?yàn)橐曨l標(biāo)注模型足夠強(qiáng)大,視頻生成模型學(xué)到了視頻標(biāo)注模型的知識(shí)。但同樣,視頻標(biāo)注模型的相關(guān)細(xì)節(jié)完全沒(méi)有公開(kāi)。
擴(kuò)散模型訓(xùn)練
Sora 作為一個(gè)擴(kuò)散模型,通過(guò)預(yù)測(cè)從含噪聲補(bǔ)丁到原始清晰補(bǔ)丁的轉(zhuǎn)換過(guò)程進(jìn)行訓(xùn)練。這個(gè)過(guò)程涉及到大量的迭代,逐步提高生成視頻的質(zhì)量。
視頻生成與處理
視頻壓縮和空間時(shí)間補(bǔ)丁生成
開(kāi)發(fā)并訓(xùn)練一個(gè)視頻壓縮網(wǎng)絡(luò),將高維的視頻數(shù)據(jù)壓縮到一個(gè)低維的潛在空間,簡(jiǎn)化后的數(shù)據(jù)表示更容易被模型處理。將壓縮后的視頻表示分解成空間時(shí)間補(bǔ)丁,這些補(bǔ)丁既包含空間上的信息也包含隨時(shí)間變化的信息。
利用 Transformer 架構(gòu)處理時(shí)空關(guān)系
基于 Transformer 架構(gòu),處理這些空間時(shí)間補(bǔ)丁。由于 Transformer 架構(gòu)在處理序列數(shù)據(jù)(如文本)方面的強(qiáng)大能力,這里用于捕獲視頻補(bǔ)丁之間復(fù)雜的時(shí)空關(guān)系。
通過(guò) GPT 模型理解并優(yōu)化提示詞
類(lèi)似于 DALLE3,Sora 在處理用戶提供的文本提示時(shí),也可以利用 GPT 模型來(lái)擴(kuò)展或優(yōu)化這些提示。GPT 模型可以將簡(jiǎn)短的用戶提示轉(zhuǎn)化成更詳細(xì)、更富有描述性的文本,這有助于 Sora 更準(zhǔn)確地理解并生成符合用戶意圖的視頻。
利用擴(kuò)散模型生成視頻
用戶提供一個(gè)文本提示,Sora 根據(jù)這個(gè)提示在潛在空間中初始化視頻的生成過(guò)程。利用訓(xùn)練好的擴(kuò)散模型,Sora 從這些初始化的空間時(shí)間補(bǔ)丁開(kāi)始,逐步生成清晰的視頻內(nèi)容。
視頻解碼與處理
使用與視頻壓縮相對(duì)應(yīng)的解碼器將潛在空間中的視頻轉(zhuǎn)換回原始像素視頻。
對(duì)生成的視頻進(jìn)行可能的后處理,如調(diào)整分辨率、裁剪等,以滿足發(fā)布或展示的需求。
審核編輯:黃飛
-
解碼器
+關(guān)注
關(guān)注
9文章
1147瀏覽量
40918 -
放大器
+關(guān)注
關(guān)注
143文章
13627瀏覽量
214150 -
GPT
+關(guān)注
關(guān)注
0文章
359瀏覽量
15500 -
Transformer
+關(guān)注
關(guān)注
0文章
145瀏覽量
6043 -
Sora
+關(guān)注
關(guān)注
0文章
82瀏覽量
246
原文標(biāo)題:深入理解Sora技術(shù)原理
文章出處:【微信號(hào):OSC開(kāi)源社區(qū),微信公眾號(hào):OSC開(kāi)源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論