国产日韩在线免费观看91啦,日韩一卡2卡三卡4卡在线观看

OpenAI 發(fā)布的視頻生成模型 Sora(https://openai.com/sora)，能根據(jù)文本生成長(zhǎng)達(dá)一分鐘的高質(zhì)量視頻，理論上支持任意分辨率，如 1920x1080 、1080x1920 ，生成能力遠(yuǎn)超此前只能生成 25 幀 576x1024 圖像的頂尖視頻生成模型 Stable Video Diffusion。

一起公布的，還有一篇非常簡(jiǎn)短的技術(shù)報(bào)告，報(bào)告大致介紹了 Sora 的架構(gòu)及應(yīng)用場(chǎng)景，并未對(duì)模型的原理做過(guò)多的介紹。

筆者參考了大量的資料，試著深入理解 Sora 的技術(shù)原理，最終將 Sora 生成視頻的原理總結(jié)成以下大致的步驟：

通過(guò)收集大量不同分辨率不同時(shí)長(zhǎng)的視頻，并對(duì)視頻進(jìn)行降維處理得到視頻的潛在空間數(shù)據(jù)，并在潛在空間中進(jìn)行文本標(biāo)注與訓(xùn)練。

使用 DALLE3 的重標(biāo)注技術(shù)，對(duì)人工標(biāo)注的文本進(jìn)行訓(xùn)練，生成能更加詳細(xì)描述視頻的標(biāo)注信息。

視頻生成時(shí)，獲取隨機(jī)噪聲視頻，通過(guò)訓(xùn)練的視頻壓縮網(wǎng)絡(luò)，將噪聲視頻壓縮成低維度的潛在空間數(shù)據(jù)，以便更好的處理視頻數(shù)據(jù)。

將壓縮后的潛在空間數(shù)據(jù)分解成空間時(shí)間補(bǔ)丁 Patches，這些補(bǔ)丁包含了視頻中空間和時(shí)間的關(guān)系，并將這些補(bǔ)丁轉(zhuǎn)為一維的 Tokens 數(shù)據(jù)。

將Tokens數(shù)據(jù)提交給經(jīng)過(guò)擴(kuò)散模型訓(xùn)練后的Transformer(DiT)，利用 Transformer 的注意力機(jī)制，時(shí)刻關(guān)注文本提示詞中的關(guān)鍵信息，結(jié)合擴(kuò)散模型(Diffusion Model)對(duì) Tokens 數(shù)據(jù)進(jìn)行去噪聲，并循環(huán)采樣觀察去噪音后的結(jié)果數(shù)據(jù)是否符合提示詞的要求。

將去除噪音后的結(jié)果數(shù)據(jù)，利用視頻解碼器進(jìn)行解碼，將低維潛在空間數(shù)據(jù)還原成原始視頻數(shù)據(jù)，這里可以實(shí)現(xiàn)不同分辨率的視頻解碼。

如果你不想查看冗余的細(xì)節(jié)，看到這里就可以結(jié)束了，如果你還希望了解相關(guān)的細(xì)節(jié)，可以繼續(xù)往下看，可能有理解不全面的地方歡迎大家補(bǔ)充交流。

一

文本生成圖片的流程

在理解文本生成視頻的原理之前，我們可以先回顧下文本生成圖片的原理，筆者的另一篇文章有做過(guò)相關(guān)介紹：AIGC 文生圖原理與實(shí)踐分享

本文我們不討論傳統(tǒng)的通過(guò)對(duì)抗網(wǎng)絡(luò)生成圖片的方式，我們主要討論的是基于擴(kuò)散模型生成圖片的方式，開(kāi)源的 Stable Diffusion 就是基于 LDM，即 Latent Diffusion Model(潛在的擴(kuò)展模型)實(shí)現(xiàn)的，另外 Stable Diffusion 通過(guò)引入 Transformer 架構(gòu)實(shí)現(xiàn)了對(duì)提示詞的支持，能夠在去除圖片噪音的過(guò)程中進(jìn)行精確的控制。

潛在的擴(kuò)散模型

Stable Diffusion 背后的技術(shù)方案被稱為 Latent Diffusion Model，即潛在的擴(kuò)散模型，此外 Stable Diffusion 模型在原始的 UNet 模型中加入了 Transformer 結(jié)構(gòu)，這么做可謂一舉兩得，因?yàn)?Transformer 結(jié)構(gòu)不但能提升噪聲去除效果，還是實(shí)現(xiàn) Prompt 控制圖像內(nèi)容的關(guān)鍵技術(shù)。

在深度學(xué)習(xí)領(lǐng)域中，潛在空間（Latent Space）是指模型學(xué)習(xí)到的表示數(shù)據(jù)的抽象空間。這個(gè)潛在空間通常是一個(gè)低維的向量空間，其中每個(gè)點(diǎn)（向量）代表著模型對(duì)輸入數(shù)據(jù)的一種表示或特征。潛在空間的概念在各種生成模型和表示學(xué)習(xí)方法中被廣泛應(yīng)用。

以下是潛在空間對(duì)模型的作用：

數(shù)據(jù)的抽象表示：

潛在空間可以被視為對(duì)輸入數(shù)據(jù)的一種抽象表示。通過(guò)學(xué)習(xí)到的潛在空間可以更好地捕捉輸入數(shù)據(jù)的特征和結(jié)構(gòu)，有助于模型更高效地學(xué)習(xí)和生成數(shù)據(jù)。

降維和去噪：

潛在空間通常是一個(gè)低維空間，相比原始數(shù)據(jù)空間具有更低的維度。通過(guò)將數(shù)據(jù)映射到潛在空間，可以實(shí)現(xiàn)數(shù)據(jù)的降維和去噪，將數(shù)據(jù)的主要特征和模式表示在更緊湊的空間中。

生成和重建：

在生成模型中，潛在空間扮演著重要角色，可以在潛在空間中生成新的數(shù)據(jù)樣本。模型可以從潛在空間中采樣并解碼生成具有逼真特征的數(shù)據(jù)樣本，這種生成過(guò)程通常通過(guò)解碼器（Decoder）實(shí)現(xiàn)。

插值和操作：

在潛在空間中，向量表示不同的數(shù)據(jù)特征或?qū)傩?，可以通過(guò)向量之間的插值或操作來(lái)探索數(shù)據(jù)空間中的變化和關(guān)系。例如，通過(guò)在潛在空間中沿著不同方向移動(dòng)向量，可以觀察到在數(shù)據(jù)生成過(guò)程中對(duì)應(yīng)的變化。

擴(kuò)散模型的一個(gè)大概的過(guò)程可以描述為：對(duì)原始圖片不斷的加噪音可以得到一張?jiān)肼晥D，然后再對(duì)噪聲圖不斷的去除噪音的同時(shí)再添加其他信息，就可以得到一張新圖片。

Stable Diffusion 生成圖片的大致流程如下：

Stable Diffusion 使用一個(gè)新穎的文本編碼器(OpenCLIP)，將文本輸入轉(zhuǎn)換為一個(gè)向量表示。這個(gè)向量表示可以捕捉文本的語(yǔ)義信息，并與圖像空間對(duì)齊。

Stable Diffusion 使用一個(gè)擴(kuò)散模型(Diffusion Model)，將一個(gè)隨機(jī)噪聲圖像逐漸變換為目標(biāo)圖像。擴(kuò)散模型是一種生成模型，可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)出一個(gè)概率分布，并從中采樣出新的數(shù)據(jù)。

在擴(kuò)散過(guò)程中，Stable Diffusion 利用文本向量和噪聲圖像作為條件輸入，給出每一步變換的概率分布。這樣，Stable Diffusion 可以根據(jù)文本指導(dǎo)噪聲圖像向目標(biāo)圖像收斂，并保持圖像的清晰度和連貫性。

最后，Stable Diffusion 使用一個(gè)超分辨率放大器(Upscaler Diffusion Model)，將生成的低分辨率圖像放大到更高的分辨率。超分辨率放大器也是一個(gè)擴(kuò)散模型，可以從低分辨率圖像中恢復(fù)出細(xì)節(jié)信息，并增強(qiáng)圖像質(zhì)量。

以下是 Latent Diffusion 模型的技術(shù)架構(gòu)：

Latent Diffusion Models 整體框架如圖，首先需要訓(xùn)練好一個(gè)自編碼模型（AutoEncoder，包括一個(gè)編碼器 ε 和一個(gè)解碼器 δ ）。這樣一來(lái)，我們就可以利用編碼器對(duì)圖片進(jìn)行壓縮，然后在潛在表示空間上做 Diffusion 操作，最后我們?cè)儆媒獯a器恢復(fù)到原始像素空間即可，論文將這個(gè)方法稱之為感知壓縮（Perceptual Compression）。個(gè)人認(rèn)為這種將高維特征壓縮到低維，然后在低維空間上進(jìn)行操作的方法具有普適性，可以很容易推廣到文本、音頻、視頻等領(lǐng)域。

在潛在表示空間上做 Diffusion 操作其主要過(guò)程和標(biāo)準(zhǔn)的擴(kuò)散模型沒(méi)有太大的區(qū)別，所用到的擴(kuò)散模型的具體實(shí)現(xiàn)為 Time-Conditional UNet。但是有一個(gè)重要的地方是論文為 Diffusion 操作引入了條件機(jī)制（Conditioning Mechanisms），通過(guò) Cross-Attention 的方式來(lái)實(shí)現(xiàn)多模態(tài)訓(xùn)練，使得條件圖片生成任務(wù)也可以實(shí)現(xiàn)。

https://github.com/CompVis/latent-diffusion

Transformer架構(gòu)

Transformer 架構(gòu)是 2017 年 6 月由 Google 提出的，是一種基于自注意力機(jī)制（Self-Attention）的模型，它有效解決了 RNN 類(lèi)方法的并行計(jì)算和長(zhǎng)時(shí)依賴兩大痛點(diǎn)。原本研究的重點(diǎn)是翻譯任務(wù)，隨后推出了幾個(gè)有影響力的模型，以下是 Transformer 模型簡(jiǎn)短歷史中的一些關(guān)鍵節(jié)點(diǎn)：

Transformer 的架構(gòu)設(shè)計(jì)如下圖所示：

左邊的這張圖是 Transformers 架構(gòu)的一個(gè)簡(jiǎn)單表示形式，右邊的這張圖是 Transformers 架構(gòu)的一個(gè)完整表示形式，其中有一個(gè)重要的 Multi-Head Attention組件，稱為注意力層。

Transformer 模型的一個(gè)關(guān)鍵特性是注意力層。事實(shí)上，谷歌在發(fā)布 Transformer 架構(gòu)的論文時(shí)，文章的標(biāo)題就是“注意力就是你所需要的”。注意力層將告訴模型在處理每個(gè)單詞的表示時(shí)，要特別重視傳遞給它的句子中的某些單詞，也可以是或多或少地忽略其他單詞。通過(guò)注意力層，模型可以不斷修正自己處理的結(jié)果，以符合輸入的文本的意圖。

總結(jié)來(lái)說(shuō) Transformer 通過(guò)注意力層，來(lái)理解并觀察輸入文本的上下文，在 Decoder 的過(guò)程中，通過(guò)多頭注意力層來(lái)控制結(jié)果的輸出是符合上下文語(yǔ)境的。

在回顧完 Stable Diffusion 的原理后，我們可以想象下，對(duì)于視頻的生成該怎么做呢？

是否可以嘗試把預(yù)訓(xùn)練 Stable Diffusion 拓展成視頻生成模型呢。例如在拓展時(shí)，將視頻的每一幀都單獨(dú)輸入進(jìn) Stable Diffusion 的自編碼器，再重新構(gòu)成一個(gè)壓縮過(guò)的圖像序列。這就是 VideoLDM 嘗試解決的問(wèn)題，然而經(jīng)過(guò) VideoLDM 研究發(fā)現(xiàn)直接對(duì)視頻使用之前的圖像自編碼器，會(huì)令輸出視頻出現(xiàn)閃爍的現(xiàn)象。為此，該工作對(duì)自編碼器的解碼器進(jìn)行了微調(diào)，加入了一些能夠處理時(shí)間維度的模塊，使之能一次性處理整段壓縮視頻，并輸出連貫的真實(shí)視頻。

二

Sora生成視頻的流程

那 Sora 是怎么做的呢？接下來(lái)我們通過(guò)一張圖來(lái)了解下 Sora 的工作流程，大概可以簡(jiǎn)化為三個(gè)部分：

簡(jiǎn)單來(lái)說(shuō)，Sora 就是依賴了兩個(gè)模型 Latent Diffusion Model (LDM) 加上 Diffusion Transformer (DiT)。我們先簡(jiǎn)要回顧一下這兩種模型架構(gòu)。

LDM 就是 Stable Diffusion 使用的模型架構(gòu)。擴(kuò)散模型的一大問(wèn)題是計(jì)算需求大，難以擬合高分辨率圖像。為了解決這一問(wèn)題，實(shí)現(xiàn) LDM 時(shí)，會(huì)先訓(xùn)練一個(gè)幾乎能無(wú)損壓縮圖像的自編碼器，能把 512x512 的真實(shí)圖像壓縮成 64x64 的壓縮圖像并還原。接著，再訓(xùn)練一個(gè)擴(kuò)散模型去擬合分辨率更低的壓縮圖像。這樣，僅需少量計(jì)算資源就能訓(xùn)練出高分辨率的圖像生成模型。

LDM 的擴(kuò)散模型使用的模型是 U-Net。而根據(jù)其他深度學(xué)習(xí)任務(wù)中的經(jīng)驗(yàn)，相比 U-Net，Transformer 架構(gòu)的參數(shù)可拓展性強(qiáng)，即隨著參數(shù)量的增加，Transformer 架構(gòu)的性能提升會(huì)更加明顯。這也是為什么大模型普遍都采用了 Transformer 架構(gòu)。從這一動(dòng)機(jī)出發(fā)，DiT 應(yīng)運(yùn)而生。DiT 在 LDM 的基礎(chǔ)上，把 U-Net 換成了 Transformer。

總結(jié)來(lái)說(shuō) Sora 是一個(gè)視頻版的 DiT 模型，讓我們看一下 Sora 在 DiT 上做了哪些改進(jìn)。

視頻壓縮網(wǎng)絡(luò)

首先，Sora 通過(guò)一個(gè)叫做“視頻壓縮網(wǎng)絡(luò)”的技術(shù)，將輸入的圖片或視頻壓縮成一個(gè)更低維度的數(shù)據(jù)，即潛在空間數(shù)據(jù)，為了實(shí)現(xiàn)視頻壓縮，Sora 從頭訓(xùn)練了一套能直接壓縮視頻的自編碼器。相比之前的工作，Sora 的自編碼器不僅能在空間上壓縮圖像，還能在時(shí)間上壓縮視頻長(zhǎng)度。

輸入的視頻在經(jīng)過(guò) Sora 的自編碼器后，會(huì)被轉(zhuǎn)換成一段空間和時(shí)間維度上都變小的壓縮視頻。這段壓縮視頻就是 Sora 的 DiT 的擬合對(duì)象。

這一過(guò)程類(lèi)似于將不同尺寸和分辨率的照片“標(biāo)準(zhǔn)化”，便于處理和存儲(chǔ)，但壓縮并不意味著忽略原始數(shù)據(jù)的獨(dú)特性，而是將它們轉(zhuǎn)換成一個(gè)對(duì) Sora 來(lái)說(shuō)更容易理解和操作的格式。

報(bào)告中反復(fù)提及，Sora 在訓(xùn)練和生成時(shí)使用的視頻可以是任何分辨率（在 1920x1080 以內(nèi)）、任何長(zhǎng)寬比、任何時(shí)長(zhǎng)的，這意味著視頻訓(xùn)練數(shù)據(jù)不需要做縮放、裁剪等預(yù)處理，因?yàn)?Sora 會(huì)把這些視頻進(jìn)行壓縮以獲得符合模型訓(xùn)練的數(shù)據(jù)。

空間時(shí)間補(bǔ)丁

接下來(lái)，Sora 將這些壓縮后的數(shù)據(jù)進(jìn)一步分解為“空間時(shí)間補(bǔ)丁”（Spacetime Patches），這些補(bǔ)丁可以看作是視覺(jué)內(nèi)容的基本構(gòu)建塊，例如照片可以分解為包含獨(dú)特景觀、顏色和紋理的小片段。這樣不管原始視頻的長(zhǎng)度、分辨率或風(fēng)格如何，Sora 都可以將它們處理成一致的格式。

有了空間時(shí)間補(bǔ)丁之后，還需要將這些補(bǔ)丁轉(zhuǎn)換成一維的數(shù)據(jù)序列，以便提供給 Transformer 模型進(jìn)行處理，因?yàn)?Transformer 只能處理一維序列數(shù)據(jù)。

Sora 的這種性質(zhì)還是得益于 Transformer 架構(gòu)。雖然 Transformer 的計(jì)算與輸入順序無(wú)關(guān)，但必須用位置編碼來(lái)指明每個(gè)數(shù)據(jù)的位置。盡管報(bào)告沒(méi)有提及，我覺(jué)得 Sora 的 DiT 使用了類(lèi)似于 (x,y,t) 的位置編碼來(lái)表示一個(gè)圖塊的時(shí)空位置。這樣不管輸入的視頻的大小如何，長(zhǎng)度如何，只要給每個(gè)圖塊都分配一個(gè)位置編碼，DiT 就能分清圖塊間的相對(duì)關(guān)系了。

Diffusion Transformer

最后，Sora 擴(kuò)展了 Transformer 模型，以便適用于視頻生成，這里的視頻就是一幀幀的靜態(tài)圖片加上了時(shí)間維度的信息，所以只需要用 Transformer 模型來(lái)生成攜帶時(shí)間維度信息的圖片。

需要注意的是，Transformer 本來(lái)是用于文本任務(wù)的，它只能處理一維的序列數(shù)據(jù)。為了讓 Transformer 處理二維圖像，通常會(huì)把輸入圖像先切成邊長(zhǎng)為 p 的圖塊，再把每個(gè)圖塊整理成一維數(shù)據(jù)。也就是說(shuō)，原來(lái)邊長(zhǎng)為 I 的正方形圖片，經(jīng)圖塊化后，變成了長(zhǎng)度為 (I/p)2 的一維序列數(shù)據(jù)。

DiT 在處理輸入圖塊(也就是空間時(shí)間補(bǔ)丁)時(shí)，因?yàn)槊總€(gè)視頻圖塊被編上了類(lèi)似 (x,y,t) 這樣的位置編碼，輸入視頻可以是任何分辨率、任何長(zhǎng)度。將每個(gè)空間時(shí)間補(bǔ)丁輸入 Transformer，作為輸入的 Token，接著 Transformer 會(huì)完成每個(gè)空間時(shí)間補(bǔ)丁的噪聲去除，最后所有的空間時(shí)間補(bǔ)丁都完成噪聲去除后，再通過(guò)解碼器將 Transformer 處理后的張量數(shù)據(jù)還原成視頻數(shù)據(jù)。

下圖展示了 DiT 的架構(gòu)，左：我們訓(xùn)練調(diào)節(jié)的潛 DiT 模型。輸入潛變量被分解成幾個(gè) Patch 并由幾個(gè) DiT 塊處理。右：DiT 塊的細(xì)節(jié)。我們對(duì)標(biāo)準(zhǔn) Transformer 的變體進(jìn)行了實(shí)驗(yàn)，這些變體通過(guò)自適應(yīng)層歸一化、交叉注意力和額外的輸入 Token 做調(diào)節(jié)。自適應(yīng)層歸一化效果最好。

假設(shè)輸入是一張 256x256x3 的圖片，對(duì)圖片做 Patch 后經(jīng)過(guò)投影得到每個(gè) Patch 的 Token，得到 32x32x4 的 Latent 潛在空間(在推理時(shí)輸入直接是 32x32x4 的噪聲)。結(jié)合當(dāng)前的 Step t，將 Label y 作為輸入，經(jīng)過(guò) N 個(gè) DiT Block 處理，處理中通過(guò) MLP 進(jìn)行控制輸出，得到輸出的噪聲以及對(duì)應(yīng)的協(xié)方差矩陣，經(jīng)過(guò) T 個(gè) Step 采樣，得到 32x32x4 的降噪后的 Latent。

得到處理后的 Latent 之后，通過(guò) Visual Decoder 對(duì) Latent 進(jìn)行解碼，最終得到生成的視頻。

三

從訓(xùn)練到生成視頻全流程

視頻標(biāo)注與訓(xùn)練

收集視頻及其文本標(biāo)注

初始步驟是收集大量視頻數(shù)據(jù)，并獲取或創(chuàng)建這些視頻對(duì)應(yīng)的文本標(biāo)注。這些文本簡(jiǎn)要描述了視頻內(nèi)容，是訓(xùn)練模型理解視頻主題的關(guān)鍵。

預(yù)處理視頻數(shù)據(jù)

對(duì)視頻進(jìn)行預(yù)處理，包括調(diào)整分辨率、格式轉(zhuǎn)換、裁剪長(zhǎng)度等，以確保數(shù)據(jù)格式統(tǒng)一，適合模型處理。

生成高度描述性的文本標(biāo)注

使用 DALLE3 的技術(shù)，首先訓(xùn)練一個(gè)模型，這個(gè)模型專(zhuān)門(mén)用于為視頻內(nèi)容生成高度描述性的文本標(biāo)注。這一步是為了提升文本標(biāo)注的質(zhì)量，讓其更加詳細(xì)和具體。對(duì)訓(xùn)練集中的所有視頻應(yīng)用這個(gè)模型，產(chǎn)生新的、更加詳細(xì)的文本標(biāo)注。

之前大部分文生圖擴(kuò)散模型都是在人工標(biāo)注的圖片-文字?jǐn)?shù)據(jù)集上訓(xùn)練的。后來(lái)大家發(fā)現(xiàn)，人工標(biāo)注的圖片描述質(zhì)量較低，紛紛提出了各種提升標(biāo)注質(zhì)量的方法。Sora 復(fù)用了自家 DALL·E 3 的重標(biāo)注技術(shù)，用一個(gè)訓(xùn)練的能生成詳細(xì)描述的標(biāo)注器來(lái)重新為訓(xùn)練視頻生成標(biāo)注。這種做法不僅解決了視頻缺乏標(biāo)注的問(wèn)題，且相比人工標(biāo)注質(zhì)量更高。Sora 的部分結(jié)果展示了其強(qiáng)大了抽象理解能力（如理解人和貓之間的交互），這多半是因?yàn)橐曨l標(biāo)注模型足夠強(qiáng)大，視頻生成模型學(xué)到了視頻標(biāo)注模型的知識(shí)。但同樣，視頻標(biāo)注模型的相關(guān)細(xì)節(jié)完全沒(méi)有公開(kāi)。

擴(kuò)散模型訓(xùn)練

Sora 作為一個(gè)擴(kuò)散模型，通過(guò)預(yù)測(cè)從含噪聲補(bǔ)丁到原始清晰補(bǔ)丁的轉(zhuǎn)換過(guò)程進(jìn)行訓(xùn)練。這個(gè)過(guò)程涉及到大量的迭代，逐步提高生成視頻的質(zhì)量。

視頻生成與處理

視頻壓縮和空間時(shí)間補(bǔ)丁生成

開(kāi)發(fā)并訓(xùn)練一個(gè)視頻壓縮網(wǎng)絡(luò)，將高維的視頻數(shù)據(jù)壓縮到一個(gè)低維的潛在空間，簡(jiǎn)化后的數(shù)據(jù)表示更容易被模型處理。將壓縮后的視頻表示分解成空間時(shí)間補(bǔ)丁，這些補(bǔ)丁既包含空間上的信息也包含隨時(shí)間變化的信息。

利用 Transformer 架構(gòu)處理時(shí)空關(guān)系

基于 Transformer 架構(gòu)，處理這些空間時(shí)間補(bǔ)丁。由于 Transformer 架構(gòu)在處理序列數(shù)據(jù)(如文本)方面的強(qiáng)大能力，這里用于捕獲視頻補(bǔ)丁之間復(fù)雜的時(shí)空關(guān)系。

通過(guò) GPT 模型理解并優(yōu)化提示詞

類(lèi)似于 DALLE3，Sora 在處理用戶提供的文本提示時(shí)，也可以利用 GPT 模型來(lái)擴(kuò)展或優(yōu)化這些提示。GPT 模型可以將簡(jiǎn)短的用戶提示轉(zhuǎn)化成更詳細(xì)、更富有描述性的文本，這有助于 Sora 更準(zhǔn)確地理解并生成符合用戶意圖的視頻。

利用擴(kuò)散模型生成視頻

用戶提供一個(gè)文本提示，Sora 根據(jù)這個(gè)提示在潛在空間中初始化視頻的生成過(guò)程。利用訓(xùn)練好的擴(kuò)散模型，Sora 從這些初始化的空間時(shí)間補(bǔ)丁開(kāi)始，逐步生成清晰的視頻內(nèi)容。

視頻解碼與處理

使用與視頻壓縮相對(duì)應(yīng)的解碼器將潛在空間中的視頻轉(zhuǎn)換回原始像素視頻。

對(duì)生成的視頻進(jìn)行可能的后處理，如調(diào)整分辨率、裁剪等，以滿足發(fā)布或展示的需求。

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

解碼器

解碼器

+關(guān)注

關(guān)注
9

文章
1147

瀏覽量
40918
放大器

放大器

+關(guān)注

關(guān)注
143

文章
13627

瀏覽量
214150
GPT

GPT

+關(guān)注

關(guān)注
0

文章
359

瀏覽量
15500
Transformer

Transformer

+關(guān)注

關(guān)注
0

文章
145

瀏覽量
6043
Sora

Sora

+關(guān)注

關(guān)注
0

文章
82

瀏覽量
246

原文標(biāo)題：深入理解Sora技術(shù)原理

文章出處：【微信號(hào)：OSC開(kāi)源社區(qū)，微信公眾號(hào)：OSC開(kāi)源社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

深入理解 Sora 的技術(shù)原理

評(píng)論

深入理解Android

深入理解和實(shí)現(xiàn)RTOS_連載

深入理解和實(shí)現(xiàn)RTOS_連載

《深入理解Linux網(wǎng)絡(luò)技術(shù)內(nèi)幕》(EN)

深入理解lte-a

如何深入理解ES6之函數(shù)

深入理解STM32

對(duì)棧的深入理解

為什么要深入理解棧

深入理解應(yīng)用廣泛的QMatrix 技術(shù)

深入理解Android之資源文件

《深入理解Android》文前

《深入理解Android：卷I》

深入理解Android網(wǎng)絡(luò)編程

深入理解MOS管電子版資源下載