亚洲精品国产一区二区三区在线观看,欧美成人se01短视频在线看

論文鏈接：https://arxiv.org/abs/2305.17476

代碼鏈接：

https://github.com/ML-GSAI/Understanding-GDA

概述

生成式數(shù)據(jù)擴增通過條件生成模型生成新樣本來擴展數(shù)據(jù)集，從而提高各種學(xué)習(xí)任務(wù)的分類性能。然而，很少有人從理論上研究生成數(shù)據(jù)增強的效果。為了填補這一空白，我們在這種非獨立同分布環(huán)境下構(gòu)建了基于穩(wěn)定性的通用泛化誤差界?；谕ㄓ玫姆夯纾覀冞M一步了探究了高斯混合模型和生成對抗網(wǎng)絡(luò)的學(xué)習(xí)情況。

在這兩種情況下，我們證明了，雖然生成式數(shù)據(jù)增強并不能享受更快的學(xué)習(xí)率，但當訓(xùn)練集較小時，它可以在一個常數(shù)的水平上提高學(xué)習(xí)保證，這在發(fā)生過擬合時是非常重要的。最后，高斯混合模型的仿真結(jié)果和生成式對抗網(wǎng)絡(luò)的實驗結(jié)果都支持我們的理論結(jié)論。

主要的理論結(jié)果

2.1 符號與定義

讓作為數(shù)據(jù)輸入空間，作為標簽空間。定義為上的真實分布。給定集合，我們定義為去掉第個數(shù)據(jù)后剩下的集合，為把第個數(shù)據(jù)換成后的集合。我們用表示 total variation distance。

我們讓為所有從到的所有可測函數(shù)，為學(xué)習(xí)算法，為從數(shù)據(jù)集中學(xué)到的映射。對于一個學(xué)到的映射和損失函數(shù)，真實誤差被定義為。相應(yīng)的經(jīng)驗的誤差被定義為。

我們文章理論推導(dǎo)采用的是穩(wěn)定性框架，我們稱算法相對于損失函數(shù) 是一致穩(wěn)定的，如果

2.2 生成式數(shù)據(jù)增強

給定帶有個 i.i.d. 樣本的數(shù)據(jù)集，我們能訓(xùn)練一個條件生成模型，并將學(xué)到的分布定義為 ?；谟?xùn)練得到的條件生成模型，我們能生成一個新的具有個 i.i.d. 樣本的數(shù)據(jù)集。我們記增廣后的數(shù)據(jù)集大小為。我們可以在增廣后的數(shù)據(jù)集上學(xué)到映射。為了理解生成式數(shù)據(jù)增強，我們關(guān)心泛化誤差。據(jù)我們所知，這是第一個理解生成式數(shù)據(jù)增強泛化誤差的工作。

2.3 一般情況

我們可以對于任意的生成器和一致穩(wěn)定的分類器，推得如下的泛化誤差：

▲ general一般來說，我們比較關(guān)心泛化誤差界關(guān)于樣本數(shù) 的收斂率。將看成超參數(shù)，并將后面兩項記為 generalization error w.r.t. mixed distribution，我們可以定義如下的“最有效的增強數(shù)量”：

在這個設(shè)置下，并和沒有數(shù)據(jù)增強的情況進行對比（），我們可以得到如下的充分條件，它刻畫了生成式數(shù)據(jù)增強何時（不）能夠促進下游分類任務(wù)，這和生成模型學(xué)習(xí)分的能力息息相關(guān)：

▲ corollary

2.4 高斯混合模型為了驗證我們理論的正確性，我們先考慮了一個簡單的高斯混合模型的 setting。 混合高斯分布。我們考慮二分類任務(wù) 。我們假設(shè)真實分布滿足 and 。我們假設(shè) 的分布是已知的。 線性分類器。我們考慮一個被參數(shù)化的分類器，預(yù)測函數(shù)為。給定訓(xùn)練集，通過最小化負對數(shù)似然損失函數(shù)得到，即最小化

學(xué)習(xí)算法將會推得，which satisfies 條件生成模型。我們考慮參數(shù)為的條件生成模型，其中以及。給定訓(xùn)練集，讓為第類的樣本量，條件生成模型學(xué)到

它們是和的無偏估計。我們可以從這個條件模型中進行采樣，即，，其中。我們在高斯混合模型的場景下具體計算 Theorem 3.1 中的各個項，可以推得

▲ GMM

當數(shù)據(jù)量足夠時，即使我們采用“最有效的增強數(shù)量”，生成式數(shù)據(jù)增強也難以提高下游任務(wù)的分類性能。
當數(shù)據(jù)量較小的，此時主導(dǎo)泛化誤差的是維度等其他項，此時進行生成式數(shù)據(jù)增強可以常數(shù)級降低泛化誤差，這意味著在過擬合的場景下，生成式數(shù)據(jù)增強是很有必要的。

2.5 生成對抗網(wǎng)絡(luò)

我們也考慮了深度學(xué)習(xí)的情況。我們假設(shè)生成模型為 MLP 生成對抗網(wǎng)絡(luò)，分類器為層 MLP 或者 CNN。損失函數(shù)為二元交叉熵，優(yōu)化算法為 SGD。我們假設(shè)損失函數(shù)平滑，并且第層的神經(jīng)網(wǎng)絡(luò)參數(shù)可以被控制。我們可以推得如下的結(jié)論：

▲ GAN

當數(shù)據(jù)量足夠時，生成式數(shù)據(jù)增強也難以提高下游任務(wù)的分類性能，甚至?xí)夯?/span>
當數(shù)據(jù)量較小的，此時主導(dǎo)泛化誤差的是維度等其他項，此時進行生成式數(shù)據(jù)增強可以常數(shù)級降低泛化誤差，同樣地，這意味著在過擬合的場景下，生成式數(shù)據(jù)增強是很有必要的。

實驗

3.1 高斯混合模型模擬實驗

我們在混合高斯分布上驗證我們的理論，我們調(diào)整數(shù)據(jù)量，數(shù)據(jù)維度以及。實驗結(jié)果如下圖所示：

▲ simulation

觀察圖（a），我們可以發(fā)現(xiàn)當相對于足夠大的時候，生成式數(shù)據(jù)增強的引入并不能明顯改變泛化誤差。
觀察圖（d），我們可以發(fā)現(xiàn)當固定時，真實的泛化誤差確實是階的，且隨著增強數(shù)量的增大，泛化誤差呈現(xiàn)常數(shù)級的降低。
另外 4 張圖，我們選取了兩種情況，驗證了我們的 bound 能在趨勢上一定程度上預(yù)測泛化誤差。

這些結(jié)果支持了我們理論的正確性。3.2 深度生成模型實驗我們使用 ResNet 作為分類器，cDCGAN、StyleGANv2-ADA 和 EDM 作為深度生成模型，在 CIFAR-10 數(shù)據(jù)集上進行了實驗。實驗結(jié)果如下所示。由于訓(xùn)練集上訓(xùn)練誤差都接近 0，所以測試集上的錯誤率是泛化誤差的一個比較好的估計。我們利用是否做額外的數(shù)據(jù)增強（翻轉(zhuǎn)等）來近似是否充足。

▲ deep

在沒有額外數(shù)據(jù)增強的時候，較小，分類器陷入了嚴重的過擬合。此時，即使選取的 cDCGAN 很古早（bad GAN），生成式數(shù)據(jù)增強都能帶來明顯的提升。
在有額外數(shù)據(jù)增強的時候，充足。此時，即使選取的 StyleGAN 很先進（SOTA GAN），生成式數(shù)據(jù)增強都難以帶來明顯的提升，在 50k 和 100k 增強的情況下甚至都造成了一致的損害。
我們也測試了一個 SOTA 的擴散模型 EDM，發(fā)現(xiàn)即使在有額外數(shù)據(jù)增強的時候，生成式數(shù)據(jù)增強也能提升分類效果。這意味著擴散模型學(xué)習(xí)分布的能力可能會優(yōu)于 GAN。

原文標題：NeurIPS 2023 | 如何從理論上研究生成式數(shù)據(jù)增強的效果？

文章出處：【微信公眾號：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

物聯(lián)網(wǎng)

物聯(lián)網(wǎng)

+關(guān)注

關(guān)注
2914

文章
44976

瀏覽量
377449

原文標題：NeurIPS 2023 | 如何從理論上研究生成式數(shù)據(jù)增強的效果？

文章出處：【微信號：tyutcsplab，微信公眾號：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

檢索增強型生成(RAG)系統(tǒng)詳解

流暢且類似人類的文本方面表現(xiàn)出色，但它們有時在事實準確性上存在困難。當準確性非常重要時，這可能是一個巨大的問題。那么，這個問題的解決方案是什么呢？答案是檢索增強型生成（RAG）系統(tǒng)。 RAG集成了像GPT這樣的模型的強大功能，

發(fā)表于 12-24 10:44 ?336次閱讀

檢索<b class='flag-5'>增強</b>型<b class='flag-5'>生成</b>(RAG)系統(tǒng)詳解

ADS9234R的采樣速率理論上是多少，在正常設(shè)計中是否還會降低？

請問，傳統(tǒng)四線SPI的情況下，在一區(qū)傳輸模式中，利用MCU（SPI給的60MHZ最大；MCU主頻480MHZ），它的采樣速率理論上是多少，在正常設(shè)計中是否還會降低？

發(fā)表于 11-13 06:04

生成式AI工具作用

生成式AI工具是指那些能夠自動生成文本、圖像、音頻、視頻等多種類型數(shù)據(jù)的人工智能技術(shù)。在此，petacloud.ai小編為您整理生成

發(fā)表于 10-28 11:19 ?330次閱讀

運放THS4551理論上輸入是線性的，DC掃描，輸出也是線性的，為什么我們的輸出不是線性的？

運放THS4551 理論上輸入是線性的，DC掃描，輸出也是線性的，為什么我們的輸出不是線性的？是哪里存在問題嗎？請幫忙解決，謝謝

發(fā)表于 08-15 07:20

如何用C++創(chuàng)建簡單的生成式AI模型

生成式AI（Generative AI）是一種人工智能技術(shù)，它通過機器學(xué)習(xí)模型和深度學(xué)習(xí)技術(shù)，從大量歷史數(shù)據(jù)中學(xué)習(xí)對象的特征和規(guī)律，從而能夠生成

發(fā)表于 07-05 17:53 ?1088次閱讀

請問移動端生成式AI如何在Arm CPU上運行呢？

2023 年，生成式人工智能 (Generative AI) 領(lǐng)域涌現(xiàn)出諸多用例。這一突破性的人工智能 (AI) 技術(shù)是 OpenAI 的 ChatGPT 和 Google 的 Gemini AI 模型的核心

發(fā)表于 05-21 17:07 ?962次閱讀

美日聯(lián)手研究生成式AI，將建立合作框架

近期，美國和日本政府宣布將聯(lián)手研究生成式人工智能（AI），并計劃建立一個合作框架以共同推進該領(lǐng)域的技術(shù)進步。

發(fā)表于 04-18 15:15 ?651次閱讀

Bria利用NVIDIA NeMo和Picasso為企業(yè)打造負責(zé)任的生成式AI

隨著視覺生成式 AI 從研究階段邁入到商用階段，企業(yè)正在尋求負責(zé)任的方式來將這項技術(shù)集成到其產(chǎn)品中。

發(fā)表于 04-12 11:36 ?563次閱讀

檢索增強生成（RAG）如何助力企業(yè)為各種企業(yè)用例創(chuàng)建高質(zhì)量的內(nèi)容？

在生成式 AI 時代，機器不僅要從數(shù)據(jù)中學(xué)習(xí)，還要生成類似人類一樣的文本、圖像、視頻等。檢索增強生成（RAG）則是可以實現(xiàn)的一種突破性方法。

發(fā)表于 03-29 15:09 ?1020次閱讀

NVIDIA生成式AI研究實現(xiàn)在1秒內(nèi)生成3D形狀

NVIDIA 研究人員使 LATTE3D （一款最新文本轉(zhuǎn) 3D 生成式 AI 模型）實現(xiàn)雙倍加速。

發(fā)表于 03-27 10:28 ?563次閱讀

商湯集團2023全年業(yè)績亮眼，生成式AI業(yè)務(wù)爆發(fā)式增長

商湯集團近日發(fā)布了截至2023年12月31日的經(jīng)審核全年業(yè)績報告，展現(xiàn)了集團在AI領(lǐng)域的強勁增長勢頭。在全新的戰(zhàn)略布局下，商湯明確了三大業(yè)務(wù)板塊：生成式AI、傳統(tǒng)AI和智能汽車，并以生成

發(fā)表于 03-27 09:14 ?670次閱讀

生成式 AI 制作動畫：周期短、成本低！

? 電子發(fā)燒友網(wǎng)報道（文/李彎彎）生成式AI在動畫市場中的應(yīng)用正在迅速崛起。根據(jù)市場機構(gòu)數(shù)據(jù)，預(yù)計到2023年生成

發(fā)表于 03-18 08:19 ?3817次閱讀

名單公布！【書籍評測活動NO.30】大規(guī)模語言模型：從理論到實踐

。為了使更多的自然語言處理研究人員和對大語言模型感興趣的讀者能夠快速了解大模型的理論基礎(chǔ)，并開展大模型實踐，復(fù)旦大學(xué)張奇教授團隊結(jié)合他們在自然語言處理領(lǐng)域的研究經(jīng)驗，以及分布式系統(tǒng)和

發(fā)表于 03-11 15:16

請問下stm32G0系列理論上的外部中斷響應(yīng)時間是多少？

大佬們，請問下stm32G0系列理論上的外部中斷響應(yīng)時間是多少？我在spec里面沒有找到對這塊的詳細描述，只有如下描述；看之前的帖子stm32F103的外部中斷響應(yīng)時間是12個時鐘周期，實際上應(yīng)該會比這個時間長，G0也是一樣的嗎？

發(fā)表于 03-08 07:41

生成式人工智能和感知式人工智能的區(qū)別

生成新的內(nèi)容和信息的人工智能系統(tǒng)。這些系統(tǒng)能夠利用已有的數(shù)據(jù)和知識來生成全新的內(nèi)容，如圖片、音樂、文本等。生成式人工智能通?；谏疃葘W(xué)習(xí)技術(shù)

發(fā)表于 02-19 16:43 ?2048次閱讀

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

NeurIPS 2023 | 如何從理論上研究生成式數(shù)據(jù)增強的效果？

概述