欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

教你如何處理不平衡數(shù)據(jù)集

電子工程師 ? 來源:fqj ? 2019-06-07 11:27 ? 次閱讀

分類是機(jī)器學(xué)習(xí)最常見的問題之一,處理它的最佳方法是從分析和探索數(shù)據(jù)集開始,即從探索式數(shù)據(jù)分析(Exploratory Data Analysis,EDA)開始。除了生成盡可能多的數(shù)據(jù)見解和信息,它還用于查找數(shù)據(jù)集中可能存在的任何問題。在分析用于分類的數(shù)據(jù)集時(shí),類別不平衡是常見問題之一。

什么是數(shù)據(jù)不平衡(類別不平衡)?

數(shù)據(jù)不平衡通常反映了數(shù)據(jù)集中類別的不均勻分布。例如,在信用卡欺詐檢測(cè)數(shù)據(jù)集中,大多數(shù)信用卡交易類型都不是欺詐,僅有很少一部分類型是欺詐交易,如此以來,非欺詐交易和欺詐交易之間的比率達(dá)到50:1。本文中,我將使用來自Kaggle的信用卡欺詐交易數(shù)據(jù)數(shù)據(jù)集,你可以從這里下載

首先,我們先繪制類分布圖,查看不平衡情況。

教你如何處理不平衡數(shù)據(jù)集

如你所見,非欺詐交易類型數(shù)據(jù)數(shù)量遠(yuǎn)遠(yuǎn)超過欺詐交易類型。如果我們?cè)诓唤鉀Q這個(gè)類別不平衡問題的情況下訓(xùn)練了一個(gè)二分類模型,那么這個(gè)模型完全是有偏差的,稍后我還會(huì)向你演示它影響特征相關(guān)性的過程并解釋其中的原因。

現(xiàn)在,我們來介紹一些解決類別不平衡問題的技巧,你可以在這里找到完整代碼的notebook。

重采樣(過采樣和欠采樣)

教你如何處理不平衡數(shù)據(jù)集

這聽起來很直接。欠采樣就是一個(gè)隨機(jī)刪除一部分多數(shù)類(數(shù)量多的類型)數(shù)據(jù)的過程,這樣可以使多數(shù)類數(shù)據(jù)數(shù)量可以和少數(shù)類(數(shù)量少的類型)相匹配。

對(duì)多數(shù)類進(jìn)行欠采樣

對(duì)數(shù)據(jù)集進(jìn)行欠采樣之后,我重新畫出了類型分布圖(如下),可見兩個(gè)類型的數(shù)量相等。

教你如何處理不平衡數(shù)據(jù)集

平衡數(shù)據(jù)集(欠采樣)

第二種重采樣技術(shù)叫過采樣,這個(gè)過程比欠采樣復(fù)雜一點(diǎn)。它是一個(gè)生成合成數(shù)據(jù)的過程,試圖學(xué)習(xí)少數(shù)類樣本特征隨機(jī)地生成新的少數(shù)類樣本數(shù)據(jù)。對(duì)于典型的分類問題,有許多方法對(duì)數(shù)據(jù)集進(jìn)行過采樣,最常見的技術(shù)是SMOTE(Synthetic Minority Over-sampling Technique,合成少數(shù)類過采樣技術(shù))。簡(jiǎn)單地說,就是在少數(shù)類數(shù)據(jù)點(diǎn)的特征空間里,根據(jù)隨機(jī)選擇的一個(gè)K最近鄰樣本隨機(jī)地合成新樣本。

還記得我說過不平衡的數(shù)據(jù)會(huì)影響特征相關(guān)性嗎?讓我向您展示處理不平衡類問題前后的特征相關(guān)性。

重采樣之后:

請(qǐng)注意,現(xiàn)在特征相關(guān)性更明顯了。在解決不平衡問題之前,大多數(shù)特征并沒有顯示出相關(guān)性,這肯定會(huì)影響模型的性能。除了會(huì)關(guān)系到整個(gè)模型的性能,特征性相關(guān)性還會(huì)影響ML模型的性能,因此修復(fù)類別不平衡問題非常重要。

集成方法(采樣器集成)

在機(jī)器學(xué)習(xí)中,集成方法會(huì)使用多種學(xué)習(xí)算法和技術(shù),以獲得比單獨(dú)使用其中一個(gè)算法更好的性能(是的,就像一個(gè)民主投票系統(tǒng))。當(dāng)使用集合分類器時(shí),bagging方法變得流行起來,它通過構(gòu)建多個(gè)分類器在隨機(jī)選擇的不同數(shù)據(jù)集上進(jìn)行訓(xùn)練。在scikit-learn庫(kù)中,有一個(gè)名叫“Bagging Classifier”的集成分類器,然而這個(gè)分類器不能訓(xùn)練不平衡數(shù)據(jù)集。當(dāng)訓(xùn)練不平衡數(shù)據(jù)集時(shí),這個(gè)分類器將會(huì)偏向多數(shù)類,從而創(chuàng)建一個(gè)有偏差的模型。

為了解決這個(gè)問題,我們可以使用imblearn庫(kù)中的BalancedBaggingClassifier。它允許在訓(xùn)練集成分類器中每個(gè)子分類器之前對(duì)每個(gè)子數(shù)據(jù)集進(jìn)行重采樣。

因此,BalancedBaggingClassifier除了需要和Scikit Learn BaggingClassifier相同的參數(shù)以外,還需要2個(gè)參數(shù)sampling_strategy和replacement來控制隨機(jī)采樣器的執(zhí)行。

使用集合采樣器訓(xùn)練不平衡數(shù)據(jù)集

這樣,您就可以訓(xùn)練一個(gè)分類器來處理類別不平衡問題,而不必在訓(xùn)練前手動(dòng)進(jìn)行欠采樣或過采樣。總之,每個(gè)人都應(yīng)該知道,建立在不平衡數(shù)據(jù)集上的ML模型會(huì)難以準(zhǔn)確預(yù)測(cè)稀有點(diǎn)和少數(shù)點(diǎn),整體性能會(huì)受到限制。因此,識(shí)別和解決這些點(diǎn)的不平衡對(duì)生成模型的質(zhì)量和性能是至關(guān)重要的。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:一文教你如何處理不平衡數(shù)據(jù)集(附代碼)

文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何理解矢量測(cè)量中“平衡”與“不平衡

    在矢量測(cè)試中,經(jīng)常需要測(cè)量信號(hào)的不平衡性,會(huì)遇到相關(guān)的幾個(gè)名詞:Balance(平衡),Unbalance(不平衡/非平衡)和Imbalance(
    發(fā)表于 03-29 10:51 ?2862次閱讀
    如何理解矢量測(cè)量中“<b class='flag-5'>平衡</b>”與“<b class='flag-5'>不平衡</b>

    不平衡數(shù)據(jù)上的Relief特征選擇算法_菅小艷

    不平衡數(shù)據(jù)上的Relief特征選擇算法_菅小艷
    發(fā)表于 01-08 10:40 ?1次下載

    基于主動(dòng)學(xué)習(xí)不平衡多分類AdaBoost改進(jìn)算法

    ,基于不確定性動(dòng)態(tài)間隔的樣本選擇策略,降低訓(xùn)練不平衡性;最后,利用代價(jià)敏感方法對(duì)多分類AdaBoost算法進(jìn)行改進(jìn),對(duì)不同的類別給予不同的錯(cuò)分代價(jià),調(diào)整樣本權(quán)重更新速度,強(qiáng)迫弱分類器關(guān)注小類樣本。在臨床經(jīng)胸超聲心動(dòng)圖(TTE)測(cè)量數(shù)
    發(fā)表于 11-30 17:12 ?3次下載

    手把手教你解決-深度學(xué)習(xí)訓(xùn)練數(shù)據(jù)不平衡問題

    當(dāng)我們解決任何機(jī)器學(xué)習(xí)問題時(shí),我們面臨的最大問題之一是訓(xùn)練數(shù)據(jù)不平衡。不平衡數(shù)據(jù)的問題在于學(xué)術(shù)界對(duì)于相同的定義、含義和可能的解決方案存在分歧。我們將嘗試用圖像分類問題來解開訓(xùn)練
    的頭像 發(fā)表于 07-24 13:34 ?8469次閱讀

    三相電壓不平衡產(chǎn)生原因_三相電壓不平衡的治理措施

    電力系統(tǒng)中三相電壓不平衡產(chǎn)生的主要原因是負(fù)荷的不平衡和系統(tǒng)阻抗的不平衡。其中負(fù)荷的不平衡是造成三相電壓不平衡的主要原因,比較明顯的單相負(fù)荷由
    的頭像 發(fā)表于 10-28 16:43 ?2.5w次閱讀

    三相不平衡有哪些處理方法

    在三相交流系統(tǒng)中,三相電壓或電流在幅值上相同或相位差為120度,反之則判斷為三相不平衡。不平衡問題的處理有負(fù)荷補(bǔ)償、負(fù)荷相序平衡、配網(wǎng)重構(gòu)等方式來
    的頭像 發(fā)表于 11-22 17:47 ?2.2w次閱讀

    為什么三相變頻電源出現(xiàn)不平衡?如何處理

      為什么三相變頻電源會(huì)出現(xiàn)不平衡:   (1)在配電網(wǎng)側(cè),存在大量不平衡的單相負(fù)載,導(dǎo)致配電站的區(qū)域。在大多數(shù)地區(qū),三相不平衡程度不同。   (2)用戶用電過程的隨機(jī)性和不確定性,以及日益增加
    的頭像 發(fā)表于 03-24 09:52 ?1870次閱讀
    為什么三相變頻電源出現(xiàn)<b class='flag-5'>不平衡</b>?如<b class='flag-5'>何處理</b>?

    電機(jī)轉(zhuǎn)子不平衡對(duì)電機(jī)質(zhì)量的影響大嗎

    轉(zhuǎn)子不平衡對(duì)電機(jī)質(zhì)量的影響有哪些?小編將分析轉(zhuǎn)子機(jī)械不平衡產(chǎn)生的振動(dòng)和噪聲問題。
    發(fā)表于 08-30 10:51 ?974次閱讀

    三相不平衡是什么意思?三相電壓不平衡怎么處理?

    三相不平衡是什么意思?三相電壓不平衡怎么處理?? 三相不平衡是指三相電壓或電流的幅度或相位不同,這會(huì)導(dǎo)致電力系統(tǒng)的不穩(wěn)定、效率低下、設(shè)備壽命短等問題。在三相電力系統(tǒng)中,三相電壓應(yīng)該相等
    的頭像 發(fā)表于 09-25 17:36 ?4436次閱讀

    三相電壓不平衡是什么原因造成的?三相不平衡會(huì)跳閘嗎?

    三相電壓不平衡是什么原因造成的?三相不平衡會(huì)跳閘嗎?三相不平衡度允許范圍? 三相電壓不平衡是指三相電源電壓之間的差異,通常是由電源系統(tǒng)出現(xiàn)故障或不良設(shè)計(jì)引起的。
    的頭像 發(fā)表于 09-25 17:36 ?7952次閱讀

    I/Q不平衡的來源 IQ信道之間的不平衡會(huì)造成什么影響呢?

    字通信中,I/Q不平衡可能導(dǎo)致信號(hào)失真、干擾甚至數(shù)據(jù)丟失,特別是在高速數(shù)據(jù)傳輸和高頻率應(yīng)用中。 I/Q不平衡的來源可以分類為硬件和軟件因素。硬件因素包括電子元器件毛刺、電纜或傳輸線路失
    的頭像 發(fā)表于 10-31 09:34 ?1236次閱讀

    為什么三相變頻電源出現(xiàn)不平衡?如何處理?

    為什么三相變頻電源出現(xiàn)不平衡?如何處理? 三相變頻電源出現(xiàn)不平衡的原因有很多,主要包括電源輸入問題、電源負(fù)載問題和控制系統(tǒng)問題等。下面將詳細(xì)探討這些問題以及如何處理。 首先,電源輸入問
    的頭像 發(fā)表于 11-16 11:06 ?2274次閱讀

    三相電壓不平衡對(duì)電路的影響

    三相電壓不平衡對(duì)電路的影響 三相電壓不平衡是指三相電網(wǎng)中三個(gè)相電壓的幅值和相位不一致,造成電壓波形不對(duì)稱的情況。常見的三相電壓不平衡情況包括電壓幅值不平衡、相位
    的頭像 發(fā)表于 12-11 17:16 ?2945次閱讀

    三相不平衡最佳解決辦法 三相不平衡多少范圍內(nèi)是合理的

    三相不平衡最佳解決辦法 在電力系統(tǒng)中,三相不平衡是指三個(gè)相之間電壓或電流不相等的現(xiàn)象。當(dāng)三相不平衡的情況發(fā)生時(shí),可能會(huì)導(dǎo)致線路過載、設(shè)備壽命縮短、電能損耗增加等問題。因此,解決三相不平衡
    的頭像 發(fā)表于 02-06 10:07 ?3609次閱讀

    平衡電阻器可以改為不平衡

    在電子電路中,平衡電阻器與不平衡電阻器各自扮演著重要的角色。平衡電阻器主要用于實(shí)現(xiàn)電路的平衡和穩(wěn)定性,減少噪音和干擾,提高信號(hào)質(zhì)量。而不平衡
    的頭像 發(fā)表于 01-30 14:31 ?204次閱讀