欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何從13個Kaggle比賽中挑選出的最好的Kaggle kernel

新機(jī)器視覺 ? 來源:AI公園 ? 作者:Prince Canuma ? 2021-06-27 09:26 ? 次閱讀

導(dǎo)讀

覆蓋了模型相關(guān)的方方面面,從數(shù)據(jù)準(zhǔn)備到模型的推理,每個階段的方法和要點,非常多的參考資料,足夠看一段時間了。

任何領(lǐng)域的成功都可以歸結(jié)為一套小規(guī)則和基本原則,當(dāng)它們結(jié)合在一起時會產(chǎn)生偉大的結(jié)果。機(jī)器學(xué)習(xí)和圖像分類也不例外,工程師們可以通過參加像Kaggle這樣的競賽來展示最佳實踐。在這篇文章中,我將給你很多資源來學(xué)習(xí),聚焦于從13個Kaggle比賽中挑選出的最好的Kaggle kernel。

這些比賽是:

Intel Image Classification:https://www.kaggle.com/puneet6060/intel-image-classification

Recursion Cellular Image Classification:https://www.kaggle.com/c/recursion-cellular-image-classification

SIIM-ISIC Melanoma Classification:https://www.kaggle.com/c/siim-isic-melanoma-classification

APTOS 2019 Blindness Detection:https://www.kaggle.com/c/aptos2019-blindness-detection/notebooks

Diabetic Retinopathy Detection:https://www.kaggle.com/c/diabetic-retinopathy-detection

ML Project?—?Image Classification:https://www.kaggle.com/c/image-classification-fashion-mnist/notebooks

Cdiscount’s Image Classification Challenge:

https://www.kaggle.com/c/cdiscount-image-classification-challenge/notebooks

Plant seedlings classifications:

https://www.kaggle.com/c/plant-seedlings-classification/notebooks

Aesthetic Visual Analysis:

https://www.kaggle.com/c/aesthetic-visual-analysis/notebooks

我們會討論調(diào)試深度學(xué)習(xí)解決方案的三個主要方面:

數(shù)據(jù)

模型

損失函數(shù)

還有很多例子項目(和參考資料)供你參考。

數(shù)據(jù)

圖像預(yù)處理 + EDA

每一個機(jī)器學(xué)習(xí)/深度學(xué)習(xí)解決方案都從原始數(shù)據(jù)開始。在數(shù)據(jù)處理管道中有兩個基本步驟。第一步是探索性數(shù)據(jù)分析 (EDA)。它幫助我們分析整個數(shù)據(jù)集并總結(jié)它的主要特征,比如類分布、大小分布等等。通常使用可視化方法來顯示這種分析的結(jié)果。第二步是圖像預(yù)處理,目的是對原始圖像提高圖像數(shù)據(jù)(也稱為圖像特征)的質(zhì)量,通過抑制不必要的扭曲,縮放,增強(qiáng)重要的特征,使數(shù)據(jù)更適合模型并提高性能。你可以鉆研這些Kaggle筆記本,看看一些圖像預(yù)處理技術(shù):

Visualisation:

https://www.kaggle.com/allunia/protein-atlas-exploration-and-baseline#Building-a-baseline-model-

Dealing with Class imbalance:https://www.kaggle.com/rohandeysarkar/ultimate-image-classification-guide-2020

Fill missing values (labels, features and, etc.):https://www.kaggle.com/datafan07/analysis-of-melanoma-metadata-and-effnet-ensemble

Normalisation?:https://www.kaggle.com/vincee/intel-image-classification-cnn-keras

Pre-processing:

https://www.kaggle.com/ratthachat/aptos-eye-preprocessing-in-diabetic-retinopathy#3.A-Important-Update-on-Color-Version-of-Cropping-&-Ben‘s-Preprocessing

數(shù)據(jù)增強(qiáng)

數(shù)據(jù)增強(qiáng) 可以通過從現(xiàn)有的訓(xùn)練樣本中生成更多的訓(xùn)練數(shù)據(jù)來擴(kuò)展我們的數(shù)據(jù)集。通過大量的隨機(jī)轉(zhuǎn)換生成新的樣本,這些轉(zhuǎn)換不僅可以生成可信的圖像,而且還反映了真實的場景 —— 稍后將對此進(jìn)行詳細(xì)介紹。這種技術(shù)得到了廣泛的應(yīng)用,不僅僅是在訓(xùn)練模型的數(shù)據(jù)樣本太少的情況下。在這種情況下,模型開始記憶訓(xùn)練集,但無法泛化(在從未見過的數(shù)據(jù)上表現(xiàn)很差)。通常,當(dāng)一個模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)很好,但在驗證數(shù)據(jù)上表現(xiàn)很差時,我們稱之為過擬合。為了解決這個問題,我們通常會嘗試獲取新數(shù)據(jù),如果沒有可用的新數(shù)據(jù),則可以使用數(shù)據(jù)增強(qiáng)。注:一般的經(jīng)驗法則是始終使用數(shù)據(jù)增強(qiáng)技術(shù),因為它有助于使我們的模型見識更多的變化并更好地泛化。即使我們有一個很大的數(shù)據(jù)集,也要使用數(shù)據(jù)增強(qiáng),但這是以較慢的訓(xùn)練速度為代價的,因為增強(qiáng)是在線完成的(即在訓(xùn)練期間)。此外,對于每個任務(wù)或數(shù)據(jù)集,我們必須使用反映可能的現(xiàn)實場景的增強(qiáng)技術(shù)(例如,如果我們有一個貓/狗探測器,我們可以使用水平翻轉(zhuǎn)、剪裁、亮度和對比度,因為這些增強(qiáng)匹配不同的照片拍攝方式。這里是一些Kaggle比賽notebooks,你可以查看流行的數(shù)據(jù)增強(qiáng)技術(shù):

Horizontal Flip:

https://www.kaggle.com/datafan07/analysis-of-melanoma-metadata-and-effnet-ensemble

Random Rotate and Random Dihedral:https://www.kaggle.com/iafoss/pretrained-resnet34-with-rgby-0-460-public-lb

Hue, Saturation, Contrast, Brightness, Crop:https://www.kaggle.com/cdeotte/triple-stratified-kfold-with-tfrecords

Colour jitter:

https://www.kaggle.com/nroman/melanoma-pytorch-starter-efficientnet

模型

開發(fā)一個基線

在這里,我們使用一個非常簡單的架構(gòu)創(chuàng)建一個基本的模型,沒有任何正則化或dropout層,看看我們是否能超過50%的準(zhǔn)確率基線。盡管我們不可能總能達(dá)到這個目標(biāo),但如果我們在嘗試了多種合理的架構(gòu)后不能超過基線,那么輸入數(shù)據(jù)可能不包含模型進(jìn)行預(yù)測所需的信息

用Jeremy Howard的名言:“你應(yīng)該能夠在15分鐘內(nèi)使用50%或更少的數(shù)據(jù)集快速測試你是否正在朝著一個有希望的方向前進(jìn),如果沒有,你必須重新考慮一切?!?/p>

開發(fā)一個足夠大可以過擬合的模型

一旦我們的基線模型有足夠的能力超過基線分?jǐn)?shù),我們就可以增加基線模型的能力,直到它在數(shù)據(jù)集上過擬合為止,然后我們就開始應(yīng)用正則化。我們可以通過以下方式增加模塊容量:

添加更多層

使用更好的結(jié)構(gòu)

更完善的訓(xùn)練流程

結(jié)構(gòu)

根據(jù)文獻(xiàn),以下架構(gòu)的改進(jìn)提高了模型的容量,但幾乎沒有改變計算復(fù)雜度。

Residual Networks

Wide Residual Networks

Inception

EfficientNet

Swish activation

Residual Attention Network

大多數(shù)時候,模型容量和精度是正相關(guān)的 —— 隨著容量的增加,精度也會增加,反之亦然。

訓(xùn)練過程

下面是一些你可以用來調(diào)整你的模型的訓(xùn)練過程,通過實例項目來看看它們是如何工作的:

Mixed-Precision Training

Large Batch-Size Training

Cross-Validation Set

Weight Initialization

Self-Supervised Training (Knowledge Distillation)

Learning Rate Scheduler

Learning Rate Warmup

Early Stopping

Differential Learning Rates

Ensemble

Transfer Learning

Fine-Tuning

超參數(shù)調(diào)試

參數(shù)不同,hyperparameters是由你在配置模型時指定的(即學(xué)習(xí)率、epoch的數(shù)量、hidden units的數(shù)量、batch size大小等)。你可以通過使用hyperparameter調(diào)優(yōu)庫,比如Scikit learn Grid Search,Keras Tuner來自動化這個過程,而不是去手動配置。這些庫會在你指定的范圍內(nèi)嘗試所有的hyperparameter組合,返回表現(xiàn)最好的模型。需要調(diào)優(yōu)的超參數(shù)越多,過程就越慢,因此最好選擇模型超參數(shù)的最小子集進(jìn)行調(diào)優(yōu)。并不是所有的模型超參數(shù)都同樣重要。一些超參數(shù)會對機(jī)器學(xué)習(xí)算法的行為產(chǎn)生巨大的影響,進(jìn)而影響其性能。你應(yīng)該小心地選擇那些對模型性能影響最大的參數(shù),并對它們進(jìn)行調(diào)優(yōu)以獲得最佳性能。

正則化

這種方法迫使模型學(xué)習(xí)有意義和具有泛化能力的數(shù)據(jù)表示,通過對記憶/過擬合和欠擬合進(jìn)行懲罰來實現(xiàn),使模型對于它沒見過的數(shù)據(jù)更魯棒。解決上述問題的一個簡單方法是獲得更多的訓(xùn)練數(shù)據(jù),因為一個模型訓(xùn)練的數(shù)據(jù)越多,自然就會泛化得越好。這里有一些技巧你可以試著減輕過擬合和欠擬合,項目如下:

Adding Dropout:https://www.kaggle.com/allunia/protein-atlas-exploration-and-baseline

Adding or changing the position of Batch Norm:https://www.kaggle.com/allunia/protein-atlas-exploration-and-baseline

Data augmentation:https://www.kaggle.com/cdeotte/triple-stratified-kfold-with-tfrecords

Mixup:https://arxiv.org/abs/1710.09412

Weight regularization:https://www.kaggle.com/allunia/protein-atlas-exploration-and-baseline

Gradient clipping:https://www.kaggle.com/allunia/protein-atlas-exploration-and-baseline

損失函數(shù)

損失函數(shù)也被稱為成本函數(shù)或目標(biāo)函數(shù),用于查找目標(biāo)輸出的模型之間的差異,并幫助模型最小化它們之間的距離。

這里是一些最流行的損失函數(shù),與項目實例,你會發(fā)現(xiàn)一些技巧,以提高你的模型的能力:

Label smoothing

Focal loss

SparseMax loss and Weighted cross-entropy

BCE loss, BCE with logits loss and Categorical cross-entropy loss

Additive Angular Margin Loss for Deep Face Recognition

評估 + 錯誤分析

在這里,我們做消融研究,并分析我們的實驗結(jié)果。我們確定了我們的模型的弱點和長處,并確定了未來需要改進(jìn)的地方。在這個階段,你可以使用以下技術(shù),并在鏈接的示例中查看它們是如何實現(xiàn)的:

Tracking metrics and Confusion matrix:

https://www.kaggle.com/vincee/intel-image-classification-cnn-keras

Grad CAM:https://arxiv.org/pdf/1610.02391v1.pdf

Test Time Augmentation (TTA):

https://www.kaggle.com/iafoss/pretrained-resnet34-with-rgby-0-460-public-lb

有許多實驗跟蹤和管理工具,采取最小設(shè)置為你自動保存所有數(shù)據(jù),這使消融研究更容易。

最后

有許多方法來調(diào)整你的模型,并且新的想法總是會出現(xiàn)。深度學(xué)習(xí)是一個快速發(fā)展的領(lǐng)域,沒有什么靈丹妙藥。我們必須做很多實驗,足夠的試驗和錯誤會帶來突破。

英文原文:https://neptune.ai/blog/image-classification-tips-and-tricks-from-13-kaggle-competitions

—版權(quán)聲明—

來源丨AI公園 作者 | Prince Canuma 編譯 | ronghuaiyang

僅用于學(xué)術(shù)分享,版權(quán)屬于原作者。

若有侵權(quán),請聯(lián)系刪除或修改!

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • eda
    eda
    +關(guān)注

    關(guān)注

    71

    文章

    2790

    瀏覽量

    173915
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4346

    瀏覽量

    62992
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8442

    瀏覽量

    133103
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5516

    瀏覽量

    121583

原文標(biāo)題:圖像分類:來自Kaggle中13個項目的Tips和Tricks

文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    Kaggle知識點:7種超參數(shù)搜索方法

    問題。一些常見的超參數(shù)例子包括梯度基算法的學(xué)習(xí)率,或者決策樹算法樹的深度,這些可以直接影響模型準(zhǔn)確擬合訓(xùn)練數(shù)據(jù)的能力。超參數(shù)調(diào)優(yōu)涉及在復(fù)雜的、高維的超參數(shù)空間中
    的頭像 發(fā)表于 02-08 14:28 ?161次閱讀
    <b class='flag-5'>Kaggle</b>知識點:7種超參數(shù)搜索方法

    市面上有哪些性價比高的條碼掃描模組?

    地提升了工作效率和數(shù)據(jù)管理的準(zhǔn)確性。對于追求性價比的用戶而言,如何在琳瑯滿目的市場挑選出最適合自己需求的條碼掃描模組,成為了一項關(guān)鍵任務(wù)。首先,我們不得不提的是深圳遠(yuǎn)景達(dá)公司的LV4500-20掃描模組
    的頭像 發(fā)表于 01-10 00:00 ?110次閱讀
    市面上有哪些性價比高的條碼掃描模組?

    AFE7070頻頻率f0最好設(shè)置在一什么范圍?

    我咨詢下AFE7070芯片中數(shù)模轉(zhuǎn)換器的一問題: 我們一項目需要AFE7070DAC輸出一中頻帶寬信號f0±1MHz,中頻頻率f0=20MHz,帶寬B=2MHz。但是我看到芯
    發(fā)表于 01-01 08:16

    Kaggle知識點:使用大模型進(jìn)行特征篩選

    方法依賴于數(shù)據(jù)集中的樣本點進(jìn)行統(tǒng)計推斷,而基于文本的方法需要描述性的上下文以更好地在特征和目標(biāo)變量之間建立語義關(guān)聯(lián)。這種方法利用了大型語言模型(LLMs)豐富的語
    的頭像 發(fā)表于 12-03 01:06 ?1372次閱讀
    <b class='flag-5'>Kaggle</b>知識點:使用大模型進(jìn)行特征篩選

    如何參數(shù)和價格2維度來挑選合適的LoRa模塊

    “參數(shù)”、“價格”這2維度來幫助大家看看如何挑選合適的LoRa模塊。 什么是LoRa? LoRa是創(chuàng)建長距離通信連接的物理層無線調(diào)制技術(shù),屬于線性調(diào)制擴(kuò)頻技術(shù)(Chirp Spread Spectrum,CSS)的一種,也叫寬帶線性調(diào)頻技術(shù)(Chirp Modulati
    的頭像 發(fā)表于 11-26 11:09 ?395次閱讀
    如何<b class='flag-5'>從</b>參數(shù)和價格2<b class='flag-5'>個</b>維度來<b class='flag-5'>挑選</b>合適的LoRa模塊

    關(guān)于LRU(Least Recently Used)的邏輯實現(xiàn)

    Cache替換策略里還是有較大的用途的。對于一N路組相連,當(dāng)對應(yīng)的entry滿了之后,當(dāng)有新的訪問請求到來后需Nentry挑選出
    的頭像 發(fā)表于 11-12 11:47 ?415次閱讀
    關(guān)于LRU(Least Recently Used)的邏輯實現(xiàn)

    挑選海外云服務(wù)器提供商攻略

    挑選海外云服務(wù)器提供商是一綜合考量多方面因素的過程。在明確自身需求的基礎(chǔ)上,可以性能、成本、安全、服務(wù)等多個維度進(jìn)行全面評估。
    的頭像 發(fā)表于 10-15 18:20 ?214次閱讀

    MOS管品牌之“巔峰對決”

    在電子世界的廣袤領(lǐng)域中,MOS管猶如一個個忠誠的衛(wèi)士,守護(hù)著電路的穩(wěn)定運(yùn)行。而當(dāng)我們探尋哪個品牌的MOS管最好時,就如同在眾多英雄豪杰挑選出最耀眼的那顆星。首先,國際知名品牌英飛凌
    的頭像 發(fā)表于 08-30 12:34 ?981次閱讀
    MOS管品牌之“巔峰對決”

    工業(yè)生產(chǎn)中不可或缺的“操作利器”—RFID揀貨標(biāo)簽

    揀貨的發(fā)展過程是一人工化到自動化、智能化不斷演進(jìn)的過程!近年來,備受關(guān)注的“貨尋人”技術(shù)深受各企業(yè)的喜愛,能夠依據(jù)自身具體需求,在眾多揀選技術(shù)挑選出最佳匹配項。。那么,“貨到人”
    的頭像 發(fā)表于 07-15 15:50 ?371次閱讀
    工業(yè)生產(chǎn)中不可或缺的“操作利器”—RFID揀貨標(biāo)簽

    linux kernel通過修改鏈接腳本lds文件,如何在esp32的linker.lf文件實現(xiàn)?

    linux kernel通過修改鏈接腳本lds文件實現(xiàn),請問如何在esp32的linker.lf文件實現(xiàn)? linux kernel實現(xiàn)過程: 鏈接腳本: . = ALIGN(4
    發(fā)表于 06-26 06:19

    三星貼片電容挑選技巧是什么呢?

    其實關(guān)于三星貼片電容的挑選技巧首先要注意三星貼片電容的表面質(zhì)量以及功能,這是比較重要的兩方面,一般情況下,建議企業(yè)用戶在挑選電容的時候,可以根據(jù)這兩細(xì)節(jié)做
    的頭像 發(fā)表于 05-22 14:04 ?308次閱讀

    大學(xué)生學(xué)單片機(jī)不能錯過的比賽

    單片機(jī)比賽是電子和計算機(jī)領(lǐng)域的一項重要賽事,旨在提升參賽者的專業(yè)技能、團(tuán)隊協(xié)作能力和創(chuàng)新思維。以下是一些常見的單片機(jī)比賽
    的頭像 發(fā)表于 05-15 09:50 ?1948次閱讀
    大學(xué)生學(xué)單片機(jī)不能錯過的<b class='flag-5'>比賽</b>

    BP神經(jīng)網(wǎng)絡(luò)算法的基本流程

    訓(xùn)練經(jīng)過約50次左右迭代,在訓(xùn)練集上已經(jīng)能達(dá)到99%的正確率,在測試集上的正確率為90.03%,單純的BP神經(jīng)網(wǎng)絡(luò)能夠提升的空間不大了,但kaggle上已經(jīng)有人有卷積神經(jīng)網(wǎng)絡(luò)在測試集達(dá)到了99.3%的準(zhǔn)確率。
    發(fā)表于 03-20 09:58 ?2395次閱讀
    BP神經(jīng)網(wǎng)絡(luò)算法的基本流程

    OpenVINO?協(xié)同Semantic Kernel:優(yōu)化大模型應(yīng)用性能新路徑

    作為主要面向 RAG 任務(wù)方向的框架,Semantic Kernel 可以簡化大模型應(yīng)用開發(fā)過程,而在 RAG 任務(wù)中最常用的深度學(xué)習(xí)模型就是 Embedding 和 Text completion,分別實現(xiàn)文本的語義向量化和文本生成
    的頭像 發(fā)表于 03-08 10:41 ?830次閱讀
    OpenVINO?協(xié)同Semantic <b class='flag-5'>Kernel</b>:優(yōu)化大模型應(yīng)用性能新路徑

    NBA比賽收視率的背后是什么?

    在夏季季后賽之前,還有82場常規(guī)賽,那么賽程安排就是NBA的一重要任務(wù)。30支球隊要進(jìn)行82場比賽,每支球隊市值都超過10億美元。僅電視轉(zhuǎn)播收入每年就超過20億美元,球迷和廣告商都希望他們的球隊
    的頭像 發(fā)表于 02-24 08:04 ?432次閱讀
    NBA<b class='flag-5'>比賽</b>收視率的背后是什么?