欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)的任務(wù):從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

如意 ? 來(lái)源:百家號(hào) ? 作者: 讀芯術(shù) ? 2020-07-01 09:37 ? 次閱讀

作為工作中最關(guān)鍵的部分,數(shù)據(jù)預(yù)處理同時(shí)也是大多數(shù)數(shù)據(jù)科學(xué)家耗時(shí)最長(zhǎng)的項(xiàng)目,他們大約80%的時(shí)間花在這上面。

這些任務(wù)有怎樣重要性?有哪些學(xué)習(xí)方法和技巧?本文就將重點(diǎn)介紹來(lái)自著名大學(xué)和研究團(tuán)隊(duì)在不同培訓(xùn)數(shù)據(jù)主題上的學(xué)術(shù)論文。主題包括人類(lèi)注釋者的重要性,如何在相對(duì)較短的時(shí)間內(nèi)創(chuàng)建大型數(shù)據(jù)集,如何安全處理可能包含私人信息的訓(xùn)練數(shù)據(jù)等等。

1. 人類(lèi)注釋器(human annotators)是多么重要?

機(jī)器學(xué)習(xí)的任務(wù):從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

本文介紹了注釋器質(zhì)量如何極大地影響訓(xùn)練數(shù)據(jù),進(jìn)而影響模型的準(zhǔn)確性的第一手資料。在這個(gè)情緒分類(lèi)項(xiàng)目里,Joef Stefan研究所的研究人員用多種語(yǔ)言分析了sentiment-annotated tweet的大型數(shù)據(jù)集。

有趣的是,該項(xiàng)目的結(jié)果表明頂級(jí)分類(lèi)模型的性能在統(tǒng)計(jì)學(xué)上沒(méi)有重大差異。相反,人類(lèi)注釋器的質(zhì)量是決定模型準(zhǔn)確性的更大因素。

為了評(píng)估他們的注釋器,團(tuán)隊(duì)使用了注釋器之間的認(rèn)同過(guò)程和自我認(rèn)同過(guò)程。研究發(fā)現(xiàn),雖然自我認(rèn)同是去除表現(xiàn)不佳的注釋器的好方法,但注釋者之間的認(rèn)同可以用來(lái)衡量任務(wù)的客觀難度。

研究論文:《多語(yǔ)言Twitter情緒分類(lèi):人類(lèi)注釋器的角色》(MultilingualTwitter Sentiment Classification: The Role of Human Annotators)

作者/供稿人:Igor Mozetic, Miha Grcar, Jasmina Smailovic(所有作者均來(lái)自Jozef Stefan研究所)

出版/最后更新日期:2016年5月5日

2.機(jī)器學(xué)習(xí)的數(shù)據(jù)收集調(diào)查

機(jī)器學(xué)習(xí)的任務(wù):從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

這篇論文來(lái)自韓國(guó)先進(jìn)科學(xué)技術(shù)研究所的一個(gè)研究團(tuán)隊(duì),非常適合那些希望更好地了解數(shù)據(jù)收集、管理和注釋的初學(xué)者。此外,本文還介紹和解釋了數(shù)據(jù)采集、數(shù)據(jù)擴(kuò)充和數(shù)據(jù)生成的過(guò)程。

對(duì)于剛接觸機(jī)器學(xué)習(xí)的人來(lái)說(shuō),這篇文章是一個(gè)很好的資源,可以幫助你了解許多常見(jiàn)的技術(shù),這些技術(shù)可以用來(lái)創(chuàng)建高質(zhì)量的數(shù)據(jù)集。

研究論文:《機(jī)器學(xué)習(xí)的數(shù)據(jù)收集調(diào)查》(A Survey on Data Collection for MachineLearning)

作者/供稿人: Yuji Roh, Geon Heo, Steven Euijong Whang (所有作者均來(lái)自韓國(guó)科學(xué)技術(shù)院)

出版/最后更新日期:2019年8月12日

3.用于半監(jiān)督式學(xué)習(xí)和遷移學(xué)習(xí)的高級(jí)數(shù)據(jù)增強(qiáng)技術(shù)

機(jī)器學(xué)習(xí)的任務(wù):從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

目前數(shù)據(jù)科學(xué)家面臨的最大問(wèn)題之一就是獲得訓(xùn)練數(shù)據(jù)。也可以說(shuō),深度學(xué)習(xí)所面臨最大的問(wèn)題之一,是大多數(shù)模型都需要大量的標(biāo)簽數(shù)據(jù)才能以較高的精度發(fā)揮作用。

為了解決這些問(wèn)題,來(lái)自谷歌和卡內(nèi)基·梅隆大學(xué)的研究人員提出了一個(gè)在大幅降低數(shù)據(jù)量的情況下訓(xùn)練模型的框架。該團(tuán)隊(duì)提出使用先進(jìn)的數(shù)據(jù)增強(qiáng)方法來(lái)有效地將噪音添加到半監(jiān)督式學(xué)習(xí)模型中使用的未標(biāo)記數(shù)據(jù)樣本中,這個(gè)框架能夠取得令人難以置信的結(jié)果。

該團(tuán)隊(duì)表示,在IMDB文本分類(lèi)數(shù)據(jù)集上,他們的方法只需在20個(gè)標(biāo)記樣本上進(jìn)行訓(xùn)練,就能夠超越最先進(jìn)的模型。此外,在CIFAR-10基準(zhǔn)上,他們的方法表現(xiàn)優(yōu)于此前所有的方法。

論文題目:《用于一致性訓(xùn)練的無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)》(UnsupervisedData Augmentation for Consistency Training)

作者/供稿人:Qizhe Xie (1,2), Zihang Dai (1,2), Eduard Hovy (2),Minh-Thang Luong (1), Quoc V. Le (1) (1 – Google研究院,谷歌大腦團(tuán)隊(duì), 2 – 卡耐基·梅隆大學(xué))

發(fā)布日期 / 最后更新:2019年9月30日

4.利用弱監(jiān)督對(duì)大量數(shù)據(jù)進(jìn)行標(biāo)注

對(duì)于許多機(jī)器學(xué)習(xí)項(xiàng)目來(lái)說(shuō),獲取和注釋大型數(shù)據(jù)集需要花費(fèi)大量的時(shí)間。在這篇論文中,來(lái)自斯坦福大學(xué)的研究人員提出了一個(gè)通過(guò)稱(chēng)為“數(shù)據(jù)編程”的過(guò)程自動(dòng)創(chuàng)建數(shù)據(jù)集的系統(tǒng)。

機(jī)器學(xué)習(xí)的任務(wù):從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

上表是直接從論文中提取的,使用數(shù)據(jù)編程(DP)顯示了與遠(yuǎn)程監(jiān)督的ITR方法相比的精度、召回率和F1得分。

該系統(tǒng)采用弱監(jiān)管策略來(lái)標(biāo)注數(shù)據(jù)子集。產(chǎn)生的標(biāo)簽和數(shù)據(jù)可能會(huì)有一定程度的噪音。然而,該團(tuán)隊(duì)隨后通過(guò)將訓(xùn)練過(guò)程表示為生成模型,從數(shù)據(jù)中去除噪音,并提出了修改損失函數(shù)的方法,以確保它對(duì)“噪音感知”。

研究論文:《數(shù)據(jù)編程:快速創(chuàng)建大型訓(xùn)練集》(DataProgramming: Creating Large Training Sets, Quickly)

作者/供稿人:Alexander Ratner, Christopher De Sa, Sen Wu, DanielSelsam, Christopher Re(作者均來(lái)自斯坦福大學(xué))

發(fā)布/最后更新日期:2017年1月8日

5.如何使用半監(jiān)督式知識(shí)轉(zhuǎn)移來(lái)處理個(gè)人身份信息(PII)

機(jī)器學(xué)習(xí)的任務(wù):從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

來(lái)自谷歌和賓夕法尼亞州立大學(xué)的研究人員介紹了一種處理敏感數(shù)據(jù)的方法,例如病歷和用戶隱私信息。這種方法被稱(chēng)為教師集合私有化(PATE),可以應(yīng)用于任何模型,并且能夠在MNIST和SVHN數(shù)據(jù)集上實(shí)現(xiàn)最先進(jìn)的隱私/效用權(quán)衡。

然而,正如數(shù)據(jù)科學(xué)家Alejandro Aristizabal在文章中所說(shuō),PATE所設(shè)計(jì)的一個(gè)主要問(wèn)題為該框架要求學(xué)生模型與教師模型共享其數(shù)據(jù)。在這個(gè)過(guò)程中,隱私得不到保障。

為此Aristizabal提出了一個(gè)額外的步驟,為學(xué)生模型的數(shù)據(jù)集加密。你可以在他的文章Making PATEBidirectionally Private中讀到這個(gè)過(guò)程,但一定要先閱讀其原始研究論文。

論文題目:《從隱私訓(xùn)練數(shù)據(jù)進(jìn)行深度學(xué)習(xí)的半監(jiān)督式知識(shí)轉(zhuǎn)移》(Semi-SupervisedKnowledge Transfer for Deep Learning From Private Training Data)

作者/供稿人:Nicolas Papernot(賓夕法尼亞州立大學(xué))、Martin Abadi(谷歌大腦)、Ulfar Erlingsson(谷歌)、Ian Goodfellow(谷歌大腦)、Kunal Talwar(谷歌大腦)。

發(fā)布日期 / 最后更新:2017年3月3日

閱讀頂尖學(xué)術(shù)論文是了解學(xué)術(shù)前沿的不二法門(mén),同時(shí)也是從他人實(shí)踐中內(nèi)化重要知識(shí)、學(xué)習(xí)優(yōu)秀研究方法的好辦法,多讀讀論文絕對(duì)會(huì)對(duì)你有幫助。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章中,我們介紹了機(jī)器學(xué)習(xí)的關(guān)鍵概念術(shù)語(yǔ)。在本文中,我們會(huì)介紹傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)和多種算法特征,供各位老師選擇。 01 傳統(tǒng)
    的頭像 發(fā)表于 12-30 09:16 ?400次閱讀
    傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    學(xué)習(xí)任務(wù)、上下文長(zhǎng)度、記憶和隱藏狀態(tài)提高適應(yīng)性。 任務(wù)適應(yīng) 依賴(lài)數(shù)據(jù)采集和微調(diào),可能效率較低。 利用復(fù)雜指令并自動(dòng)多樣的上下
    發(fā)表于 12-24 15:03

    自然語(yǔ)言處理機(jī)器學(xué)習(xí)的關(guān)系 自然語(yǔ)言處理的基本概念及步驟

    Learning,簡(jiǎn)稱(chēng)ML)是人工智能的一個(gè)核心領(lǐng)域,它使計(jì)算機(jī)能夠數(shù)據(jù)中學(xué)習(xí)并做出預(yù)測(cè)或決策。自然語(yǔ)言處理機(jī)器
    的頭像 發(fā)表于 12-05 15:21 ?740次閱讀

    什么是機(jī)器學(xué)習(xí)?通過(guò)機(jī)器學(xué)習(xí)方法能解決哪些問(wèn)題?

    計(jì)算機(jī)系統(tǒng)自身的性能”。事實(shí)上,由于“經(jīng)驗(yàn)”在計(jì)算機(jī)系統(tǒng)中主要以數(shù)據(jù)的形式存在,因此機(jī)器學(xué)習(xí)需要設(shè)法對(duì)數(shù)據(jù)進(jìn)行分析學(xué)習(xí),這就使得它逐漸成為智
    的頭像 發(fā)表于 11-16 01:07 ?521次閱讀
    什么是<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>?通過(guò)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法能解決哪些問(wèn)題?

    NPU與機(jī)器學(xué)習(xí)算法的關(guān)系

    在人工智能領(lǐng)域,機(jī)器學(xué)習(xí)算法是實(shí)現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對(duì)計(jì)算資源的需求也在不斷增長(zhǎng)。NPU作為一種專(zhuān)門(mén)為深度學(xué)習(xí)機(jī)
    的頭像 發(fā)表于 11-15 09:19 ?616次閱讀

    eda在機(jī)器學(xué)習(xí)中的應(yīng)用

    機(jī)器學(xué)習(xí)項(xiàng)目中,數(shù)據(jù)預(yù)處理和理解是成功構(gòu)建模型的關(guān)鍵。探索性數(shù)據(jù)分析(EDA)是這一過(guò)程中不可或缺的一部分。 1.
    的頭像 發(fā)表于 11-13 10:42 ?398次閱讀

    人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)存在什么區(qū)別

    人工智能指的是在某種程度上顯示出類(lèi)似人類(lèi)智能的設(shè)備。AI有很多技術(shù),但其中一個(gè)很大的子集是機(jī)器學(xué)習(xí)——讓算法數(shù)據(jù)中學(xué)習(xí)。
    發(fā)表于 10-24 17:22 ?2545次閱讀
    人工智能、<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>存在什么區(qū)別

    【《時(shí)間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 時(shí)間序列的信息提取

    本人有些機(jī)器學(xué)習(xí)的基礎(chǔ),理解起來(lái)一點(diǎn)也不輕松,加油。 作者首先說(shuō)明了時(shí)間序列的信息提取是時(shí)間序列分析的一個(gè)重要環(huán)節(jié),目標(biāo)是給定的時(shí)間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析
    發(fā)表于 08-14 18:00

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

    機(jī)器學(xué)習(xí)中,數(shù)據(jù)分割是一項(xiàng)至關(guān)重要的任務(wù),它直接影響到模型的訓(xùn)練效果、泛化能力以及最終的性能評(píng)估。本文將從多個(gè)方面詳細(xì)探討機(jī)器
    的頭像 發(fā)表于 07-10 16:10 ?2147次閱讀

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)預(yù)處理與特征工程

    機(jī)器學(xué)習(xí)的整個(gè)流程中,數(shù)據(jù)預(yù)處理與特征工程是兩個(gè)至關(guān)重要的步驟。它們直接決定了模型的輸入質(zhì)量,進(jìn)而影響模型的訓(xùn)練效果和泛化能力。本文將從數(shù)據(jù)
    的頭像 發(fā)表于 07-09 15:57 ?608次閱讀

    深度學(xué)習(xí)在視覺(jué)檢測(cè)中的應(yīng)用

    深度學(xué)習(xí)機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要分支,其核心在于通過(guò)構(gòu)建具有多層次的神經(jīng)網(wǎng)絡(luò)模型,使計(jì)算機(jī)能夠大量數(shù)據(jù)中自動(dòng)
    的頭像 發(fā)表于 07-08 10:27 ?881次閱讀

    遷移學(xué)習(xí)的基本概念和實(shí)現(xiàn)方法

    遷移學(xué)習(xí)(Transfer Learning)是機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念,其核心思想是利用在一個(gè)任務(wù)或領(lǐng)域中學(xué)到的知識(shí)來(lái)加速或改進(jìn)另一個(gè)
    的頭像 發(fā)表于 07-04 17:30 ?1960次閱讀

    人工神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)機(jī)器學(xué)習(xí)模型的區(qū)別

    在人工智能領(lǐng)域,機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)是兩個(gè)核心概念,它們各自擁有獨(dú)特的特性和應(yīng)用場(chǎng)景。雖然它們都旨在使計(jì)算機(jī)系統(tǒng)能夠自動(dòng)數(shù)據(jù)中學(xué)習(xí)和提升,但
    的頭像 發(fā)表于 07-04 14:08 ?1572次閱讀

    機(jī)器學(xué)習(xí)算法原理詳解

    機(jī)器學(xué)習(xí)作為人工智能的一個(gè)重要分支,其目標(biāo)是通過(guò)讓計(jì)算機(jī)自動(dòng)數(shù)據(jù)中學(xué)習(xí)并改進(jìn)其性能,而無(wú)需進(jìn)行明確的編程。本文將深入解讀幾種常見(jiàn)的
    的頭像 發(fā)表于 07-02 11:25 ?1391次閱讀

    機(jī)器學(xué)習(xí)數(shù)據(jù)分析中的應(yīng)用

    隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)量的爆炸性增長(zhǎng)對(duì)數(shù)據(jù)分析提出了更高的要求。機(jī)器學(xué)習(xí)作為一種強(qiáng)大的工具,通過(guò)訓(xùn)練模型
    的頭像 發(fā)表于 07-02 11:22 ?839次閱讀