欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于弱監(jiān)督學(xué)習(xí)創(chuàng)建大規(guī)模數(shù)據(jù)集

nlfO_thejiangme ? 來源:lp ? 2019-03-19 10:18 ? 次閱讀

對于現(xiàn)代機(jī)器學(xué)習(xí)系統(tǒng)來說,最大的瓶頸在于訓(xùn)練過程中對數(shù)據(jù)龐大的需求。創(chuàng)建大規(guī)模的數(shù)據(jù)集是十分昂貴的過程,需要消耗大量的人力物力來標(biāo)注數(shù)據(jù),并且隨著應(yīng)用的迭代已有的數(shù)據(jù)集可能不能滿足實(shí)際的需要還需要重新標(biāo)注甚至創(chuàng)建新的數(shù)據(jù)集。為了克服工業(yè)級大規(guī)模數(shù)據(jù)的瓶頸,世界各地的研究人員在這個方向上進(jìn)行了深入的努力。近日,來自谷歌斯坦福和布朗大學(xué)的研究人員們提出了一種稱為”Snorkel Drybell”的新方法,基于弱監(jiān)督學(xué)習(xí)的方法可以再很大程度上緩解大規(guī)模工業(yè)數(shù)據(jù)集生成的問題,利用已有的知識迅速的標(biāo)注出大規(guī)模的數(shù)據(jù)。

研究人員基于開源框架Snorkel開發(fā)了這套實(shí)驗(yàn)標(biāo)注系統(tǒng),并在實(shí)驗(yàn)中發(fā)現(xiàn)這套系統(tǒng)可以獲得與手工標(biāo)記成千上萬個數(shù)據(jù)點(diǎn)相同的效果,并揭示了如何為現(xiàn)代機(jī)器學(xué)習(xí)系統(tǒng)創(chuàng)造訓(xùn)練數(shù)據(jù)和核心原理。值得一提的是,Snorkel是一套專門基于弱監(jiān)督創(chuàng)建訓(xùn)練數(shù)據(jù)的框架,它能基于內(nèi)部模型、本體、規(guī)則知識圖譜等各種形式的知識為機(jī)器學(xué)習(xí)模型創(chuàng)建大規(guī)模的數(shù)據(jù)。

與傳統(tǒng)手工標(biāo)注不同,新系統(tǒng)創(chuàng)造出為數(shù)據(jù)打標(biāo)的標(biāo)注函數(shù),程序化地完成數(shù)據(jù)標(biāo)記工作。研究人員主要探索了這些標(biāo)注函數(shù)是如何捕獲工程師的經(jīng)驗(yàn),如何基于現(xiàn)有資源啟發(fā)式的進(jìn)行弱監(jiān)督學(xué)習(xí)的。

舉個例子,如果我們想識別出與名人相關(guān)的內(nèi)容,一方面可以使用現(xiàn)有的命名實(shí)體識別(NER)模型來標(biāo)注出不包含與名人無關(guān)的人的內(nèi)容來實(shí)現(xiàn)這一任務(wù)。這就巧妙地將已有的知識資源與簡單的邏輯結(jié)合起來,為新的模型創(chuàng)造了訓(xùn)練數(shù)據(jù)。更重要的是這一標(biāo)注函數(shù)將在大多數(shù)情況下返回None(與名人相關(guān)的相對較少),這就意味著在整個數(shù)據(jù)集中只有少量數(shù)據(jù)需要打標(biāo),我們可以利用這些數(shù)據(jù)標(biāo)簽來訓(xùn)練對于另一任務(wù)具有泛化性的新模型。

實(shí)驗(yàn)中的標(biāo)注函數(shù),將現(xiàn)有知識與簡單的邏輯代碼相結(jié)合啟發(fā)式的進(jìn)行數(shù)據(jù)標(biāo)注。

自動化的程序標(biāo)注顯然比人工方法要高效和靈活,但質(zhì)量卻無法與手工標(biāo)注媲美。標(biāo)注函數(shù)常常會出現(xiàn)標(biāo)簽重疊和不一致的情況。這主要是用于標(biāo)注函數(shù)的精度未知、與已有數(shù)據(jù)的關(guān)聯(lián)方式也存在不確定性。為了解決這一問題,研究人員利用生成模型來對標(biāo)記函數(shù)的精度和相關(guān)性進(jìn)行可溯源的自動估計(jì),在無需基準(zhǔn)訓(xùn)練數(shù)據(jù)的情況下將輸出重新賦權(quán)并為每一個數(shù)據(jù)點(diǎn)合成單一概率標(biāo)簽。此外還可以基于協(xié)方差觀察標(biāo)記函數(shù)之間的一致性,并學(xué)習(xí)出標(biāo)記函數(shù)精度和相關(guān)性的參數(shù),更好的解釋標(biāo)注的輸出情況。

基于多源知識的弱監(jiān)督學(xué)習(xí)

在研究Snorkel Drybell的過程中,研究人員使用了網(wǎng)絡(luò)內(nèi)容分類、是否提及特定產(chǎn)品以及實(shí)時事件的檢測等生產(chǎn)任務(wù)及數(shù)據(jù)來進(jìn)行實(shí)驗(yàn)?;谛碌目蚣埽梢猿浞志C合各種信息源和已有資源:

啟發(fā)和規(guī)則:例如特定領(lǐng)域作者的規(guī)則

主題模型、標(biāo)記器和分類器:例如目標(biāo)或相關(guān)領(lǐng)域的機(jī)器學(xué)習(xí)模型

統(tǒng)計(jì)匯總:例如目標(biāo)領(lǐng)域的相關(guān)指標(biāo)

知識或?qū)嶓w圖譜:例如目標(biāo)領(lǐng)域的數(shù)據(jù)庫

在Snorkel DryBell中,為了訓(xùn)練模型對對Web數(shù)據(jù)進(jìn)行內(nèi)容或事件分類。 用戶無需手工標(biāo)注,而是編程組織已有資源并自動加權(quán)生成新數(shù)據(jù)集。

研究人員利用MapReduce中的模板來實(shí)現(xiàn)資源的組織和數(shù)據(jù)標(biāo)簽生成,但結(jié)果卻不盡如人意。得到的數(shù)據(jù)標(biāo)簽噪聲很大,要么與其他標(biāo)簽沖突,要么對于目標(biāo)任務(wù)粒度太大。為了解決這一問題研究人員在自動數(shù)據(jù)清洗和整合上又進(jìn)行了深入的研究。

對準(zhǔn)確度建模以結(jié)合&重用現(xiàn)有資源

為了處理標(biāo)簽中的噪聲,需要將標(biāo)記函數(shù)的輸出基于置信度加權(quán)整合為單一的數(shù)據(jù)點(diǎn)標(biāo)簽。但最大的難點(diǎn)在于沒有基準(zhǔn)數(shù)據(jù)。所以研究人員引入了生成模型技術(shù),基于無標(biāo)記數(shù)據(jù)學(xué)習(xí)出每一個標(biāo)記函數(shù)的精度。通過標(biāo)記函數(shù)輸出的一致性矩陣并綜合已知的相關(guān)性結(jié)構(gòu)來進(jìn)行學(xué)習(xí)。在Snorkel DryBell研究人員還實(shí)現(xiàn)了一套快速無采樣的建模方法,在tensorflow中處理web級別的數(shù)據(jù)。通過對標(biāo)記函數(shù)的輸出進(jìn)行組合與建模,在Snorkel DryBell中實(shí)現(xiàn)了高質(zhì)量的數(shù)據(jù)標(biāo)記。事實(shí)上,在手工標(biāo)記的訓(xùn)練數(shù)據(jù)可用于比較的兩個應(yīng)用中,Snorkel DryBell打標(biāo)的數(shù)據(jù)分別與12,000和80,000個人工標(biāo)記數(shù)據(jù)點(diǎn)在同一模型的訓(xùn)練中得到了相同的預(yù)測精度。

將非服務(wù)知識轉(zhuǎn)移到可服務(wù)模型中

在很多情況下可用于生產(chǎn)的服務(wù)特征與非服務(wù)特征之間也存在重要區(qū)別,非服務(wù)特征在生產(chǎn)中使用面臨著速度和成本的問題。但非服務(wù)特征中可能具有非常豐富的信號,但問題在于如何使用這些信號來進(jìn)行訓(xùn)練或輔助服務(wù)模型在生成中進(jìn)行部署呢?

用戶可以自行編寫標(biāo)簽函數(shù),利用在生產(chǎn)中無法使用的特征歷來組織知識資源(a)例如在生產(chǎn)中使用太慢或太昂貴的聚合統(tǒng)計(jì),內(nèi)部模型或知識圖 來訓(xùn)練可服務(wù)的生產(chǎn)模型,利用如便宜,實(shí)時的網(wǎng)絡(luò)信號來進(jìn)行服務(wù)

在Snorkel DryBell中,用戶可以自行編寫標(biāo)簽函數(shù)來組織已有的知識資源,并利用輸出的數(shù)據(jù)來訓(xùn)練具有不同的可服務(wù)特征的新模型。這種特征交叉遷移將基準(zhǔn)數(shù)據(jù)上的表現(xiàn)平均提高了52%。更重要的是,這種方法將緩慢(昂貴的模型或者聚合統(tǒng)計(jì))、私密(實(shí)體或知識圖譜)或者其他不適合部署的特征充分利用起來,并訓(xùn)練了基于迅速和便捷特征的新模型。這種簡單但強(qiáng)大的方式可以被視為一種全新的遷移學(xué)習(xí)方法,在不同特征集上的知識遷移代替了在不同數(shù)據(jù)集間的模型遷移,具有廣泛的應(yīng)用潛力!

展 望

研究人員將在未來的工作中將其他形式的知識應(yīng)用于弱監(jiān)督標(biāo)簽生成中,并探索Snorkel DryBell在信息復(fù)用和跨域知識共享中的應(yīng)用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 分類器
    +關(guān)注

    關(guān)注

    0

    文章

    152

    瀏覽量

    13240
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8447

    瀏覽量

    133130
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1209

    瀏覽量

    24850

原文標(biāo)題:谷歌等研究員提出弱監(jiān)督學(xué)習(xí)新方法,突破數(shù)據(jù)瓶頸

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    大規(guī)模數(shù)據(jù)的相似度計(jì)算原理

    Spark MLlib 之 大規(guī)模數(shù)據(jù)的相似度計(jì)算原理探索
    發(fā)表于 06-04 08:19

    一個benchmark實(shí)現(xiàn)大規(guī)模數(shù)據(jù)上的OOD檢測

    操作,感知的環(huán)境類別也更多。因此,針對大規(guī)模圖像分類任務(wù)的OOD檢測算法的開發(fā)和評估存在一個關(guān)鍵的gap。本文首先志在提出一個benchmark實(shí)現(xiàn)大規(guī)模數(shù)據(jù)上的OOD檢測。本文指出,隨著語義類別
    發(fā)表于 08-31 15:11

    TextTopicNet模型:以自監(jiān)督學(xué)習(xí)方式學(xué)習(xí)區(qū)別視覺特征

    大規(guī)模帶標(biāo)注的數(shù)據(jù)的出現(xiàn)是深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域取得巨大成功的關(guān)鍵因素之一。然而,監(jiān)督學(xué)習(xí)
    的頭像 發(fā)表于 07-31 17:50 ?1w次閱讀
    TextTopicNet模型:以自<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>方式<b class='flag-5'>學(xué)習(xí)</b>區(qū)別視覺特征

    如何用Python進(jìn)行無監(jiān)督學(xué)習(xí)

    監(jiān)督學(xué)習(xí)是一種用于在數(shù)據(jù)中查找模式的機(jī)器學(xué)習(xí)技術(shù)。無監(jiān)督算法給出的數(shù)據(jù)不帶標(biāo)記,只給出輸入變量(X),沒有相應(yīng)的輸出變量。在無
    的頭像 發(fā)表于 01-21 17:23 ?4335次閱讀

    機(jī)器學(xué)習(xí)算法中有監(jiān)督和無監(jiān)督學(xué)習(xí)的區(qū)別

    監(jiān)督學(xué)習(xí)的好處之一是,它不需要監(jiān)督學(xué)習(xí)必須經(jīng)歷的費(fèi)力的數(shù)據(jù)標(biāo)記過程。但是,要權(quán)衡的是,評估其性能的有效性也非常困難。相反,通過將監(jiān)督學(xué)習(xí)算法的輸出與測試
    的頭像 發(fā)表于 07-07 10:18 ?5849次閱讀

    最基礎(chǔ)的半監(jiān)督學(xué)習(xí)

    導(dǎo)讀 最基礎(chǔ)的半監(jiān)督學(xué)習(xí)的概念,給大家一個感性的認(rèn)識。 半監(jiān)督學(xué)習(xí)(SSL)是一種機(jī)器學(xué)習(xí)技術(shù),其中任務(wù)是從一個小的帶標(biāo)簽的數(shù)據(jù)和相對較大
    的頭像 發(fā)表于 11-02 16:08 ?2715次閱讀

    監(jiān)督學(xué)習(xí)最基礎(chǔ)的3個概念

    有趣的方法,用來解決機(jī)器學(xué)習(xí)中缺少標(biāo)簽數(shù)據(jù)的問題。SSL利用未標(biāo)記的數(shù)據(jù)和標(biāo)記的數(shù)據(jù)學(xué)習(xí)任務(wù)
    的頭像 發(fā)表于 11-02 16:14 ?3040次閱讀
    半<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>最基礎(chǔ)的3個概念

    為什么半監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)的未來?

    為什么半監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)的未來。 監(jiān)督學(xué)習(xí)是人工智能領(lǐng)域的第一種學(xué)習(xí)類型。從它的概念開始,無數(shù)的算法,從簡單的邏輯回歸到大規(guī)模的神經(jīng)網(wǎng)絡(luò),
    的頭像 發(fā)表于 11-27 10:42 ?3974次閱讀

    監(jiān)督學(xué)習(xí):比監(jiān)督學(xué)習(xí)做的更好

    監(jiān)督學(xué)習(xí)是人工智能領(lǐng)域的第一種學(xué)習(xí)類型。從它的概念開始,無數(shù)的算法,從簡單的邏輯回歸到大規(guī)模的神經(jīng)網(wǎng)絡(luò),都已經(jīng)被研究用來提高精...
    的頭像 發(fā)表于 12-08 23:32 ?1483次閱讀

    深度學(xué)習(xí):基于語境的文本分類監(jiān)督學(xué)習(xí)

    高成本的人工標(biāo)簽使得監(jiān)督學(xué)習(xí)備受關(guān)注。seed-driven 是監(jiān)督學(xué)習(xí)中的一種常見模型。該模型要求用戶提供少量的seed words,根據(jù)seed words對未標(biāo)記的訓(xùn)練
    的頭像 發(fā)表于 01-18 16:04 ?3049次閱讀

    監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),遷移學(xué)習(xí),表征學(xué)習(xí)以及小樣本學(xué)習(xí)

    大規(guī)模標(biāo)注的數(shù)據(jù)上訓(xùn)練深度模型不僅可以使手頭的任務(wù)表現(xiàn)良好,還可以使模型學(xué)習(xí)對于下游任務(wù)的有用特征形式。但是,我們是否可以在不使用如此昂貴且細(xì)粒度的標(biāo)注
    的頭像 發(fā)表于 01-18 17:08 ?8401次閱讀
    半<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>,無<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>,遷移<b class='flag-5'>學(xué)習(xí)</b>,表征<b class='flag-5'>學(xué)習(xí)</b>以及小樣本<b class='flag-5'>學(xué)習(xí)</b>

    機(jī)器學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)應(yīng)用在哪些領(lǐng)域

    監(jiān)督學(xué)習(xí)|機(jī)器學(xué)習(xí)| 集成學(xué)習(xí)|進(jìn)化計(jì)算| 非監(jiān)督學(xué)習(xí)| 半監(jiān)督學(xué)習(xí)| 自監(jiān)督學(xué)習(xí)|?無
    發(fā)表于 01-20 10:52 ?5006次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>中的無<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>應(yīng)用在哪些領(lǐng)域

    融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)監(jiān)督學(xué)習(xí)方法綜述

    融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)監(jiān)督學(xué)習(xí)方法綜述 來源:《系統(tǒng)工程與電子技術(shù)》,作者潘崇煜等 摘 要:?深度學(xué)習(xí)模型嚴(yán)重依賴于大量人工標(biāo)注的
    發(fā)表于 02-09 11:22 ?2385次閱讀
    融合零樣本<b class='flag-5'>學(xué)習(xí)</b>和小樣本<b class='flag-5'>學(xué)習(xí)</b>的<b class='flag-5'>弱</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>方法綜述

    監(jiān)督學(xué)習(xí)解鎖醫(yī)學(xué)影像洞察力

    數(shù)據(jù),以及機(jī)器可以從中學(xué)習(xí)的復(fù)雜數(shù)據(jù)標(biāo)簽。 今天,被稱為監(jiān)督學(xué)習(xí)的深度
    的頭像 發(fā)表于 09-30 18:04 ?1521次閱讀
    <b class='flag-5'>弱</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>解鎖醫(yī)學(xué)影像洞察力

    監(jiān)督學(xué)習(xí)代碼庫存在的問題與挑戰(zhàn)

    ,在ImageNet這一百萬量級的數(shù)據(jù)上,傳統(tǒng)的監(jiān)督學(xué)習(xí)方法可以達(dá)到超過88%的準(zhǔn)確率。然而,獲取大量有標(biāo)簽的數(shù)據(jù)往往費(fèi)時費(fèi)力。
    的頭像 發(fā)表于 10-18 16:28 ?1363次閱讀