欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何用約43000張圖片的數(shù)據(jù)集,來(lái)計(jì)算得出表情包的火爆程度排名

如意 ? 來(lái)源:讀芯術(shù)微信公眾號(hào) ? 作者:讀芯術(shù)微信公眾號(hào) ? 2020-10-11 10:06 ? 次閱讀

電視節(jié)目的火爆程度可以根據(jù)尼爾森收視率排名(Neilsen ratings)來(lái)衡量,但是表情包呢?目前仍然沒(méi)有什么獨(dú)立指標(biāo)能用以評(píng)估表情包(memes)的瀏覽人數(shù),所以筆者自己摸索出了一些方法!

本文將說(shuō)明如何用約43000張圖片的數(shù)據(jù)集和五項(xiàng)數(shù)據(jù)科學(xué)原則,來(lái)計(jì)算得出表情包的火爆程度排名。

1. 明確定義估算對(duì)象

對(duì)文字信息的理解因人而異。筆者不知見識(shí)過(guò)多少次這樣的場(chǎng)景:二人在對(duì)話中就項(xiàng)目的目標(biāo)達(dá)成了一致,之后卻發(fā)現(xiàn)彼此對(duì)關(guān)鍵詞的理解大相徑庭。因此,如果在項(xiàng)目開始時(shí)徹底厘清每個(gè)詞的定義,就能省下不少時(shí)間。

例如,假設(shè)你要估算“2019年的英國(guó)人口數(shù)量”。這是指2019年初、年末還是年中的人口數(shù)量?還是三者的平均值?這里的“人口”是指常住居民,還是包括游客和臨時(shí)居民在內(nèi)的所有人?

回到表情包的話題上。首先聲明,筆者要討論的并非表情包的學(xué)術(shù)定義,而是網(wǎng)絡(luò)表情包(結(jié)合了網(wǎng)上流行的圖像和文字)。更具體地說(shuō),筆者感興趣的是找出最流行的表情包模板(表情包的背景圖像)。因此筆者所謂的“最火表情包”其實(shí)指的是:瀏覽人次最多的表情包模板(通過(guò)累加所有使用該模板的網(wǎng)絡(luò)表情包的瀏覽量來(lái)計(jì)算得出)。

明確了這一點(diǎn)之后,就要開始收集數(shù)據(jù)。

2.以最小化偏差的方式采樣數(shù)據(jù)

尼爾森排名系統(tǒng)不可能監(jiān)測(cè)每臺(tái)電視機(jī),同樣,筆者也無(wú)法全部下載網(wǎng)絡(luò)上的每個(gè)表情包。因此,這兩種情況都必須要經(jīng)過(guò)采樣。

如果一個(gè)數(shù)據(jù)樣本真正代表了更廣泛的群體,那么我們稱其為無(wú)偏見數(shù)據(jù)。但在很多情況下,這是不可能的。通常,我們必須以盡可能合理的方式最小化偏差,然后在分析數(shù)據(jù)時(shí)盡最大努力修正偏差。

本項(xiàng)目中的表情包采集自Reddit,它是世界上最大的圖片分享網(wǎng)站之一。使用一個(gè)爬蟲工具在一天中多次查看該網(wǎng)站與表情包有關(guān)的幾個(gè)部分,并且抓取前100張最受歡迎的圖片。

其中的許多表情包都托管在Imgur上,該網(wǎng)站公開了表情包瀏覽數(shù)據(jù)。因此交叉引用這些數(shù)據(jù)可以讓我們推斷出Reddit上圖片的瀏覽量。通過(guò)Reddit和Imgur的應(yīng)用程序接口(API),只需寥寥幾行python代碼就可完成該采樣。

接下來(lái)的問(wèn)題是:這一采樣方法真的能夠最小化偏差嗎?Reddit只是網(wǎng)站中的一個(gè)個(gè)例,所以并不能真正代表整個(gè)互聯(lián)網(wǎng)。我們可以對(duì)其他網(wǎng)站(如instagram或Facebook)上的表情包進(jìn)行采樣,以減少偏差。

然而,這些網(wǎng)站公開的數(shù)據(jù)有限,無(wú)法進(jìn)行比對(duì)。比對(duì)這些網(wǎng)站數(shù)據(jù)的唯一的方法是做出大膽的假設(shè),但此舉可能會(huì)為最終估計(jì)值引入更多的偏差。

沒(méi)有十全十美的答案。有時(shí),我們只能接受這一點(diǎn)。筆者認(rèn)為應(yīng)當(dāng)從一個(gè)最優(yōu)的數(shù)據(jù)來(lái)源進(jìn)行采樣,而不是將多個(gè)數(shù)據(jù)來(lái)源合并起來(lái)得到一個(gè)不可靠的數(shù)據(jù)集。筆者之所以稱Reddit是最好的來(lái)源,是因?yàn)樗亲畲蟮膱D像共享網(wǎng)站,從中(通過(guò)交叉引用Imgur的數(shù)據(jù))可以推斷出精度合適的瀏覽量。

3. 復(fù)雜模型只適用于復(fù)雜問(wèn)題

我們需要確定數(shù)據(jù)集中每個(gè)表情包所使用的圖像模板。這是一個(gè)圖像分類問(wèn)題,并且屬于一個(gè)簡(jiǎn)單的圖像分類問(wèn)題。如果簡(jiǎn)單的方法就足以見效,那么就沒(méi)必要選擇復(fù)雜的解決方案。

近來(lái)最先進(jìn)的圖像分類器,比如那些在Image-Net比賽中名列前茅的分類器,都是能夠不受角度、光線或背景的影響而正確識(shí)別物體的深度神經(jīng)網(wǎng)絡(luò)。觀察一個(gè)表情包并識(shí)別其圖像模板則容易得多,因此需要的東西遠(yuǎn)非100層神經(jīng)網(wǎng)絡(luò)那么復(fù)雜。

表情包圖像模板的數(shù)量有限,并且都具有獨(dú)特的顏色模式。我們僅需要計(jì)算像素并將結(jié)果傳遞給線性支持向量機(jī),就能精確地分類表情包。訓(xùn)練支持向量機(jī)僅需幾秒,而神經(jīng)網(wǎng)絡(luò)則需要數(shù)天。

4. 審核(有條件時(shí)引入人工)

很多時(shí)候,躊躇滿志的年輕數(shù)據(jù)科學(xué)家跑來(lái)找到筆者,自豪地公布一個(gè)偉大的發(fā)現(xiàn),卻在被問(wèn)及如何審核結(jié)果時(shí)面露怯色。通過(guò)基本的審核發(fā)現(xiàn)重大紕漏后,所謂的偉大發(fā)現(xiàn)往往將黯然退場(chǎng)。

在審核圖形分類模型的結(jié)果時(shí),人眼是無(wú)可替代的(至少目前如此)。你或許認(rèn)為,驗(yàn)證圖形分類器在這個(gè)數(shù)據(jù)集(約有43000張圖像)上的結(jié)果需要很長(zhǎng)時(shí)間,但有許多工具能加速這一過(guò)程。

借助標(biāo)注工具,筆者平均使用20秒就能夠?qū)徍?00張圖像(在10x10的格子中瀏覽),因此,全部審核完43000張圖像只花費(fèi)了不到3小時(shí)。這樣的事情日常做大概吃不消,但一年一次還可以忍受。

5. 仔細(xì)考慮每個(gè)假設(shè)

統(tǒng)計(jì)模型有賴于數(shù)據(jù)和假設(shè)。通常情況下,原始數(shù)據(jù)無(wú)法優(yōu)化,但假設(shè)可以改進(jìn)。工作的最后一步是獲取數(shù)據(jù)集,并提取出每個(gè)表情包模板的瀏覽數(shù)據(jù)。由于數(shù)據(jù)具有局限性,這一分析需要一些額外的假設(shè)。

第一個(gè)假設(shè)涉及到缺失值。如果數(shù)據(jù)集中的某個(gè)條目出現(xiàn)了缺失值,那么最好是移除該條目(因而將減小樣本)呢,還是推測(cè)該缺失值是什么(因而或?qū)⒁胝`差)呢?

這取決于數(shù)據(jù)集中缺失值的比例。如果比例較低,通常最好直接丟棄缺失值。而如果比例較高(該表情包數(shù)據(jù)集就是如此),那么丟棄所有缺失值可能會(huì)大大降低樣本的代表性。因此,筆者認(rèn)為盡可能準(zhǔn)確地填充這些缺失值是更好的做法。

第二個(gè)假設(shè)涉及修正我們的數(shù)據(jù)集對(duì)Reddit用戶的傾向性。筆者用下面的“傳播”假設(shè)來(lái)解決這一問(wèn)題。筆者從Reddit的幾十個(gè)不同板塊進(jìn)行了采樣,以此來(lái)測(cè)量每個(gè)表情包模板在多少個(gè)板塊中出現(xiàn)過(guò)。筆者假設(shè),一個(gè)表情包在Reddit內(nèi)部傳播得越廣,說(shuō)明它在Reddit之外的傳播范圍也越廣。為了反映這一點(diǎn),筆者擴(kuò)增了這些表情包的瀏覽次數(shù)。

對(duì)于假設(shè)來(lái)說(shuō),標(biāo)準(zhǔn)答案是不存在的。我們唯一的選擇就是做出能讓人信服的抉擇。

計(jì)算結(jié)果:最受歡迎的表情包模板(2018年)

算法在2018年全年都在運(yùn)行,共下載了40萬(wàn)張圖片,并識(shí)別出其中的43660張使用了250個(gè)最常見的表情包模板之一。

如你所見,歌星Drake的表情圖以極大優(yōu)勢(shì)奪得了2018年的流行之冠,共有1億5700萬(wàn)次瀏覽量(該分析結(jié)果很有可能小于實(shí)際數(shù)據(jù))。

如何用約43000張圖片的數(shù)據(jù)集,來(lái)計(jì)算得出表情包的火爆程度排名

此外,頂層模板的總瀏覽量分布近似于帕累托分布(Pareto distribution)。

世界上有許多難以精確測(cè)算的事物,表情包的流行程度就是其中之一。有時(shí)我們只能盡量追求最優(yōu)解。筆者討論了在這一工作中使用的5項(xiàng)原則,一言以蔽之,即:在著手開始之前,仔細(xì)考慮項(xiàng)目的每個(gè)步驟。
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    使用Python+OpenCV處理圖片

    如果給你一圖片作為背景,另外一圖片中的物體作為前景圖,要把前景圖中的物體疊加布置到背景圖的中間位置,并且前景圖中的物體需要在背景圖中有旋轉(zhuǎn)和投影,怎么處理?
    的頭像 發(fā)表于 12-23 15:54 ?302次閱讀

    高精密的電路噪聲如何計(jì)算?

    我需要將量程±3V的差分電壓信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),要求分辨率小于3uV,由此計(jì)算得出需要21位的ADC,我想問(wèn)一下大家做這么高精密的電路噪聲如何計(jì)算,以及需要注意些什么。同時(shí)希望大家能給推薦一些這方面的參考資料,謝謝大家。
    發(fā)表于 12-18 07:38

    使用LIS2DW12TR加速度傳感器可以計(jì)算物體重力方向運(yùn)動(dòng)的距離嗎

    我先計(jì)算靜止?fàn)顟B(tài)下的物體加速度,判斷加速度大于靜止的1.01倍時(shí),開始計(jì)時(shí)間。通過(guò)實(shí)時(shí)加速度和初始加速度的差值更新速度,通過(guò)積分,計(jì)算每一段時(shí)間的位移。當(dāng)速度方向翻轉(zhuǎn)時(shí),計(jì)算得出豎直方向最大位移。但是測(cè)出來(lái)的位移和實(shí)際相差過(guò)大。
    發(fā)表于 12-12 16:21

    ADS1258采集直流信號(hào)的時(shí)候 ,輸入的直流信號(hào)是多少采集計(jì)算得到的就是多少?

    ADS1258采集直流信號(hào)的時(shí)候 ,輸入的直流信號(hào)是多少采集計(jì)算得到的就是多少 但是采集交流信號(hào)的時(shí)候,如±500mv的正弦信號(hào)采集得到的信號(hào)是±100mv正弦信號(hào),這是什么情況?
    發(fā)表于 12-03 07:45

    ADS1298RECGFE-PDK增強(qiáng)導(dǎo)聯(lián)的模擬輸出和計(jì)算后的數(shù)值為什么有很大差異?

    如圖的模擬域增強(qiáng)導(dǎo)聯(lián)輸出方式,下面是我用計(jì)算得出的aVL和通道5測(cè)量出的aVL,數(shù)值差異很大
    發(fā)表于 11-19 06:32

    aic23b的ADC輸入信號(hào)范圍是多少,如何計(jì)算得出電壓?

    aic23b的ADC輸入信號(hào)范圍是多少,如何計(jì)算得出電壓
    發(fā)表于 10-29 07:59

    TAS5720MEVM Z1/Z2/C11/C12是如何計(jì)算得出的?

    TAS5720MEVM,Z1/Z2/C11/C12是如何計(jì)算得出的?不同的揚(yáng)聲器,改如何匹配LC參數(shù)?
    發(fā)表于 10-14 07:50

    運(yùn)放的靜態(tài)電流就是輸入偏置電流嗎?運(yùn)放的輸入偏電流又是怎么計(jì)算得到的呢?

    我想問(wèn)一下運(yùn)放的靜態(tài)電流就是輸入偏置電流嗎?運(yùn)放的輸入偏電流又是怎么計(jì)算得到的呢?
    發(fā)表于 09-06 06:51

    LPV521 Vout是怎么計(jì)算得出的呢?

    麻煩分析一下如下電路圖的工作原理:Vout是怎么計(jì)算得出的呢? 圖中測(cè)量電流的范圍能達(dá)多少呢?怎么計(jì)算出來(lái)的呢? 圖中三極管工作在什么狀態(tài)?怎么進(jìn)行選型呢? 謝謝!
    發(fā)表于 09-05 07:37

    LMH6552在設(shè)置放大倍數(shù)為2時(shí),計(jì)算得RF/RG=2,輸出的波形有偏差,為什么?

    為什么在設(shè)置放大倍數(shù)為2時(shí),計(jì)算得RF/RG=2,輸出的波形有偏差,按照數(shù)據(jù)手冊(cè)上給的阻值設(shè)置卻沒(méi)有偏差,數(shù)據(jù)手冊(cè)上RF/RG約等于2,RG與計(jì)算值偏差幾歐姆,這是為什么
    發(fā)表于 08-29 07:48

    永煒:智能物聯(lián)2.0時(shí)代,如何用數(shù)字化手段助力“雙碳”目標(biāo)的實(shí)現(xiàn)?

    2.0時(shí)代,如何用數(shù)字化手段助力“雙碳”目標(biāo)的實(shí)現(xiàn)?》的主題探討。以下根據(jù)直播訪談內(nèi)容整理。數(shù)字化技術(shù)助力綠色低碳智次方:您如何看待云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能和
    的頭像 發(fā)表于 05-28 08:04 ?163次閱讀
    <b class='flag-5'>張</b>永煒:智能物聯(lián)2.0時(shí)代,如<b class='flag-5'>何用</b>數(shù)字化手段助力“雙碳”目標(biāo)的實(shí)現(xiàn)?

    請(qǐng)問(wèn)NanoEdge AI數(shù)據(jù)該如何構(gòu)建?

    我想用NanoEdge來(lái)識(shí)別異常的聲音,但我目前沒(méi)有辦法生成模型,我感覺(jué)可能是數(shù)據(jù)的問(wèn)題,請(qǐng)問(wèn)我該怎么構(gòu)建數(shù)據(jù)?或者生成模型失敗還會(huì)有哪
    發(fā)表于 05-28 07:27

    STM32 IDE如何訪問(wèn)、計(jì)算得到122.69K并暫存到變量中呢?

    路過(guò)的大神們,幫忙看一下,感謝感謝?。?! 如圖,在KEIL5環(huán)境中,可以通過(guò)以上訪問(wèn)到工程flash使用的大?。╞in文件的大小) 再如圖,在STM32IDE環(huán)境中工程編譯完成,F(xiàn)LASH Used使用122.69K,那么程序中如何訪問(wèn)、計(jì)算得到122.69K并暫存到變量中呢?
    發(fā)表于 05-24 07:02

    多模高頻PWM控制器TPS43000數(shù)據(jù)

    電子發(fā)燒友網(wǎng)站提供《多模高頻PWM控制器TPS43000數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 04-22 10:20 ?0次下載
    多模高頻PWM控制器TPS<b class='flag-5'>43000</b><b class='flag-5'>數(shù)據(jù)</b>表

    STM32 FFT計(jì)算得到的相位譜與matlab計(jì)算的不一致是什么原因造成的?

    STM32 FFT計(jì)算得到的相位譜與matlab計(jì)算的不一致?
    發(fā)表于 04-18 07:52