欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于計算機視覺領(lǐng)域中所提出的圖像字幕,能夠輸出趣味字幕的系統(tǒng)

nlfO_thejiangme ? 來源:未知 ? 作者:李倩 ? 2018-07-29 10:42 ? 次閱讀

可以毫不夸張地說,笑是一種特殊的高階功能,且只有人類才擁有。那么,是什么引起人類的笑聲表達呢?最近,日本東京電機大學(Tokyo Denki University)和日本國家先進工業(yè)科學和技術(shù)研究所(AIST)的科學家們提出了一種新方法,通過使用它就能夠生成引人發(fā)笑的字幕。

想問大家一個問題:什么是能夠引起人類笑聲的有效表達?在本文中,為了從學術(shù)角度思考這個問題,我們用計算機生成了一個能夠引人“大笑”的圖像字幕(image caption)。我們構(gòu)建了一個基于計算機視覺領(lǐng)域中所提出的圖像字幕,能夠輸出趣味字幕的系統(tǒng)。此外,我們還提出了“趣味分數(shù)”(Funny Score),它能夠根據(jù)一個評估數(shù)據(jù)庫靈活地給出權(quán)重。滑稽分數(shù)能夠更有效地帶出“笑聲”從而對模型進行優(yōu)化。另外,我們構(gòu)建了一個自收集的BoketeDB,其中包含一個主題(圖像)和張貼在“Bokete”上的趣味字幕(文本),這是一個Image Ogiri網(wǎng)站。在實驗中,我們通過比較使用所提出的方法獲得的結(jié)果和使用MS COCO預(yù)先訓(xùn)練的CNN + LSTM(這是由人類創(chuàng)建的基線)獲得的結(jié)果,從而驗證所提出的方法的有效性。我們將所提出的方法稱為神經(jīng)玩笑機器(Neural Joking Machine,NJM),該方法使用BoketeDB預(yù)訓(xùn)練模型。

圖1:NJM從圖像輸入中生成的有趣字幕樣本

可以毫不夸張地說,笑是一種特殊的高階功能,且只有人類才擁有。在對笑聲的分析中,正如維基百科所言,“笑聲被認為是構(gòu)圖(模式)的轉(zhuǎn)變”,并且當接受者的構(gòu)圖發(fā)生變化時,笑聲就會經(jīng)常發(fā)生。然而,笑聲的視角在很大的程度上取決于接受者的位置。因此,想要對笑聲進行定量測量是非常困難的。最近出現(xiàn)了諸如“Bokete”等網(wǎng)絡(luò)服務(wù)的Image Ogiri,其中,用戶在主題圖片上發(fā)布有趣的字幕,而字幕也會并在類似SNS的環(huán)境中進行評估。用戶進行競爭以獲得最多的“星星”。雖然對笑聲進行量化被認為是一項非常困難的任務(wù),但Bokete評估和圖像之間的對應(yīng)關(guān)系使得我們我們能夠定量地處理笑聲。圖像字幕是計算機視覺中的一個活躍話題,而且我們認為可以實現(xiàn)幽默的圖像字幕。本文的主要貢獻如下:

我們基于最近在計算機視覺領(lǐng)域的圖像字幕研究,提出了一個用于趣味字幕生成器的框架。

我們定義了趣味分數(shù)(Funny Score),這是一個基于數(shù)據(jù)庫中現(xiàn)有滑稽字幕評估的權(quán)重系統(tǒng)。而這個趣味分數(shù)常用于損失函數(shù)。

我們收集了數(shù)據(jù)以從Web服務(wù)Bokete上創(chuàng)建BoketeDB。該數(shù)據(jù)庫包含999,571張圖像和字幕對。

BoketeDB

在實驗部分,我們將所提出的基于趣味分數(shù)和BoketeDB預(yù)訓(xùn)練參數(shù)的方法與MS COCO 預(yù)訓(xùn)練的 CNN + LSTM所提供的基線進行了比較。我們還將NJM的結(jié)果與人類所提供的趣味字幕進行比較。在人類的評估中,該方法所提供的結(jié)果排名要低于人類所提供的結(jié)果(22.59%VS 67.99%),但排名要高于基線(9.41%)。最后,我們顯示了若干張圖像中所生成的趣味字幕。

圖2:所提出的有趣字幕生成的CNN + LSTM體系結(jié)構(gòu)

相關(guān)研究

憑借在深度神經(jīng)網(wǎng)絡(luò)(DNNs)所取得的重大研究進展,我們發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)(CNN+RNN)的組合,是一種用于特征提取和序列處理的成功模型。盡管沒有明確的劃分,但CNN通常用于圖像處理,而RNN通常用于文本處理。此外,這兩個領(lǐng)域是相互統(tǒng)一的。一項成功的應(yīng)用是使用CNN+LSTM(CNN+長短期記憶)生成圖像字幕。該技術(shù)可以從圖像輸入中自動生成文本。然而,我們認為圖像字幕需要人類的直覺和情感。在本文中,我們將幫助引導(dǎo)一個圖像字幕進行有趣的表達。接下來,我們將介紹幽默圖像字幕生成的相關(guān)研究。

Wang等人提出了一種自動“meme”生成技術(shù)。meme是一種有趣的圖像,通常包含幽默文字。Wang等人通過統(tǒng)計分析meme和評論之間的相關(guān)性,從而對概率依賴關(guān)系(例如圖像和文本的依賴關(guān)系)進行建模,并自動生成meme。

Chandrasekaran等人通過構(gòu)造一個分析器來量化圖像輸入中的“視覺幽默”,從而對圖像進行幽默增強。他們還構(gòu)建了包含有趣的(3200張)和無趣的(3200張)人類標記圖像在內(nèi)的數(shù)據(jù)集來評估視覺幽默。可以通過定義5個階段來訓(xùn)練一張圖像的“趣味性”。

圖3:輸出結(jié)果的比較:“Human”行表示人類用戶所提供的字幕,且在Bokete網(wǎng)站上排名最高?!癗JM”行表示應(yīng)用所提出的基于Funny Score和BoketeDB的模型生成的結(jié)果。“STAIR字幕”欄表示MS COCO的日語翻譯結(jié)果。

所提出的方法

我們通過使用所提出的滑稽分數(shù)進行權(quán)重評估來對趣味字幕生成器進行有效的訓(xùn)練。我們采用CNN + LSTM作為基準,但我們一直在探索有效的評分函數(shù)和數(shù)據(jù)庫構(gòu)建。我們將所提出的方法稱為神經(jīng)玩笑機器(NJM),它是與BoketeDB預(yù)訓(xùn)練模型相結(jié)合的。

CNN + LSTM

所提出方法的流程如圖2所示?;旧?,我們采用了Show和Tell中使用的CNN + LSTM模型,但CNN被ResNet-152替代為圖像特征提取方法。接下來,我們將詳細描述如何使用滑稽分數(shù)計算損失函數(shù)。該函數(shù)能夠適當?shù)卦u估星星的數(shù)量和它的“趣味性”。

趣味分數(shù)(Funny Score)

Bokete Ogiri網(wǎng)站使用星星的數(shù)量來評估字幕的趣味程度。用戶對已發(fā)布的字幕的“趣味性”進行評估,并為字幕指定一至三顆星。因此,有趣的標題往往會被分配更多的星星。因此,我們關(guān)注的是星星的數(shù)量,以提出一種有效的訓(xùn)練方法,其中,趣味分數(shù)使得我們能夠評估字幕的趣味性。根據(jù)我們先前實驗的結(jié)果,擁有100顆星星的趣味分數(shù)被視為閾值。換句話說,當星星的數(shù)量小于100時,趣味分數(shù)輸出損失值L;相反,當星星的數(shù)量超過100時,趣味分數(shù)返回L -1.0。損失值L是用LSTM進行計算的,作為每個小批量的平均值。

圖4.使用所提出的NJM獲得的可視化結(jié)果

總而言之,在本文中,我們提出了一種方法,通過使用它能夠生成引人發(fā)笑的字幕。我們構(gòu)建了Bokete DB,其中包含在Bokete Ogiri網(wǎng)站上發(fā)布的一個主題(圖像)和相應(yīng)的有趣字幕。通過權(quán)重評估,我們有效地訓(xùn)練了一個帶有趣味分數(shù)的趣味字幕生成器。雖然我們以CNN+LSTM為基準,但我們始終在探索一種有效的評分函數(shù)和數(shù)據(jù)庫結(jié)構(gòu)。本次研究的實驗表明,NJM比基準STAIR字幕要有趣得多。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1089

    瀏覽量

    40592
  • 生成器
    +關(guān)注

    關(guān)注

    7

    文章

    320

    瀏覽量

    21153
  • 計算機視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1701

    瀏覽量

    46146

原文標題:「正經(jīng)字幕」太無聊?用「神經(jīng)玩笑機」就可以生成逗你笑的趣味字幕

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    機器視覺計算機視覺的關(guān)系簡述

    ,以控制相應(yīng)的行為。因此,可以說,計算機視覺為機器視覺提供圖像和景物分析的理論及算法基礎(chǔ),機器視覺計算
    發(fā)表于 05-13 14:57

    【我是電子發(fā)燒友】七步帶你認識計算機視覺(Computer Vision)

    與Woods編寫的《數(shù)字圖像處理(Digital Image Processing)》一書,使用MATLAB來運行其中所提到的范例,相信一定會有所獲。第三步——計算機視覺一旦學習完有關(guān)
    發(fā)表于 06-14 21:06

    計算機視覺領(lǐng)域的關(guān)鍵技術(shù)/典型算法模型/通信工程領(lǐng)域的應(yīng)用方案

    、優(yōu)化和運維等領(lǐng)域累積了大量非結(jié)構(gòu)化的圖像數(shù)據(jù);同時,圖像處理器(Graphics Processing Unit,GPU)的便利應(yīng)用也為開展高強度并行計算提供了算力基礎(chǔ)。本文首先總結(jié)
    發(fā)表于 12-03 13:58

    深度學習與傳統(tǒng)計算機視覺簡介

    文章目錄1 簡介1.1 深度學習與傳統(tǒng)計算機視覺1.2 性能考量1.3 社區(qū)支持2 結(jié)論3 參考在計算機視覺領(lǐng)域中,不同的場景不同的應(yīng)用程序
    發(fā)表于 12-23 06:17

    用于計算機視覺訓(xùn)練的圖像數(shù)據(jù)集

    ? 計算機視覺使計算機能夠理解圖像和視頻的內(nèi)容。計算機視覺的目標是使人類
    的頭像 發(fā)表于 12-31 09:33 ?2402次閱讀

    用于計算機視覺訓(xùn)練的圖像數(shù)據(jù)集

    計算機視覺使計算機能夠理解圖像和視頻的內(nèi)容。計算機視覺的目標是使人類
    的頭像 發(fā)表于 02-12 16:13 ?1449次閱讀

    目標檢測是計算機視覺領(lǐng)域中一個新興的應(yīng)用方向

    目標檢測是計算機視覺領(lǐng)域中一個新興的應(yīng)用方向。圖像分類是對圖像進行分類,比如判斷圖像中是否是車。
    的頭像 發(fā)表于 02-12 15:39 ?5672次閱讀
    目標檢測是<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b><b class='flag-5'>領(lǐng)域中</b>一個新興的應(yīng)用方向

    機器學習和計算機視覺的前20個圖像數(shù)據(jù)集

    計算機視覺使計算機能夠理解圖像和視頻的內(nèi)容。計算機視覺的目標是使人類
    發(fā)表于 01-28 07:40 ?5次下載
    機器學習和<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>的前20個<b class='flag-5'>圖像</b>數(shù)據(jù)集

    基于計算機視覺領(lǐng)域中的特征檢測和匹配研究

    ? 我們都知道特征檢測和匹配是計算機視覺領(lǐng)域中的重要任務(wù),它們在許多應(yīng)用中發(fā)揮著關(guān)鍵作用,比如SLAM、SFM、AR、VR等許多算法都需要穩(wěn)定精確的特征檢測和匹配。 特征檢測算法的意義在于從
    的頭像 發(fā)表于 06-16 16:48 ?1139次閱讀
    基于<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b><b class='flag-5'>領(lǐng)域中</b>的特征檢測和匹配研究

    機器視覺計算機視覺的區(qū)別

    機器視覺計算機視覺的區(qū)別 機器視覺計算機視覺是兩個相關(guān)但不同的概念。雖然許多人使用這兩個術(shù)語
    的頭像 發(fā)表于 08-09 16:51 ?2123次閱讀

    深度學習在計算機視覺領(lǐng)域的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學習作為其中的核心技術(shù)之一,已經(jīng)在計算機視覺領(lǐng)域取得了顯著的成果。計算機視覺,作為
    的頭像 發(fā)表于 07-01 11:38 ?1004次閱讀

    計算機視覺怎么給圖像分類

    圖像分類是計算機視覺領(lǐng)域中的一項核心任務(wù),其目標是將輸入的圖像自動分配到預(yù)定義的類別集合中。這一過程涉及
    的頭像 發(fā)表于 07-08 17:06 ?940次閱讀

    計算機視覺屬于人工智能嗎

    屬于,計算機視覺是人工智能領(lǐng)域的一個重要分支。 引言 計算機視覺是一門研究如何使計算機具有
    的頭像 發(fā)表于 07-09 09:11 ?1445次閱讀

    計算機視覺在人工智能領(lǐng)域有哪些主要應(yīng)用?

    計算機視覺是人工智能領(lǐng)域的一個重要分支,它主要研究如何讓計算機能夠像人類一樣理解和處理圖像和視頻數(shù)據(jù)。
    的頭像 發(fā)表于 07-09 09:14 ?1687次閱讀

    計算機視覺圖像處理的區(qū)別和聯(lián)系

    計算機視覺圖像處理是兩個密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 1. 基本概念 1.1 計算機視覺
    的頭像 發(fā)表于 07-09 09:16 ?1491次閱讀