今天,谷歌宣布開放Open Images V4數(shù)據(jù)集,包含190萬張圖片,共計600個類別,共標記了1540萬個邊界框,這是迄今的有對象位置注釋的最大數(shù)據(jù)集?;诖藬?shù)據(jù)集,谷歌將在ECCV 2018舉辦大型圖像挑戰(zhàn)賽。
2016年,谷歌推出一個包含900萬張圖片的聯(lián)合發(fā)布數(shù)據(jù)庫:Open Images,其中標注了成千上萬個對象類別。從它發(fā)布以來,谷歌的工程師一直在努力更新和重新整理數(shù)據(jù)集,以為計算機視覺研究領(lǐng)域提供有用的資源來開發(fā)新的模型。
今天,谷歌宣布開放Open Images V4,其中包含190萬張圖片,共計600個類別,共標記了1540萬個邊界框。這個數(shù)據(jù)集成為現(xiàn)有的帶有對象位置注釋的最大數(shù)據(jù)集。這些邊界框大部分是由專業(yè)的注釋人員手工繪制的,以確保準確性和一致性。這些圖像非常多樣,通常包含有幾個對象的復(fù)雜場景(平均每個圖像包含8個邊界框)。
谷歌發(fā)起大型開放圖像挑戰(zhàn)賽
與此同時,谷歌還推出Open Image Challenge(開放圖像挑戰(zhàn)賽),這是一項新的目標檢測挑戰(zhàn),將在2018年歐洲計算機視覺會議(ECCV 2018)上舉行。Open Image Challenge遵循了PASCAL VOC、ImageNet和COCO的傳統(tǒng),但規(guī)??涨埃?/p>
在170萬張訓(xùn)練圖片中,有1220萬個有框注釋,共500個類別。
比以前的檢測挑戰(zhàn)更廣泛,包括諸如“fedora”和“snowman”之類的新對象。
除了對象檢測這個任務(wù)之外,挑戰(zhàn)還包括一個視覺關(guān)系檢測跟蹤人物,即在特定關(guān)系中檢測對象的配對情況,例如“女人彈吉他”。
訓(xùn)練集現(xiàn)在已經(jīng)可以使用了。一組包含10萬個圖像的測試集將于2018年7月1日由Kaggle發(fā)布。提交結(jié)果的截止日期是2018年9月1日。我們希望這些大型的訓(xùn)練集能夠激發(fā)對更精密的探測模型的研究,這些模型將超過目前最先進的性能,并且500個類別將能夠更精確地評估不同的探測器在哪里表現(xiàn)得最好。此外,有大量的圖像和許多對象的注釋使我們能夠探索視覺關(guān)系檢測,這是一個正在發(fā)展的分支領(lǐng)域的熱門話題。
除此之外,Open Images V4還包含3010萬的人工驗證的圖像級標簽,共計19794個類別,這并不是挑戰(zhàn)的一部分。該數(shù)據(jù)集包括550萬個圖像級標簽,由來自世界各地的成千上萬的用戶在crowdsource.google.com上生成。
Open Images V4數(shù)據(jù)集
Open Images是一個由900萬張圖片組成的數(shù)據(jù)集,這些圖像被標注為圖像級標簽和對象邊界框。V4的訓(xùn)練集包含了600對象類的1460萬個圖像,其中共標記了174萬個標記目標,這使得它成為現(xiàn)有的最大包含對象位置注釋的數(shù)據(jù)集。這些物體的邊界框大部分是由專業(yè)的注釋器手工繪制的,以確保準確性和一致性。這些圖像非常多樣,通常包含有多個對象的復(fù)雜場景(平均每個圖像有8.4個標記)。此外,數(shù)據(jù)集還帶有數(shù)千個類的圖像級標簽。
數(shù)據(jù)組織結(jié)構(gòu)
數(shù)據(jù)集被分割為一個訓(xùn)練集(9,011,219圖像),一個驗證集(41620個圖像)和一個測試集(125,436張圖片)。這些圖像被標注了圖像級標簽和邊界框,如下所述。
表1
表1顯示了數(shù)據(jù)集的所有子集中的圖像級標簽的概述。所有的圖像都有機器生成的圖像級標簽,這些標簽是由類似于Google Cloud Vision API的計算機視覺模型自動生成的。這些自動生成的標簽有一個很大的假正率。
此外,驗證和測試集,以及部分訓(xùn)練集都包含經(jīng)過人工驗證的圖像級標簽。大多數(shù)驗證都是由Google內(nèi)部的注釋者完成的。更小的部分是通過圖片標簽軟件來完成的,如Crowdsource app, g.co/imagelabeler。這個驗證過程實際上消除了假陽性(但不是傳統(tǒng)意義上的假陰性,這種方式會導(dǎo)致一些標簽可能在圖像中丟失)。由此產(chǎn)生的標簽在很大程度上是正確的,我們建議使用這些標簽來訓(xùn)練計算機視覺模型。使用多個計算機視覺模型來生成樣本,這樣做是保證在訓(xùn)練時不僅僅用機器生成的標簽數(shù)據(jù),這就是為什么詞匯表被顯著擴展的原因,如表一所示。
總的來說,有19995個不同的類和圖像級標簽。請注意,這個數(shù)字略高于上表中人工驗證的標簽的數(shù)量。原因是在機器生成的數(shù)據(jù)集中有少量的標簽并沒有出現(xiàn)在人工驗證的集合中。可訓(xùn)練的類是那些在V4訓(xùn)練集中至少有100個正例的人工驗證類?;谶@個定義,7186個類被認為是可訓(xùn)練的。
邊界框
表2
表2顯示了數(shù)據(jù)集的所有分割中邊界框注釋的概述,它包含了600個對象類。這些服務(wù)提供的范圍比ILSVRC和COCO探測挑戰(zhàn)的范圍更廣,包括諸如“fedora”和“snowman”之類的新對象。
對于訓(xùn)練集,我們在174 萬的圖像中標注了方框,用于可用的陽性人工標記的圖像級標簽。我們關(guān)注最具體的標簽。例如,如果一個圖像包含汽車、豪華轎車、螺絲刀,我們?yōu)楹廊A轎車和螺絲刀提供帶注釋的標注方框。對于圖像中的每一個標簽,我們詳盡地注釋了圖像中的對象類的每個實例。數(shù)據(jù)集共包含1460萬個的邊界框。平均每個圖像有8.4個標記對象。
對于驗證和測試集,針對所有可用的正圖像級標簽,我們提供了所有對象實例詳盡的邊界框注釋。所有的邊界框都是手工繪制的。我們有意地嘗試在語義層次結(jié)構(gòu)中盡可能詳盡地標注注釋框。平均來說,在驗證和測試集中,每個圖像標記了5個邊界框。
在所有的子集中,包括訓(xùn)練集、驗證集和測試集中,注釋器還為每個邊界框標記了一組屬性,例如指出該對象是否被遮擋。
類定義(Class definitions)
類別由MIDs(機器生成的id)標識,可以在Freebase或Google知識圖的API中找到。每個類的簡短描述都可以在類中CSV中找到。
統(tǒng)計和數(shù)據(jù)分析
600個可標記類的層次結(jié)構(gòu)
-
谷歌
+關(guān)注
關(guān)注
27文章
6203瀏覽量
106103 -
圖像
+關(guān)注
關(guān)注
2文章
1089瀏覽量
40593 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24851
原文標題:谷歌發(fā)布迄今最大注釋圖像數(shù)據(jù)集,190萬圖像目標檢測挑戰(zhàn)賽啟動
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
Open-E JovianDSS Up31增強的功能和新特性
ADC12D1800RFRB開發(fā)板上有一塊V4的FPGA,請問此FPGA是負責(zé)AD數(shù)據(jù)采集嗎?
助力AIoT應(yīng)用:在米爾FPGA開發(fā)板上實現(xiàn)Tiny YOLO V4
RISC-V指令集概述
Efinity入門使用-v4
RISC-V和arm指令集的對比分析
智譜AI宣布GLM-4-Flash大模型免費開放
特斯拉正積極測試其V4超級充電樁
X-CUBE-CRYPTOLIB V4庫文件無法添加,鏈接錯誤的原因?
中國電信和GSMA成立全球首個Open Gateway聯(lián)合開放實驗室
stm32cubemx生成mdk-arm v4項目文件無法打開是什么原因?qū)е碌模?/a>
RISC-V CPU IP領(lǐng)軍企業(yè)芯來科技正式宣布加入甲辰計劃
![RISC-<b class='flag-5'>V</b> CPU IP領(lǐng)軍企業(yè)芯來科技正式<b class='flag-5'>宣布</b>加入甲辰計劃](https://file1.elecfans.com/web2/M00/C5/E7/wKgZomYDkFKAC74IAAAuxvV0qeo287.png)
評論