見過3D物體數(shù)據(jù)集,見過會動的3D物體數(shù)據(jù)集嗎?
每段動態(tài)視頻都 以目標(biāo)為中心拍攝,不僅自帶標(biāo)注整體的邊界框,每個視頻還附帶相機(jī)位姿和稀疏點(diǎn)云。
這是谷歌的開源3D物體數(shù)據(jù)集 Objectron,包含 15000份短視頻樣本,以及從五個大洲、十個國家里收集來的 400多萬張帶注釋的圖像。
谷歌認(rèn)為,3D目標(biāo)理解領(lǐng)域,缺少像2D中的ImageNet這樣的大型數(shù)據(jù)集,而Objectron數(shù)據(jù)集能在一定程度上解決這個問題。
數(shù)據(jù)集一經(jīng)推出, 1.6k網(wǎng)友點(diǎn)贊。
有網(wǎng)友調(diào)侃,谷歌恰好在自己想“谷歌”這類數(shù)據(jù)集的時候,把它發(fā)了出來。
也有團(tuán)隊(duì)前成員表示,很高興看到這樣的數(shù)據(jù)集和模型,給AR帶來進(jìn)步的可能。
除此之外,谷歌還公布了用Objectron數(shù)據(jù)集訓(xùn)練的針對 鞋子、椅子、杯子和相機(jī)4種類別的3D目標(biāo)檢測模型。
來看看這個數(shù)據(jù)集包含什么,以及谷歌提供的3D目標(biāo)檢測方案吧~ (項(xiàng)目地址見文末)
9類物體,對AR挺友好
目前,這個數(shù)據(jù)集中包含的3D物體樣本,包括自行車,書籍,瓶子,照相機(jī),麥片盒子,椅子,杯子,筆記本電腦和鞋子。
當(dāng)然,這個數(shù)據(jù)集,絕不僅僅只是一些以物體為中心拍攝的視頻和圖像,它具有如下特性:
注釋標(biāo)簽 (3D目標(biāo)立體邊界框)
用于AR數(shù)據(jù)的數(shù)據(jù) (相機(jī)位姿、稀疏點(diǎn)云、二維表面)
數(shù)據(jù)預(yù)處理 (圖像格式為tf.example,視頻格式為SequenceExample)
支持通過腳本運(yùn)行3D IoU指標(biāo)的評估
支持通過腳本實(shí)現(xiàn)Tensorflow、PyTorch、JAX的數(shù)據(jù)加載及可視化,包含“Hello World”樣例
支持Apache Beam,用于處理谷歌云(Google Cloud)基礎(chǔ)架構(gòu)上的數(shù)據(jù)集
圖像部分的畫風(fēng),基本是這樣的,也標(biāo)注得非常詳細(xì):
而在視頻中,不僅有從各個角度拍攝的、以目標(biāo)為中心的片段 (從左到右、從下到上):
也有不同數(shù)量的視頻類型 (一個目標(biāo)、或者兩個以上的目標(biāo)):
谷歌希望通過發(fā)布這個數(shù)據(jù)集,讓研究界能夠進(jìn)一步突破3D目標(biāo)理解領(lǐng)域,以及相關(guān)的如 無監(jiān)督學(xué)習(xí)等方向的研究應(yīng)用。
怎么用?谷歌“以身示范”
拿到數(shù)據(jù)集的第一刻,并不知道它是否好用,而且總感覺有點(diǎn)無從下手?
別擔(dān)心,這個數(shù)據(jù)集的訓(xùn)練效果,谷歌已經(jīng)替我們試過了。
看起來還不錯:
此外,谷歌將訓(xùn)練好的3D目標(biāo)檢測模型,也一并給了出來。 (傳送見文末)
算法主要包括兩部分,第一部分是Tensorflow的2D目標(biāo)檢測模型,用來“發(fā)現(xiàn)物體的位置”;
第二部分則進(jìn)行圖像裁剪,來估計(jì)3D物體的邊界框 (同時計(jì)算目標(biāo)下一幀的2D裁剪,因此不需要運(yùn)行每個幀),整體結(jié)構(gòu)如下圖:
在模型的評估上,谷歌采用了 Sutherland-Hodgman多邊形裁剪算法,來計(jì)算兩個立體邊界框的交點(diǎn),并計(jì)算出兩個立方體的 相交體積,最終計(jì)算出3D目標(biāo)檢測模型的 IoU。
簡單來說,兩個立方體重疊體積越大,3D目標(biāo)檢測模型效果就越好。
這個模型是谷歌推出的MediaPipe中的一個部分,后者是一個開源的跨平臺框架,用于構(gòu)建pipeline,以處理不同形式的感知數(shù)據(jù)。
它推出的MediaPipe Objectron實(shí)時3D目標(biāo)檢測模型,用移動設(shè)備 (手機(jī))就能進(jìn)行目標(biāo)實(shí)時檢測 。
看, (他們玩得多歡快)實(shí)時目標(biāo)檢測的效果還不錯:
其他部分3D數(shù)據(jù)集
除了谷歌推出的數(shù)據(jù)集以外,此前視覺3D目標(biāo)領(lǐng)域,也有許多類型不同的數(shù)據(jù)集,每個數(shù)據(jù)集都有自己的特點(diǎn)。
例如斯坦福大學(xué)等提出的 ScanNetV2,是個室內(nèi)場景數(shù)據(jù)集,而ScanNet則是個RGB-D視頻數(shù)據(jù)集,一共有21個目標(biāo)類,一共1513個采集場景數(shù)據(jù),可做語義分割和目標(biāo)檢測任務(wù)。
而目前在自動駕駛領(lǐng)域非常熱門的 KITTI數(shù)據(jù)集,也是一個3D數(shù)據(jù)集,是目前最大的自動駕駛場景下計(jì)算機(jī)視覺的算法評測數(shù)據(jù)集,包含市區(qū)、鄉(xiāng)村和高速公路等場景采集的真實(shí)圖像數(shù)據(jù)。
此外,還有Waymo、SemanticKITTI、H3D等等數(shù)據(jù)集,也都用在不同的場景中。 (例如SemanticKITTI,通常被專門用于自動駕駛的3D語義分割)
無論是視頻還是圖像,這些數(shù)據(jù)集的單個樣本基本包含多個目標(biāo),使用場景上也與谷歌的Objectron有所不同。
感興趣的小伙伴們,可以通過下方傳送門,瀏覽谷歌最新的3D目標(biāo)檢測數(shù)據(jù)集,以及相關(guān)模型~
Objectron數(shù)據(jù)集傳送門:
https://github.com/google-research-datasets/Objectron/
針對4種物體的3D目標(biāo)檢測模型:
https://google.github.io/mediapipe/solutions/objectron
參考鏈接:
https://ai.googleblog.com/2020/11/announcing-objectron-dataset.html
https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html
責(zé)任編輯:PSY
-
3D
+關(guān)注
關(guān)注
9文章
2917瀏覽量
108060 -
谷歌
+關(guān)注
關(guān)注
27文章
6202瀏覽量
106076 -
AI
+關(guān)注
關(guān)注
87文章
31681瀏覽量
270478 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8910瀏覽量
137842
發(fā)布評論請先 登錄
相關(guān)推薦
騰訊混元3D AI創(chuàng)作引擎正式發(fā)布
騰訊混元3D AI創(chuàng)作引擎正式上線
C#通過Halcon實(shí)現(xiàn)3D點(diǎn)云重繪
NEO推出3D X-AI芯片,AI性能飆升百倍
![](https://file1.elecfans.com/web2/M00/02/61/wKgaoma1k1qAZcsxAAebJCg2d5E037.png)
深視智能3D輪廓線掃相機(jī)對射測量紐扣電池厚度#傳感器 #3D相機(jī) #視覺傳感器 #粗糙度輪廓測量
![](https://file1.elecfans.com/web2/M00/FD/AE/wKgZomaeDlyARDgbAACFwt7KID8880.png)
紫光展銳助力全球首款AI裸眼3D手機(jī)發(fā)布
中興通訊與中國移動發(fā)布全球首創(chuàng)AI裸眼3D新品,引領(lǐng)3D科技新浪潮
浪潮云洲發(fā)布云洲燭龍雙目結(jié)構(gòu)光3D相機(jī)
![](https://file1.elecfans.com/web2/M00/F1/E6/wKgaomZz-AaAMI8lAAXUvh2yaB8299.png)
復(fù)合機(jī)器人3D結(jié)構(gòu)光相機(jī) #復(fù)合機(jī)器人#工業(yè)機(jī)器人 #機(jī)器人上下料 #3D結(jié)構(gòu)光相機(jī)
奧比中光正式發(fā)布全新Gemini 330系列雙目3D相機(jī)
![奧比中光正式<b class='flag-5'>發(fā)布</b>全新Gemini 330系列雙目<b class='flag-5'>3D</b><b class='flag-5'>相機(jī)</b>](https://file1.elecfans.com/web2/M00/DF/5C/wKgaomYwWrqAB2PpAAALRquZGKM490.jpg)
機(jī)器人3D視覺引導(dǎo)系統(tǒng)框架介紹
![機(jī)器人<b class='flag-5'>3D</b>視覺引導(dǎo)系統(tǒng)框架介紹](https://file1.elecfans.com/web2/M00/DF/2D/wKgaomYu-P2AfuhnAAAL7c8czwE101.jpg)
Stability AI推出Stable Video 3D模型,可制作多視角3D視頻
基于深度學(xué)習(xí)的方法在處理3D點(diǎn)云進(jìn)行缺陷分類應(yīng)用
![基于深度學(xué)習(xí)的方法在處理<b class='flag-5'>3D</b><b class='flag-5'>點(diǎn)</b><b class='flag-5'>云</b>進(jìn)行缺陷分類應(yīng)用](https://file1.elecfans.com/web2/M00/C1/8C/wKgaomXXA2-AMIIzAABLUY5BmWY274.png)
評論