諸如RGB-D攝像頭和LIDAR等光學(xué)3D距離傳感器已在機(jī)器人技術(shù)中得到廣泛應(yīng)用,并正在為從無人駕駛汽車到自動操縱器的一系列應(yīng)用生成豐富準(zhǔn)確的環(huán)境3D映射。然而,諸如玻璃容器這樣的透明對象會造成昂貴傳感器的混亂。這是因為光學(xué)3D傳感器是由假定所有表面均為朗伯(Lambertian)的算法驅(qū)動,即它們在所有方向均等地反射光線,從而在所有視角下產(chǎn)生均勻的表面亮度。但是,透明對象違反了這一假設(shè),因為它們的表面既折射又反射光線。所以,來自透明對象的大多數(shù)深度數(shù)據(jù)一般為無效,或包含不可預(yù)測的噪點。
光學(xué)3D傳感器通常難以檢測透明對象。例如,玻璃瓶沒有出現(xiàn)在英特爾實感D415 RGB-D攝像頭捕獲的3D深度圖像之中(上方靜態(tài)圖);下方動圖:根據(jù)深度圖像和點云方法構(gòu)建的3D可視化。
支持機(jī)器更好地感知透明表面,這不僅可以提高安全性,而且能夠在非結(jié)構(gòu)化應(yīng)用中開啟一系列全新的交互,如可以處理廚具或分類塑料以進(jìn)行回收利用的機(jī)器人,導(dǎo)航室內(nèi)環(huán)境,或在玻璃桌面生成AR可視化效果等等。
為了解決這個問題,谷歌與Synthesis AI和哥倫比亞大學(xué)的研究人員合作開發(fā)了名為ClearGrasp的機(jī)器學(xué)習(xí)算法。據(jù)介紹,它能夠根據(jù)RGB-D圖像估計透明對象的精確3D數(shù)據(jù)。這主要得益于一個大規(guī)模合成數(shù)據(jù)集(谷歌日前同樣進(jìn)行了公開)。ClearGrasp可以配合所有標(biāo)準(zhǔn)RGB-D攝像頭,然后使用深度學(xué)習(xí)來準(zhǔn)確地重建透明對象的深度,并泛化為訓(xùn)練期間不可見的全新對象。作為對比,以前的方法需要事先理解透明對象,并且通常需要結(jié)合背景照明的映射和攝像頭位置。在這項研究中,谷歌同時演示了將ClearGrasp集成到拾取和放置式機(jī)器人的控制系統(tǒng)中。谷歌表示,他們留意到透明塑料對象的抓取成功率有了顯著提高。
ClearGrasp使用深度學(xué)習(xí)來恢復(fù)透明表面的準(zhǔn)確3D深度數(shù)據(jù)
1. 透明對象的可視數(shù)據(jù)集
要訓(xùn)練有效的深度學(xué)習(xí)模型(如用于視覺的ImageNet或用于BERT的Wikipedia),你需要大量的數(shù)據(jù)。ClearGrasp也不例外。遺憾的是,我們?nèi)狈ν该鲗ο蟮?D數(shù)據(jù)集。諸如Matterport3D或ScanNet這樣的現(xiàn)有3D數(shù)據(jù)集會忽略透明表面,因為它們需要昂貴且耗時的標(biāo)記過程。
為解決此問題,研發(fā)團(tuán)隊自行構(gòu)建了透明對象的大規(guī)模數(shù)據(jù)集,其中包含50000多個具有相應(yīng)表面法線(表示表面曲率),分割蒙版,邊緣和深度的圖片真實感渲染,并可用于訓(xùn)練各種2D和3D檢測任務(wù)。每個圖像最多包含五個透明對象,而它們要么位于平坦的地平面之上或手提袋之內(nèi),并且具有不同的背景和照明。
ClearGrasp合成數(shù)據(jù)集中的透明對象的示例數(shù)據(jù)
研究人員同時納入了包含286張真實世界圖像的測試集,而它們具有相應(yīng)的ground truth深度。對于真實世界圖像,團(tuán)隊將場景中的每個透明對象替換為具有相同姿態(tài)的繪制對象。圖像是在各種不同的室內(nèi)照明條件下并使用各種布料和貼面背景捕獲,并且包含散布在場景周圍的不透明對象。它們既包括合成訓(xùn)練集中存在的已知對象,又包含新的對象。
左:現(xiàn)實世界中的圖像捕獲設(shè)置;中:可以用噴涂副本精確替換每個透明對象;右:捕獲數(shù)據(jù)的示例
2. 挑戰(zhàn)
通過透明對象看到的扭曲背景視圖會混淆典型的深度估計方法,但存在暗示對象形狀的線索。透明表面會出現(xiàn)鏡面反射,并在光線充足的環(huán)境中顯示為亮點。由于這種視覺提示在RGB圖像中十分明顯,并且主要受對象形狀的影響,所以卷積神經(jīng)網(wǎng)絡(luò)可以利用反射來推斷出精確的表面法線,然后再將其用于深度估計。
透明對象的鏡面反射會創(chuàng)建不同的特征(特征會根據(jù)對象的形狀而變化),并提供強(qiáng)大的視覺提示來幫助估計表面法線
大多數(shù)機(jī)器學(xué)習(xí)算法都嘗試直接根據(jù)單眼RGB圖像估計深度。但即便是人類,單眼深度估計都是一項艱巨的任務(wù)。我們在估計平坦背景表面的深度時會觀察到較大的誤差,這加深了放置于其上的透明對象的深度估計誤差。所以,研究人員認(rèn)為與其直接估計所有幾何圖形的深度,不如更正來自RGB-D 3D攝像頭的初始深度估計值,這將允許他們使用非透明表面的深度來確定透明表面的深度。
3. ClearGrasp算法
ClearGrasp使用3個神經(jīng)網(wǎng)絡(luò):一個用于估計表面法線的網(wǎng)絡(luò),一個用于遮擋邊界(深度不連續(xù))的網(wǎng)絡(luò),另一個用于遮蓋透明對象的網(wǎng)絡(luò)。遮罩用于刪除屬于透明對象的所有像素,以便能夠填充正確的深度。然后團(tuán)隊使用了全局優(yōu)化模塊,使用預(yù)測的表面發(fā)現(xiàn)來引導(dǎo)重建的形狀,以及使用預(yù)測的遮擋邊界來保持不同對象之間的分離。
團(tuán)隊提出的方法的綜述。點云是使用輸出深度生成并用表面法線著色
每個神經(jīng)網(wǎng)絡(luò)都利用合成數(shù)據(jù)集進(jìn)行訓(xùn)練,而它們能夠很好地處理真實世界的透明對象。但是,諸如如墻壁或水果等表面的表面法線估計糟糕。這是由于合成數(shù)據(jù)集的局限性:僅包含位于地面地透明對象。為了應(yīng)對這個問題,團(tuán)隊在表面法線訓(xùn)練循環(huán)中納入了來自Matterport3D和ScanNet數(shù)據(jù)集的真實室內(nèi)場景。通過域內(nèi)合成數(shù)據(jù)集和域外實詞數(shù)據(jù)集的訓(xùn)練,模型在測試集中的所有表面均取得出色的表現(xiàn)。
根據(jù)真實圖像的表面法線預(yù)測:a 僅Matterport3D和ScanNet(MP + SN);b 僅合成數(shù)據(jù)集;c MP + SN以及合成數(shù)據(jù)集。注意,通過MP + SN訓(xùn)練的模型無法檢測透明對象。僅根據(jù)合成數(shù)據(jù)訓(xùn)練的模型可以很好地拾取真實塑料瓶,但對其他對象和表面的效果不理想。當(dāng)通過兩者進(jìn)行訓(xùn)練時,模型可以同時兼顧兩個方面
4. 結(jié)果
總體而言,團(tuán)隊的定量實驗表明,ClearGrasp能夠以比其他方法高得多的保真度來重建透明對象深度。盡管僅就合成的透明對象接受過訓(xùn)練,但團(tuán)隊發(fā)現(xiàn)模型能夠很好地適應(yīng)現(xiàn)實世界域,在不同域的已知對象方面實現(xiàn)了非常相似的定量重建性能。模型同時可以很好地推廣到具有復(fù)雜形狀的新對象。
為了確定ClearGrasp的定性性能,團(tuán)隊根據(jù)輸入和輸出深度圖像構(gòu)造3D點云,如下所示。生成的估計3D表面具有清晰且連貫的重構(gòu)形狀(這對于諸如3D映射和3D對象檢測的應(yīng)用而言非常重要),沒有單眼深度估計方法中出現(xiàn)的鋸齒噪點。模型十分穩(wěn)定,并且在挑戰(zhàn)性條件下都取得出色的表現(xiàn),如識別位于帶圖案背景中的透明對象,或區(qū)分部分遮擋的透明對象。
真實圖像的定性結(jié)果。前兩行:已知對象的結(jié)果;下兩行:新對象的結(jié)果。用表面法線著色的點云是根據(jù)對應(yīng)的深度圖像生成
最重要的是,ClearGrasp的輸出深度可以直接用作利用RGB-D圖像的操作算法的輸入。通過使用ClearGrasp的輸出深度估算值而非原始傳感器數(shù)據(jù),UR5機(jī)械臂的抓取算法在抓取透明對象的成功率方面取得了顯著提升。在使用抓爪時,成功率從基線的12%提高到74%,而抽吸的成功率則從64%提高到86%。
使用ClearGrasp處理新透明對象。請注意具有挑戰(zhàn)性的條件:無紋理背景,復(fù)雜的對象形狀,以及定向光會導(dǎo)致混亂的陰影和焦散
5. 局限與未來的研究方向
谷歌指出,合成數(shù)據(jù)集的局限性在于,由于傳統(tǒng)路徑追蹤算法的渲染存在局限性,所以它不能代表精確的焦散。結(jié)果是,模型將明亮的焦散與陰影混淆為獨立的透明對象。盡管存在這樣的缺點,但ClearGrasp的研究表明,合成數(shù)據(jù)依然是一種可行的方法,可以幫助基于學(xué)習(xí)的深度重建方法取得令人滿意的結(jié)果。對于未來的研究,一個充滿前景的方向是通過生成具有物理正確的焦散和表面缺陷的渲染來改善域轉(zhuǎn)真實世界圖像。
對于ClearGrasp,團(tuán)隊證明了高質(zhì)量的渲染可用于成功訓(xùn)練在現(xiàn)實世界中表現(xiàn)出色的模型。谷歌表示,他們希望數(shù)據(jù)集將推動業(yè)界進(jìn)一步研究針對透明對象的數(shù)據(jù)驅(qū)動感知算法。
評論
查看更多