機(jī)器人需要一張保姆級(jí)地圖。
隨著機(jī)器人的智能化技術(shù)不斷迭代,對(duì)于復(fù)雜的行為決策、人機(jī)交互等任務(wù)僅感知環(huán)境的空間幾何信息已無(wú)法滿足要求,它需要讓機(jī)器人能夠像人一樣,懂得環(huán)境中的物體類(lèi)別及其位置,即環(huán)境的語(yǔ)義信息。以掃地機(jī)器人為例,一個(gè)清掃餐桌底部的任務(wù)便要求它需要知道目標(biāo)的類(lèi)別和位置。然而目前主流的傳統(tǒng)2D柵格地圖、拓?fù)涞貓D雖然能夠描述環(huán)境中存在的障礙物幾何特征及其環(huán)境結(jié)構(gòu)信息,但卻缺乏機(jī)器人用于理解環(huán)境、人機(jī)/物機(jī)交互等業(yè)務(wù)邏輯的高層次語(yǔ)義信息,相反,3D語(yǔ)義地圖不僅包含物體及環(huán)境的結(jié)構(gòu)信息,還有物體類(lèi)別、功能屬性等“常識(shí)”性信息,可以說(shuō)是機(jī)器人的保姆級(jí)地圖。
從技術(shù)角度而言,3D語(yǔ)義地圖的地圖模型是針對(duì)真實(shí)場(chǎng)景的三維環(huán)境重構(gòu),包含區(qū)域性場(chǎng)景信息及場(chǎng)景中每個(gè)獨(dú)立物體的屬性、空間中的三維模型、位姿信息等,使機(jī)器人在語(yǔ)義層次上理解環(huán)境信息,模仿人類(lèi)大腦對(duì)環(huán)境理解的方式,從而為實(shí)現(xiàn)更高層次的智能化操作提供信息支持。
如何構(gòu)建3D語(yǔ)義地圖?
要構(gòu)建3D語(yǔ)義地圖,前提是需要提取出你所需要的物體特征,并進(jìn)行語(yǔ)義切割。INDEMIND在實(shí)現(xiàn)構(gòu)建3D語(yǔ)義地圖中,采用了立體視覺(jué)技術(shù)路線,通過(guò)對(duì)雙目視覺(jué)傳感器獲取到3D視覺(jué)點(diǎn)云信息進(jìn)行點(diǎn)云聚類(lèi),并結(jié)合邊緣端的嵌入式深度學(xué)習(xí)和VSLAM算法,輸出個(gè)體性物體語(yǔ)義和區(qū)域性場(chǎng)景語(yǔ)義,從而實(shí)現(xiàn)3D語(yǔ)義地圖構(gòu)建。
在真實(shí)場(chǎng)景中,無(wú)論是家庭、公司還是超市,大多擁有著3個(gè)及3個(gè)以上的細(xì)分場(chǎng)景,且這些場(chǎng)景大多有著相似性,當(dāng)機(jī)器人收到指定房間作業(yè)任務(wù)后如何快速準(zhǔn)確地理解房間的功能屬性,找到對(duì)應(yīng)房間,并能根據(jù)不同房間的功能屬性進(jìn)行個(gè)性化作業(yè)還需要極高的場(chǎng)景理解準(zhǔn)確度。
因此,INDEMIND是根據(jù)輸出的區(qū)域性場(chǎng)景語(yǔ)義和個(gè)體性物體語(yǔ)義二者融合的方式實(shí)現(xiàn)場(chǎng)景理解。首先,根據(jù)獲取到的區(qū)域性場(chǎng)景語(yǔ)義信息,進(jìn)行整體特征識(shí)別;其次,會(huì)根據(jù)個(gè)體性物體語(yǔ)義識(shí)別,對(duì)場(chǎng)景中一系列獨(dú)立個(gè)體信息進(jìn)行識(shí)別,并作為場(chǎng)景特征標(biāo)志,最終通過(guò)二相疊加判斷,實(shí)現(xiàn)準(zhǔn)確穩(wěn)定地場(chǎng)景理解。
在實(shí)際表現(xiàn)中,應(yīng)用3D語(yǔ)義地圖的機(jī)器人,結(jié)合INDEMIND VSLAM算法和智能決策引擎,在AI識(shí)別、智能避障、指令智能作業(yè)、人機(jī)/物機(jī)交互等方面均有優(yōu)異表現(xiàn)。
在AI識(shí)別和避障方面,基于3D語(yǔ)義地圖,能夠快速提取環(huán)境中各類(lèi)圖像特征,結(jié)合深度學(xué)習(xí)可立體識(shí)別行人、動(dòng)物、固定/移動(dòng)物體等個(gè)體性障礙物,以及樓梯、自動(dòng)扶梯等危險(xiǎn)場(chǎng)景,避免危險(xiǎn)情況發(fā)生,這種結(jié)合物體3D信息的識(shí)別和避障效果的穩(wěn)定性、準(zhǔn)確率都得到顯著提升。同時(shí),通過(guò)識(shí)別到與顯示匹配的障礙物3D信息,機(jī)器人還可做出類(lèi)似人類(lèi)規(guī)避動(dòng)作的精細(xì)化操作,能夠讓機(jī)器人有預(yù)判、有策略的實(shí)現(xiàn)主動(dòng)避障。
在交互和智能作業(yè)方面,3D語(yǔ)義地圖通過(guò)對(duì)場(chǎng)景中獨(dú)立個(gè)體、房間信息做語(yǔ)義識(shí)別及物體分割,機(jī)器人懂得人類(lèi)“常識(shí)”后,便能實(shí)現(xiàn)高層次的交互邏輯,配合INDEMIND自研的自然語(yǔ)言交互技術(shù),可通過(guò)語(yǔ)音、手勢(shì)、動(dòng)作等指令,命令機(jī)器人進(jìn)行安全、搜尋、跟隨、自主尋路、定向清掃等多種智能作業(yè)邏輯。以定向清掃為例,發(fā)布語(yǔ)音命令:“清掃一下臥室”可被識(shí)別為針對(duì)地圖上識(shí)別到的臥室區(qū)域進(jìn)行一次規(guī)劃清掃,告別粗糙的交互體驗(yàn)。
目前,3D語(yǔ)義地圖技術(shù)已應(yīng)用到INDMEIND推出的家用機(jī)器人導(dǎo)航方案「家用機(jī)器人AI Kit」和商用機(jī)器人導(dǎo)航方案「商用機(jī)器人AI Kit」中,兩種方案的市場(chǎng)表現(xiàn)均得到了客戶(hù)的廣泛認(rèn)可。
值得一提的是,兩種方案由于采用視覺(jué)技術(shù)路線,在成本方面相對(duì)于競(jìng)品均有著明顯優(yōu)勢(shì)?!讣矣脵C(jī)器人AI Kit」在實(shí)現(xiàn)同等水平的技術(shù)效果的同時(shí),成本只有激光雷達(dá)融合方案的1/3,且激光視覺(jué)融合方案雖然也能獲取到場(chǎng)景中的語(yǔ)義信息,但受限于傳感器限制,事實(shí)上只能識(shí)別到物體的二維信息,無(wú)法構(gòu)建3D語(yǔ)義地圖?!干逃脵C(jī)器人AI Kit」相比激光雷達(dá)方案,成本下降了60-80%,機(jī)器人開(kāi)發(fā)成本最低可以下探到2千元以?xún)?nèi),包含導(dǎo)航和電池的完整底盤(pán)成本則可以下探到5千元以?xún)?nèi),顯著降低機(jī)器人的開(kāi)發(fā)成本和周期。
審核編輯 黃宇
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28704瀏覽量
208685 -
智能
+關(guān)注
關(guān)注
8文章
1716瀏覽量
117737 -
AI
+關(guān)注
關(guān)注
87文章
31711瀏覽量
270510 -
VSLAM
+關(guān)注
關(guān)注
0文章
23瀏覽量
4349
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論