欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于多模態(tài)語(yǔ)義SLAM框架

lhl545545 ? 來(lái)源:3D視覺(jué)工坊 ? 作者:3D視覺(jué)工坊 ? 2022-08-31 09:39 ? 次閱讀

摘要

4963fc12-28b9-11ed-ba43-dac502259ad0.png ? 大家好,今天為大家?guī)?lái)的文章是?Multi-modal Semantic SLAM for Complex Dynamic Environments 同時(shí)定位和建圖(SLAM)是許多現(xiàn)實(shí)世界機(jī)器人應(yīng)用中最重要的技術(shù)之一。靜態(tài)環(huán)境的假設(shè)在大多數(shù) SLAM 算法中很常見(jiàn),但是對(duì)于大多數(shù)應(yīng)用程序來(lái)說(shuō)并非如此。最近關(guān)于語(yǔ)義 SLAM 的工作旨在通過(guò)執(zhí)行基于圖像的分割來(lái)理解環(huán)境中的對(duì)象并從場(chǎng)景上下文中區(qū)分動(dòng)態(tài)信息。然而,分割結(jié)果往往不完善或不完整,這會(huì)降低映射的質(zhì)量和定位的準(zhǔn)確性。在本文中,我們提出了一個(gè)強(qiáng)大的多模態(tài)語(yǔ)義框架來(lái)解決復(fù)雜和高度動(dòng)態(tài)環(huán)境中的 SLAM 問(wèn)題。我們建議學(xué)習(xí)更強(qiáng)大的對(duì)象特征表示,并將三思而后行的機(jī)制部署到主干網(wǎng)絡(luò),從而為我們的基線實(shí)例分割模型帶來(lái)更好的識(shí)別結(jié)果。此外,將純幾何聚類和視覺(jué)語(yǔ)義信息相結(jié)合,以減少由于小尺度物體、遮擋和運(yùn)動(dòng)模糊造成的分割誤差的影響。已經(jīng)進(jìn)行了徹底的實(shí)驗(yàn)來(lái)評(píng)估所提出方法的性能。結(jié)果表明,我們的方法可以在識(shí)別缺陷和運(yùn)動(dòng)模糊下精確識(shí)別動(dòng)態(tài)對(duì)象。此外,所提出的 SLAM 框架能夠以超過(guò) 10 Hz 的處理速率有效地構(gòu)建靜態(tài)密集地圖,這可以在許多實(shí)際應(yīng)用中實(shí)現(xiàn)。訓(xùn)練數(shù)據(jù)和建議的方法都是開(kāi)源的。?

主要工作與貢獻(xiàn)

4963fc12-28b9-11ed-ba43-dac502259ad0.png ? 1. 本文提出了一個(gè)魯棒且快速的多模態(tài)語(yǔ)義 SLAM 框架,旨在解決復(fù)雜和動(dòng)態(tài)環(huán)境中的 SLAM 問(wèn)題。具體來(lái)說(shuō),將僅幾何聚類和視覺(jué)語(yǔ)義信息相結(jié)合,以減少由于小尺度對(duì)象、遮擋和運(yùn)動(dòng)模糊導(dǎo)致的分割誤差的影響。 2. 本文提出學(xué)習(xí)更強(qiáng)大的對(duì)象特征表示,并將三思機(jī)制部署到主干網(wǎng)絡(luò),從而為基線實(shí)例分割模型帶來(lái)更好的識(shí)別結(jié)果。 3. 對(duì)所提出的方法進(jìn)行了全面的評(píng)估。結(jié)果表明,本文的方法能夠提供可靠的定位和語(yǔ)義密集的地圖

算法流程

4963fc12-28b9-11ed-ba43-dac502259ad0.png ? 499cabc0-28b9-11ed-ba43-dac502259ad0.png 圖 2 是框架的概述。它主要由四個(gè)模塊組成,分別是實(shí)例分割模塊、多模態(tài)融合模塊、定位模塊和全局優(yōu)化與映射模塊。 1.實(shí)例分割和語(yǔ)義學(xué)習(xí) 使用2D實(shí)例分割網(wǎng)絡(luò),一張圖像的實(shí)例分割結(jié)果: 49b12a50-28b9-11ed-ba43-dac502259ad0.png C代表類別,M是物體的掩碼信息,n代表當(dāng)前圖像中存在物體數(shù)量。 圖像在空間上被分成 N × N 個(gè)網(wǎng)格單元。如果一個(gè)對(duì)象的中心落入一個(gè)網(wǎng)格單元,該網(wǎng)格單元負(fù)責(zé)分別預(yù)測(cè)類別分支Bc和掩碼分支P m 中對(duì)象的語(yǔ)義類別Cij和語(yǔ)義掩碼Mij: 49bfaaee-28b9-11ed-ba43-dac502259ad0.png λ 是類的數(shù)量。φ 是網(wǎng)格單元的總數(shù)。 為了滿足實(shí)時(shí)性的要求:采用SOLOv2 的輕量級(jí)版本,但精度較低,可實(shí)現(xiàn)實(shí)時(shí)實(shí)例分割。 為了提高分割精度:實(shí)施了多種方法來(lái)在骨干網(wǎng)絡(luò)中構(gòu)建更有效和更健壯的特征表示鑒別器。 輸出是每個(gè)動(dòng)態(tài)對(duì)象的像素級(jí)實(shí)例掩碼,以及它們對(duì)應(yīng)的邊界框和類類型。為了更好地將動(dòng)態(tài)信息集成到 SLAM 算法中,輸出二進(jìn)制掩碼被轉(zhuǎn)換為包含場(chǎng)景中所有像素級(jí)實(shí)例掩碼的單個(gè)圖像。蒙版落在其上的像素被認(rèn)為是“動(dòng)態(tài)狀態(tài)”,否則被認(rèn)為是“靜態(tài)”。然后將二進(jìn)制掩碼應(yīng)用于語(yǔ)義融合模塊以生成 3D 動(dòng)態(tài)掩碼。 2.多模態(tài)融合 1.移動(dòng)模糊補(bǔ)償: 目前實(shí)例分割的性能已經(jīng)是不錯(cuò)的,但是移動(dòng)的物體會(huì)出現(xiàn)物體識(shí)別不完整 導(dǎo)致物體的邊界不明確 最終影響定位精度。因此,本文首先實(shí)現(xiàn)形態(tài)膨脹,將 2D 像素級(jí)掩模圖像與結(jié)構(gòu)元素進(jìn)行卷積,以逐漸擴(kuò)展動(dòng)態(tài)對(duì)象的區(qū)域邊界。形態(tài)膨脹結(jié)果標(biāo)志著動(dòng)態(tài)對(duì)象周圍的模糊邊界。我們將動(dòng)態(tài)對(duì)象及其邊界作為動(dòng)態(tài)信息,將在多模態(tài)融合部分進(jìn)一步細(xì)化。 2.幾何聚類和語(yǔ)義融合: 通過(guò)歐幾里得空間的連通性分析進(jìn)行補(bǔ)償也在本文的工作中實(shí)現(xiàn)。實(shí)例分割網(wǎng)絡(luò)在大多數(shù)實(shí)際情況下都具有出色的識(shí)別能力,但是由于區(qū)域之間的模糊像素,運(yùn)動(dòng)模糊限制了分割性能,導(dǎo)致了不希望的分割錯(cuò)誤。因此,將點(diǎn)云聚類結(jié)果和分割結(jié)果結(jié)合起來(lái),以更好地細(xì)化動(dòng)態(tài)對(duì)象。特別是,對(duì)幾何信息進(jìn)行連通性分析,并與基于視覺(jué)的分割結(jié)果合并。 為了提高工作效率,首先將 3D 點(diǎn)云縮小以減少數(shù)據(jù)規(guī)模,并將其用作點(diǎn)云聚類的輸入。然后將實(shí)例分割結(jié)果投影到點(diǎn)云坐標(biāo)上,對(duì)每個(gè)點(diǎn)進(jìn)行標(biāo)注。當(dāng)大多數(shù)點(diǎn)(90%)是動(dòng)態(tài)標(biāo)記點(diǎn)時(shí),點(diǎn)云簇將被視為動(dòng)態(tài)簇。當(dāng)靜態(tài)點(diǎn)靠近動(dòng)態(tài)點(diǎn)簇時(shí),它會(huì)被重新標(biāo)記為動(dòng)態(tài)標(biāo)簽。并且當(dāng)附近沒(méi)有動(dòng)態(tài)點(diǎn)聚類時(shí),動(dòng)態(tài)點(diǎn)將被重新標(biāo)記。 3.定位與位姿估計(jì) 1.特征提?。?/strong> 多模態(tài)動(dòng)態(tài)分割后,點(diǎn)云分為動(dòng)態(tài)點(diǎn)云PD和靜態(tài)點(diǎn)云PS?;谠戎暗墓ぷ?,靜態(tài)點(diǎn)云隨后用于定位和建圖模塊。與現(xiàn)有的 SLAM 方法(如 LOAM )相比,原先之前的工作中提出的框架能夠支持 30 Hz 的實(shí)時(shí)性能,速度要快幾倍。與 ORB-SLAM2和 VINS-MONO 等視覺(jué) SLAM 相比,它還可以抵抗光照變化。對(duì)于每個(gè)靜態(tài)點(diǎn) pk ∈ PS ,可以在歐幾里得空間中通過(guò)半徑搜索來(lái)搜索其附近的靜態(tài)點(diǎn)集 Sk。讓 |S|是集合 S 的基數(shù),因此局部平滑度定義為: 49d33d52-28b9-11ed-ba43-dac502259ad0.png 邊緣特征由 σk 大的點(diǎn)定義,平面特征由 σk 小的點(diǎn)定義。 2.數(shù)據(jù)關(guān)聯(lián): 通過(guò)最小化點(diǎn)到邊緣和點(diǎn)到平面的距離來(lái)計(jì)算最終的機(jī)器人位姿。對(duì)于邊緣特征點(diǎn) pE ∈ PE ,可以通過(guò) p^E = T·pE 將其轉(zhuǎn)換為局部地圖坐標(biāo),其中 T ∈ SE(3) 是當(dāng)前位姿。從局部邊緣特征圖中搜索 2 個(gè)最近的邊緣特征 p 1 E 和 p 2 E,點(diǎn)到邊緣殘差定義: 49e770b0-28b9-11ed-ba43-dac502259ad0.png 類似地,給定一個(gè)平面特征點(diǎn) pL ∈ PL 及其變換點(diǎn) p^L = T·pL,我們可以從局部平面圖中搜索 3 個(gè)最近點(diǎn) 。點(diǎn)到平面殘差定義為: 4a078d28-28b9-11ed-ba43-dac502259ad0.png3.位姿估計(jì): 通過(guò)最小化點(diǎn)到平面和點(diǎn)到邊緣殘差的總和來(lái)計(jì)算最終的機(jī)器人位姿: 4a2eef30-28b9-11ed-ba43-dac502259ad0.png4.特征地圖更新和關(guān)鍵幀選擇: 一旦位姿優(yōu)化解決,特征點(diǎn)將被更新到局部地圖和平面地圖當(dāng)中。這些點(diǎn)將被用于一下幀的數(shù)據(jù)關(guān)聯(lián)。當(dāng)平移或者旋轉(zhuǎn)的值大于閾值時(shí)候,該幀將被選作關(guān)鍵幀。 4.全局地圖構(gòu)建 全局語(yǔ)義地圖由靜態(tài)地圖和動(dòng)態(tài)地圖構(gòu)成。視覺(jué)信息用于構(gòu)建測(cè)色密集靜態(tài)地圖。視覺(jué)信息能夠反投影3D點(diǎn)到圖像平面。為防止內(nèi)存溢出的問(wèn)題采用3d is here: Point cloud library (pcl)。

實(shí)驗(yàn)結(jié)果

4963fc12-28b9-11ed-ba43-dac502259ad0.png ? 1.數(shù)據(jù)獲取 4a60bc7c-28b9-11ed-ba43-dac502259ad0.png 在自動(dòng)駕駛、智能倉(cāng)儲(chǔ)物流等諸多場(chǎng)景中,人往往被視為動(dòng)態(tài)對(duì)象。因此,本文從 COCO 數(shù)據(jù)集中選擇了 5,000 張人體圖像。在實(shí)驗(yàn)中,所提出的方法在倉(cāng)庫(kù)環(huán)境中進(jìn)行評(píng)估,如圖 4 所示。除了將人視為動(dòng)態(tài)對(duì)象之外,先進(jìn)的工廠還需要人與機(jī)器人和機(jī)器人與機(jī)器人之間的協(xié)作,因此自動(dòng)導(dǎo)引車 ( AGV)也是潛在的動(dòng)態(tài)對(duì)象。因此,總共收集了 3,000 張 AGV 圖像來(lái)訓(xùn)練實(shí)例分割網(wǎng)絡(luò),其中一些 AGV 如圖 4 所示。 2.評(píng)估實(shí)例分割性能 評(píng)估 COCO 數(shù)據(jù)集上關(guān)于分割損失和平均精度(mAP)的分割性能。該評(píng)估的目的是將我們采用的實(shí)例分割網(wǎng)絡(luò) SOLOv2 與所提出的方法進(jìn)行比較。結(jié)果如表I所示。 4a9239b4-28b9-11ed-ba43-dac502259ad0.png 分割結(jié)果在圖 3 中進(jìn)一步可視化: 4aa6706e-28b9-11ed-ba43-dac502259ad0.png3. 稠密建圖和動(dòng)態(tài)跟蹤 建圖如 圖5所示,能夠識(shí)別潛在移動(dòng)的物體并且從靜態(tài)地圖中將其分離開(kāi)來(lái)。 4abe60de-28b9-11ed-ba43-dac502259ad0.png 定位結(jié)果 如圖6所示: 4ae70836-28b9-11ed-ba43-dac502259ad0.png 4.定位漂移的消融實(shí)驗(yàn) 4b0780fc-28b9-11ed-ba43-dac502259ad0.png

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2917

    瀏覽量

    108058
  • 應(yīng)用程序
    +關(guān)注

    關(guān)注

    38

    文章

    3296

    瀏覽量

    57944
  • SLAM算法
    +關(guān)注

    關(guān)注

    0

    文章

    11

    瀏覽量

    2554

原文標(biāo)題:復(fù)雜動(dòng)態(tài)環(huán)境的多模態(tài)語(yǔ)義 SLAM(arxiv 2022)

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    體驗(yàn)MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網(wǎng)
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    采用ANSYS的三浮陀螺儀框架模態(tài)分析

    本帖最后由 richthoffen 于 2020-5-14 09:35 編輯 采用ANSYS的三浮陀螺儀框架模態(tài)分析
    發(fā)表于 05-14 09:31

    HOOFR-SLAM的系統(tǒng)框架及其特征提取

    Intelligent Vehicles Applications1. 介紹2. HOOFR-SLAM2.1 系統(tǒng)框架2.2 HOOFR特征提取2.3 映射線程2.3.1 特征匹配1. 介紹提出一種HOOFR-...
    發(fā)表于 12-21 06:35

    模態(tài)生物特征識(shí)別系統(tǒng)框架

    針對(duì)模態(tài)生物特征識(shí)別系統(tǒng)并行融合模式中使用方便性和使用效率方面的問(wèn)題,在現(xiàn)有序列化模態(tài)生物特征識(shí)別系統(tǒng)的基礎(chǔ)上,提出了一種結(jié)合并行融合和序列化融合的
    發(fā)表于 01-02 18:47 ?0次下載
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>生物特征識(shí)別系統(tǒng)<b class='flag-5'>框架</b>

    高仙SLAM具體的技術(shù)是什么?SLAM2.0有哪些優(yōu)勢(shì)?

    高仙的SLAM2.0技術(shù)體系核心,是基于傳感器融合+深度學(xué)習(xí)的架構(gòu),即語(yǔ)義SLAM。高仙SLAM2.0技術(shù)方案以
    的頭像 發(fā)表于 05-15 16:48 ?9097次閱讀

    基于語(yǔ)義耦合相關(guān)的判別式跨模態(tài)哈希特征表示學(xué)習(xí)算法

    基于哈希的跨模態(tài)檢索以其存儲(chǔ)消耗低、査詢速度快等優(yōu)點(diǎn)受到廣泛的關(guān)注???b class='flag-5'>模態(tài)哈希學(xué)習(xí)的核心問(wèn)題是如何對(duì)不同模態(tài)數(shù)據(jù)進(jìn)行有效地共享語(yǔ)義空間嵌入學(xué)習(xí)。大多數(shù)算法在對(duì)
    發(fā)表于 03-31 11:28 ?12次下載
    基于<b class='flag-5'>語(yǔ)義</b>耦合相關(guān)的判別式跨<b class='flag-5'>模態(tài)</b>哈希特征表示學(xué)習(xí)算法

    基于語(yǔ)義耦合相關(guān)的判別式跨模態(tài)哈希學(xué)習(xí)算法

    基于語(yǔ)義耦合相關(guān)的判別式跨模態(tài)哈希學(xué)習(xí)算法
    發(fā)表于 06-07 16:36 ?7次下載

    自動(dòng)駕駛深度模態(tài)目標(biāo)檢測(cè)和語(yǔ)義分割:數(shù)據(jù)集、方法和挑戰(zhàn)

    了許多解決深度模態(tài)感知問(wèn)題的方法。 然而,對(duì)于網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì),并沒(méi)有通用的指導(dǎo)方針,關(guān)于“融合什么”、“何時(shí)融合”和“如何融合”的問(wèn)題仍然沒(méi)有定論。本文系統(tǒng)地總結(jié)了自動(dòng)駕駛 中深度模態(tài)
    發(fā)表于 06-06 10:37 ?0次下載
    自動(dòng)駕駛深度<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>目標(biāo)檢測(cè)和<b class='flag-5'>語(yǔ)義</b>分割:數(shù)據(jù)集、方法和挑戰(zhàn)

    TRO新文:用于數(shù)據(jù)關(guān)聯(lián)、建圖和高級(jí)任務(wù)的對(duì)象級(jí)SLAM框架

    總的來(lái)說(shuō),框架實(shí)現(xiàn)穩(wěn)健的數(shù)據(jù)關(guān)聯(lián)、精確的物體參數(shù)化以及基于語(yǔ)義對(duì)象地圖的高層應(yīng)用,解決了對(duì)象SLAM涉及的主要挑戰(zhàn)。語(yǔ)義對(duì)象地圖能為機(jī)器人抓取、導(dǎo)航、規(guī)劃等復(fù)雜任務(wù)提供必要信息,有助于
    的頭像 發(fā)表于 07-14 16:49 ?784次閱讀
    TRO新文:用于數(shù)據(jù)關(guān)聯(lián)、建圖和高級(jí)任務(wù)的對(duì)象級(jí)<b class='flag-5'>SLAM</b><b class='flag-5'>框架</b>

    中科大&amp;字節(jié)提出UniDoc:統(tǒng)一的面向文字場(chǎng)景的模態(tài)大模型

    如上圖所示,UniDoc基于預(yù)訓(xùn)練的視覺(jué)大模型及大語(yǔ)言模型,將文字的檢測(cè)、識(shí)別、spotting(圖中未畫出)、模態(tài)理解等四個(gè)任務(wù),通過(guò)多模態(tài)指令微調(diào)的方式,統(tǒng)一到一個(gè)框架中。具體地
    的頭像 發(fā)表于 08-31 15:29 ?1637次閱讀
    中科大&amp;字節(jié)提出UniDoc:統(tǒng)一的面向文字場(chǎng)景的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型

    DreamLLM:多功能模態(tài)大型語(yǔ)言模型,你的DreamLLM~

    由于固有的模態(tài)缺口,如CLIP語(yǔ)義主要關(guān)注模態(tài)共享信息,往往忽略了可以增強(qiáng)多模態(tài)理解的模態(tài)特定知識(shí)。因此,這些研究并沒(méi)有充分認(rèn)識(shí)到
    的頭像 發(fā)表于 09-25 17:26 ?828次閱讀
    DreamLLM:多功能<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大型語(yǔ)言模型,你的DreamLLM~

    用語(yǔ)言對(duì)齊模態(tài)信息,北大騰訊等提出LanguageBind,刷新多個(gè)榜單

    目前的 VL 預(yù)訓(xùn)練方法通常僅適用于視覺(jué)和語(yǔ)言模態(tài),而現(xiàn)實(shí)世界中的應(yīng)用場(chǎng)景往往包含更多的模態(tài)信息,如深度圖、熱圖像等。如何整合和分析不同模態(tài)的信息,并且能夠在多個(gè)模態(tài)之間建立準(zhǔn)確的
    的頭像 發(fā)表于 11-23 15:46 ?773次閱讀
    用語(yǔ)言對(duì)齊<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>信息,北大騰訊等提出LanguageBind,刷新多個(gè)榜單

    OneLLM:對(duì)齊所有模態(tài)框架!

    OneLLM 是第一個(gè)在單個(gè)模型中集成八種不同模態(tài)的MLLM。通過(guò)統(tǒng)一的框架和漸進(jìn)式模態(tài)對(duì)齊pipelines,可以很容易地?cái)U(kuò)展OneLLM以包含更多數(shù)據(jù)模式。
    的頭像 發(fā)表于 01-04 11:27 ?1073次閱讀
    OneLLM:對(duì)齊所有<b class='flag-5'>模態(tài)</b>的<b class='flag-5'>框架</b>!

    利用VLM和MLLMs實(shí)現(xiàn)SLAM語(yǔ)義增強(qiáng)

    (VLM)和模態(tài)大語(yǔ)言模型(MLLMs)來(lái)強(qiáng)化此類環(huán)境中的對(duì)象級(jí)語(yǔ)義映射。 ? 文章: Learning from Feedback: Semantic Enhancement for Object
    的頭像 發(fā)表于 12-05 10:00 ?305次閱讀
    利用VLM和MLLMs實(shí)現(xiàn)<b class='flag-5'>SLAM</b><b class='flag-5'>語(yǔ)義</b>增強(qiáng)

    字節(jié)跳動(dòng)發(fā)布OmniHuman 模態(tài)框架

    2 月 6 日消息,字節(jié)跳動(dòng)近日發(fā)布了一項(xiàng)重大成果 ——OmniHuman 模態(tài)框架,其優(yōu)勢(shì)在于其強(qiáng)大的視頻生成能力。用戶只需提供一張任意尺寸和人物占比的單張圖片,再結(jié)合一段輸入音頻,就能生成
    的頭像 發(fā)表于 02-07 17:50 ?364次閱讀