欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種通過視圖合成增強預訓練的2D擴散模型的可擴展技術(shù)

3D視覺工坊 ? 來源:3DCV ? 2023-12-14 10:00 ? 次閱讀

1、導讀

現(xiàn)有的3D物體檢測方法通常需要使用完全注釋的數(shù)據(jù)進行訓練,而使用預訓練的語義特征可以帶來一些優(yōu)勢。然而,目前還沒有利用擴散特征進行3D感知任務的研究。因此,我們提出了一種新的框架,通過視圖合成任務來增強預訓練的2D擴散模型的3D感知能力。該方法利用已知相對姿態(tài)的圖像對進行訓練,并通過擴散過程生成目標輸出。此外,文章還介紹了如何將這些增強的特征用于3D物體檢測,并通過引入輔助網(wǎng)絡(luò)來保持特征質(zhì)量。最后,文章通過實驗證明了該方法在點對應和3D檢測性能上的優(yōu)越性。

2、研究內(nèi)容

一種名為3DiffTection的新框架,該框架利用預訓練的2D擴散模型來進行3D物體檢測任務。該方法通過視圖合成任務,將2D擴散特征增強為具有3D感知能力的特征。作者利用已知相對姿態(tài)的圖像對進行特征提取和特征擴散過程,從而生成目標輸出。文章還介紹了如何將這些增強的特征用于3D物體檢測,并通過引入輔助控制網(wǎng)絡(luò)來進一步適應目標任務和數(shù)據(jù)集。最后,作者通過多個合成視圖生成檢測提議,并通過非極大值抑制(NMS)來整合這些提議,從而提高檢測性能。

3、貢獻

介紹了一種通過視圖合成增強預訓練的2D擴散模型的可擴展技術(shù),使其具有3D感知能力;

將這些特征適應于3D檢測任務和目標領(lǐng)域;

利用視圖合成能力通過集成預測進一步提高檢測性能。

4、方法

e774878a-9a0c-11ee-8b88-92fbcf53809c.png

3DiffTection:它可以在3D物體檢測任務中利用預訓練的2D擴散模型。該方法的關(guān)鍵在于設(shè)計了一個視圖合成任務,通過使用極線幾何將源圖像中的殘差特征進行變形,從而增強了2D擴散特征的3D感知能力。通過去噪擴散過程,這些變形的特征有助于生成目標輸出。我們的方法利用了具有已知相對姿態(tài)的圖像對,這些圖像對通??梢詮?a target="_blank">視頻數(shù)據(jù)中輕松獲取。鑒于視頻數(shù)據(jù)的不斷增加,這使得我們的表示精煉解決方案具有高度的可擴展性。

4.1、2D擴散模型特征提取

在3DiffTection中,我們使用預訓練的2D擴散模型作為特征提取器。擴散模型已經(jīng)在圖像分割等密集感知任務中展現(xiàn)出了強大的性能。我們利用這些模型學習到的語義特征,并通過視圖合成任務增強這些特征的3D感知能力。通過提取源圖像的殘差特征,并利用極線幾何將其映射到目標視圖,我們能夠生成目標輸出。這樣,我們就能夠?qū)㈩A訓練的2D擴散模型的特征轉(zhuǎn)化為具有3D感知能力的特征。這種方法使得我們的模型能夠更好地理解圖像中的3D結(jié)構(gòu),并在3D目標檢測任務中取得更好的性能。

4.2、3D感知融入擴散特征

e785a718-9a0c-11ee-8b88-92fbcf53809c.png

如何將3D感知融入擴散特征。具體而言,作者通過訓練一個視圖合成任務來增強預訓練的2D擴散模型的3D感知能力。這個任務的關(guān)鍵是從源圖像中提取殘差特征,并使用極線幾何將它們映射到目標視圖上。通過這種映射,可以通過去噪擴散過程生成目標輸出。這些經(jīng)過映射的特征有助于增強模型對目標的生成能力。這種方法利用了具有已知相對姿態(tài)的圖像對,這些圖像對通??梢詮囊曨l數(shù)據(jù)中輕松獲取。我們接下來利用這些增強的3D特征進行3D檢測,通過在3D框注釋下訓練一個標準的檢測頭。雖然我們的模型的基線性能已經(jīng)顯示出對現(xiàn)有方法的改進,但我們的目標是進一步將訓練好的特征適應目標任務和數(shù)據(jù)集,這可能與用于視圖合成預訓練的數(shù)據(jù)不同。

由于訓練數(shù)據(jù)有限,直接微調(diào)模型來彌合任務和領(lǐng)域差距可能會導致性能下降。為了解決這個問題,作者引入了一個輔助的ControlNet,它有助于保持特征的質(zhì)量。這個過程還保留了模型的視圖合成能力。在測試時,我們通過從多個合成視圖生成檢測提議,并通過非極大值抑制(NMS)來合并這些提議,從而充分利用幾何和語義能力。

5、實驗結(jié)果

本研究采用了兩種實驗方法來評估提出的3DiffTection框架的性能。

第一種實驗方法是在Omni3D-ARKitscene數(shù)據(jù)集上進行的。首先,使用預訓練的2D擴散模型進行視圖合成,以增強2D特征的3D感知能力。然后,使用訓練好的3D檢測頭在3D邊界框監(jiān)督下對特征進行3D檢測。為了進一步適應目標任務和數(shù)據(jù)集,引入了一個輔助的控制網(wǎng)絡(luò)來維持特征質(zhì)量。最后,通過生成多個合成視圖的檢測提議,并通過非最大抑制(NMS)進行整合,來進行3D檢測。實驗結(jié)果表明,與現(xiàn)有方法相比,3DiffTection在Omni3D-ARKitscene數(shù)據(jù)集上取得了顯著的改進。

第二種實驗方法是在跨數(shù)據(jù)集上進行的。首先,在Omni3D-ARKitscene數(shù)據(jù)集上訓練了具有幾何控制網(wǎng)絡(luò)的3DiffTection模型,并僅在跨域數(shù)據(jù)集上訓練了3D檢測頭。然后,將3DiffTection與CubeRCNN進行比較。實驗結(jié)果顯示,即使在目標域中沒有對幾何控制網(wǎng)絡(luò)進行訓練,3DiffTection仍然能夠超越完全微調(diào)的CubeRCNN。

e79138d0-9a0c-11ee-8b88-92fbcf53809c.pnge79c73ee-9a0c-11ee-8b88-92fbcf53809c.pnge7a87068-9a0c-11ee-8b88-92fbcf53809c.pnge7b444ec-9a0c-11ee-8b88-92fbcf53809c.pnge7c220da-9a0c-11ee-8b88-92fbcf53809c.png

6、創(chuàng)新性

主要體現(xiàn)在以下幾個方面:

引入了幾何感知的穩(wěn)定擴散特征:本研究通過在穩(wěn)定擴散特征中引入幾何感知,提高了3D目標檢測的性能。通過訓練幾何控制網(wǎng)絡(luò),將相機姿態(tài)信息與擴散特征結(jié)合起來,實現(xiàn)了對3D空間的感知。這種幾何感知的穩(wěn)定擴散特征在目標檢測任務中表現(xiàn)出更好的性能。

提出了基于視圖合成的訓練方法:本研究利用視圖合成技術(shù),通過生成新的視圖來增強模型的泛化能力。通過訓練模型生成與輸入圖像不同視角的合成圖像,使得模型能夠?qū)W習到更多的視角信息,從而提高了模型在不同數(shù)據(jù)集上的性能。

結(jié)合語義控制網(wǎng)絡(luò)進行聯(lián)合訓練:本研究還引入了語義控制網(wǎng)絡(luò),通過與3D檢測頭部聯(lián)合訓練,進一步提高了2D和3D檢測的性能。語義控制網(wǎng)絡(luò)能夠適應感知任務,并優(yōu)化特征的使用,從而提高檢測的準確性。

7、總結(jié)

我們提出了一種名為3DiffTection的新框架,該框架利用預訓練的2D擴散模型增強了3D物體檢測任務的性能。作者通過視圖合成任務,將源圖像中的殘差特征提取出來,并利用極線幾何將其變形到目標視圖中,從而增強了2D擴散特征的3D感知能力。作者還通過訓練一個標準的檢測頭來利用這些增強的特征進行3D檢測。實驗證明,這種方法在點對應和物體檢測性能上都優(yōu)于基準模型。此外,作者還介紹了一個輔助的控制網(wǎng)絡(luò),用于保持特征質(zhì)量,并通過生成多個合成視圖的檢測提案來進一步提高檢測性能。總體而言,作者的方法在3D物體檢測任務中取得了顯著的改進,并展示了其在不同數(shù)據(jù)集上的泛化能力。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NMS
    NMS
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    6062
  • 控制網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    0

    文章

    27

    瀏覽量

    9631

原文標題:英偉達最新發(fā)布!超越其它所有SOTA的3D目標檢測

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    文詳解知識增強的語言訓練模型

    ,在實際應用場景中效果不好。為了解決這個問題,將知識注入到PLMs中已經(jīng)成為個非?;钴S的研究領(lǐng)域。本次分享將介紹三篇知識增強訓練語言模型
    的頭像 發(fā)表于 04-02 17:21 ?9741次閱讀

    【大語言模型:原理與工程實踐】大語言模型訓練

    數(shù)據(jù)格式的轉(zhuǎn)換、數(shù)據(jù)字段的匹配和整合等。通過數(shù)據(jù)級凈化,可以進步提高數(shù)據(jù)的質(zhì)量和可用性,為后續(xù)的數(shù)據(jù)分析和建模提供更有價值的數(shù)據(jù)支持。 在得到了大語言模型的數(shù)據(jù)之后,就是對其進行
    發(fā)表于 05-07 17:10

    探索一種降低ViT模型訓練成本的方法

    其上的實驗來評估性能,當每次實驗的訓練成本過高時,這不是一種擴展的方法。通過降低訓練成本,縮短
    發(fā)表于 11-24 14:56

    為什么要使用訓練模型?8優(yōu)秀訓練模型大盤點

    正如我們在本文中所述,ULMFiT使用新穎的NLP技術(shù)取得了令人矚目的成果。該方法對訓練語言模型進行微調(diào),將其在WikiText-103數(shù)據(jù)集(維基百科的長期依賴語言建模數(shù)據(jù)集Wik
    的頭像 發(fā)表于 04-04 11:26 ?2.4w次閱讀
    為什么要使用<b class='flag-5'>預</b><b class='flag-5'>訓練</b><b class='flag-5'>模型</b>?8<b class='flag-5'>種</b>優(yōu)秀<b class='flag-5'>預</b><b class='flag-5'>訓練</b><b class='flag-5'>模型</b>大盤點

    一種脫離訓練的多尺度目標檢測網(wǎng)絡(luò)模型

    為提高卷積神經(jīng)網(wǎng)絡(luò)目標檢測模型精度并增強檢測器對小目標的檢測能力,提出一種脫離訓練的多尺度目標檢測網(wǎng)絡(luò)
    發(fā)表于 04-02 11:35 ?26次下載
    <b class='flag-5'>一種</b>脫離<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的多尺度目標檢測網(wǎng)絡(luò)<b class='flag-5'>模型</b>

    一種側(cè)重于學習情感特征的訓練方法

    transformers編碼表示)的基礎(chǔ)上,提岀了一種側(cè)重學習情感特征的訓練方法。在目標領(lǐng)域的練階段,利用情感詞典改進了BERT的
    發(fā)表于 04-13 11:40 ?4次下載
    <b class='flag-5'>一種</b>側(cè)重于學習情感特征的<b class='flag-5'>預</b><b class='flag-5'>訓練</b>方法

    HarmonyOS測試技術(shù)與實戰(zhàn)-2D負載模型

    HDC 2021華為開發(fā)者大會 HarmonyOS測試技術(shù)與實戰(zhàn)-2D負載模型
    的頭像 發(fā)表于 10-23 15:19 ?1250次閱讀
    HarmonyOS測試<b class='flag-5'>技術(shù)</b>與實戰(zhàn)-<b class='flag-5'>2D</b>負載<b class='flag-5'>模型</b>

    如何實現(xiàn)更綠色、經(jīng)濟的NLP訓練模型遷移

    NLP中,訓練模型Finetune是一種非常常見的解決問題的范式。利用在海量文本上訓練得到
    的頭像 發(fā)表于 03-21 15:33 ?2268次閱讀

    一種基于亂序語言模型訓練模型-PERT

    由于亂序語言模型不使用[MASK]標記,減輕了訓練任務與微調(diào)任務之間的gap,并由于預測空間大小為輸入序列長度,使得計算效率高于掩碼語言模型。PERT
    的頭像 發(fā)表于 05-10 15:01 ?1604次閱讀

    利用視覺語言模型對檢測器進行訓練

    ,到使用合成數(shù)據(jù)直接訓練檢測器再在真實數(shù)據(jù)上Finetune,再到通過定義
    的頭像 發(fā)表于 08-08 15:33 ?1471次閱讀

    什么是訓練 AI 模型

    該向孩子展示這種生物的圖像并描述其獨有特征。 那么,如果要教臺人工智能(AI)機器什么是獨角獸,該從什么地方做起呢? 訓練 AI 模型提供了解決方案。
    的頭像 發(fā)表于 04-04 01:45 ?1548次閱讀

    2D Transformer 可以幫助3D表示學習嗎?

    訓練2D圖像或語言Transformer:作為基礎(chǔ)Transformer模型,具有豐富的特征表示能力。作者選擇了先進的2D Transf
    的頭像 發(fā)表于 07-03 10:59 ?880次閱讀
    <b class='flag-5'>2D</b> Transformer 可以幫助3<b class='flag-5'>D</b>表示學習嗎?

    介紹一種使用2D材料進行3D集成的新方法

    美國賓夕法尼亞州立大學的研究人員展示了一種使用2D材料進行3D集成的新穎方法。
    的頭像 發(fā)表于 01-13 11:37 ?1151次閱讀

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領(lǐng)域中的個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)等領(lǐng)域中得到了廣泛應用。
    的頭像 發(fā)表于 07-03 18:20 ?3210次閱讀

    大語言模型訓練

    能力,逐漸成為NLP領(lǐng)域的研究熱點。大語言模型訓練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標簽數(shù)據(jù)上進行
    的頭像 發(fā)表于 07-11 10:11 ?553次閱讀