欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ICCV 2023 | 面向視覺-語言導(dǎo)航的實(shí)體-標(biāo)志物對齊自適應(yīng)預(yù)訓(xùn)練方法

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-10-23 09:40 ? 次閱讀

本文是 ICCV 2023 入選 Oral 論文 Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation 的解讀。本論文是某智能人機(jī)交互團(tuán)隊(duì)在視覺-語言導(dǎo)航(Vision-and-Language Navigation, VLN)領(lǐng)域的最新工作。該工作構(gòu)建了 VLN 中首個(gè)帶有高質(zhì)量實(shí)體-標(biāo)志物對齊標(biāo)注的數(shù)據(jù)集,并提出實(shí)體-標(biāo)志物對齊的自適應(yīng)預(yù)訓(xùn)練方法,從而顯著提高了智能體的導(dǎo)航性能。

ICCV 是“計(jì)算機(jī)視覺三大頂級(jí)會(huì)議”之一,ICCV 2023 于今年 10 月 2 日至 6 日在法國巴黎舉行,本屆會(huì)議共收到全球 8260 篇論文投稿,2161 篇被接收,接收率為 26.16%,其中 152 篇論文被選為口頭報(bào)告展示(Oral Presentation),Oral 接收率僅為 1.8%。

wKgZomU10DKADan6AAHijJ9FR38163.png

論文題目:

Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation

論文地址:

https://arxiv.org/abs/2308.12587

開源數(shù)據(jù)集:

https://pan.baidu.com/s/12WTzZ05T8Uxy85znn28dfQ?pwd=64t7

代碼地址:

https://github.com/csir1996/vln-gela

wKgZomU10DKAfgAhAAAl6LOgh3c680.png

引言

視覺-語言導(dǎo)航(Vision-and-Language Navigation, VLN)任務(wù)旨在構(gòu)建一種能夠用自然語言與人類交流并在真實(shí) 3D 環(huán)境中自主導(dǎo)航的具身智能體。自提出以來,VLN 越來越受到計(jì)算機(jī)視覺、自然語言處理和機(jī)器人等領(lǐng)域的廣泛關(guān)注。 如圖 1 所示,將自然語言指令中提過的標(biāo)志物(物體或者場景)對應(yīng)到環(huán)境中能夠極大的幫助智能體理解環(huán)境和指令,由此跨模態(tài)對齊是 VLN 中的關(guān)鍵步驟。然而,大多數(shù)可用的數(shù)據(jù)集只能提供粗粒度的文本-圖像對齊信號(hào),比如整條指令與整條軌跡的對應(yīng)或者子指令與子路徑之間的對應(yīng),而跨模態(tài)對齊監(jiān)督也都停留在句子級(jí)別(sentence-level)。因此,VLN 需要更細(xì)粒度(entity-level)的跨模態(tài)對齊數(shù)據(jù)和監(jiān)督方法以促進(jìn)智能體更準(zhǔn)確地導(dǎo)航。

為解決以上問題,我們提出了一種面向 VLN 的實(shí)體-標(biāo)志物自適應(yīng)預(yù)訓(xùn)練方法,主要工作與貢獻(xiàn)如下:

1. 我們基于 Room-to-Room(R2R)數(shù)據(jù)集 [1] 標(biāo)注實(shí)體-標(biāo)志物對齊,構(gòu)建了第一個(gè)帶有高質(zhì)量實(shí)體-標(biāo)志物對齊標(biāo)注的 VLN 數(shù)據(jù)集,命名為 GEL-R2R;

2. 我們提出一種實(shí)體-標(biāo)志物自適應(yīng)預(yù)訓(xùn)練 (Grounded Entity-Landmark Adaptive,GELA) 方法,利用 GEL-R2R 數(shù)據(jù)集顯式監(jiān)督 VLN 模型學(xué)習(xí)實(shí)體名詞和環(huán)境標(biāo)志物之間的細(xì)粒度跨模態(tài)對齊;

3. 我們構(gòu)建的 GELA 模型在兩個(gè) VLN 下游任務(wù)上取得了最佳的導(dǎo)航性能,證明了我們數(shù)據(jù)集和方法的有效性和泛化性。 wKgZomU10DKAHMgwAAy1Xi4UNy4383.png▲圖1. 具身智能體在3D真實(shí)環(huán)境中的導(dǎo)航示例 wKgZomU10DOARN_dAAAuhh9-KLM163.png

GEL-R2R數(shù)據(jù)集

為了建立指令中實(shí)體短語與其周圍環(huán)境中相應(yīng)標(biāo)志物之間的對齊,我們在 R2R 數(shù)據(jù)集的基礎(chǔ)上進(jìn)行了實(shí)體-標(biāo)志物對齊的人工標(biāo)注,整個(gè)流程包括五個(gè)階段:

1. 原始數(shù)據(jù)準(zhǔn)備。我們從 Matterport3D 模擬器中采集每個(gè)可導(dǎo)航點(diǎn)的全景圖。為了提高標(biāo)注的效率和準(zhǔn)確性,我們在全景圖中標(biāo)注下一個(gè)動(dòng)作方向,并根據(jù) FG-R2R 數(shù)據(jù)集 [2] 將每個(gè)全景圖與相應(yīng)的子指令進(jìn)行對應(yīng);

2. 標(biāo)注工具開發(fā)。我們基于 Label-Studio 開發(fā)了一個(gè)跨模態(tài)標(biāo)注平臺(tái),如圖 2 所示;

3. 標(biāo)注指南建立。為確保標(biāo)注的一致性,我們經(jīng)過預(yù)標(biāo)注之后建立了四個(gè)準(zhǔn)則來標(biāo)準(zhǔn)化標(biāo)注指南:

  • 對齊準(zhǔn)則:指令中的實(shí)體短語應(yīng)與全景圖中的標(biāo)志物準(zhǔn)確匹配

  • 自由文本準(zhǔn)則:標(biāo)注自由文本而不是類別

  • 文本共指準(zhǔn)則:指代相同標(biāo)志物的實(shí)體短語用相同的標(biāo)簽標(biāo)注

  • 唯一標(biāo)志物準(zhǔn)則:對于一個(gè)實(shí)體短語,在全景圖中只應(yīng)標(biāo)注一個(gè)對應(yīng)的標(biāo)志物

4. 數(shù)據(jù)標(biāo)注與修訂;

5. 數(shù)據(jù)整合與處理。

wKgZomU10DOAbfPKAAh8T1fXP9Q036.png

▲圖2. GEL-R2R數(shù)據(jù)集標(biāo)注界面如圖 3 所示,GEL-R2R 數(shù)據(jù)集共包含:71467 個(gè)實(shí)體短語,其中訓(xùn)練集 57788 個(gè),已見環(huán)境驗(yàn)證集 4196 個(gè),未見環(huán)境驗(yàn)證集 9483 個(gè);150183 個(gè)標(biāo)志物,其中訓(xùn)練集 121146 個(gè),已見環(huán)境驗(yàn)證集 8741 個(gè),未見環(huán)境驗(yàn)證集 20296 個(gè)。

wKgZomU10DOAaVXnAAIx1uvi4R8766.png▲圖3. GEL-R2R數(shù)據(jù)集統(tǒng)計(jì)分析 wKgZomU10DOAdwO2AAAtJ0fTuoM459.png

GELA方法

wKgZomU10DOADXdrAARjJLZ30i8478.png圖4. GELA方法概覽

如圖 4 所示,方法流程分為三個(gè)階段:預(yù)訓(xùn)練(pre-training)、自適應(yīng)預(yù)訓(xùn)練(adaptive pre-training)和微調(diào)(fine-tuning)。我們直接在預(yù)訓(xùn)練模型 HAMT [3] 的基礎(chǔ)上進(jìn)行自適應(yīng)預(yù)訓(xùn)練,HAMT 模型由文本編碼器、圖像編碼器、歷史編碼器和跨模態(tài)編碼器構(gòu)成。我們將跨模態(tài)編碼器輸出的文本向量、歷史向量和圖像向量分別記為 Z、Y 和 S。我們設(shè)計(jì)了三種自適應(yīng)預(yù)訓(xùn)練任務(wù):

1. 實(shí)體短語預(yù)測。在這個(gè)任務(wù)中,我們通過標(biāo)注的環(huán)境標(biāo)志物預(yù)測其對應(yīng)的實(shí)體短語在指令中的位置。首先將人工標(biāo)注的實(shí)體位置轉(zhuǎn)化為 L+1 維的掩碼向量 (與 維度相同),并將人工標(biāo)注的標(biāo)志物邊界框轉(zhuǎn)化為 37 維的掩碼向量 (與 維度相同)。然后,我們將標(biāo)志物圖像 patch 的特征平均化,并將其輸入一個(gè)兩層前饋網(wǎng)絡(luò)(Feedforward Network, FFN)中,預(yù)測指令序列中 token 位置的概率分布,用掩碼向量 作監(jiān)督,具體損失函數(shù)為:

wKgZomU10DOAJKS2AAAX-lg11Os006.png

wKgZomU10DSAezOmAAAX-6i6ifg222.png

2. 標(biāo)志物邊界框預(yù)測。在這個(gè)任務(wù)中,我們通過標(biāo)注的實(shí)體名詞預(yù)測其對應(yīng)的標(biāo)志物邊界框坐標(biāo)。首先平均實(shí)體短語 token 的特征向量,然后將其輸入兩層 FFN 和 Sigmoid 函數(shù)預(yù)測坐標(biāo) :

wKgZomU10DSAEijaAAAVifzwXqI883.png

最后,將人工標(biāo)注的 box=(x,y,w,h) 和 box’ 作 smooth-l1 損失和 GIoU 損失:

wKgZomU10DSAahFTAAAUW23ODXc548.png

3. 實(shí)體-標(biāo)志物語義對齊。上述兩個(gè)單向預(yù)測任務(wù)使用位置信息來匹配實(shí)體和標(biāo)志物,而此任務(wù)在跨模態(tài)編碼器輸出端強(qiáng)制對齊相對應(yīng)的標(biāo)志物和實(shí)體的特征向量。這個(gè)任務(wù)的約束比上面兩個(gè)單向預(yù)測任務(wù)更強(qiáng),因?yàn)樗苯幼饔糜诒硎荆皇莾H僅基于位置信息。具體損失函數(shù)如下:

wKgZomU10DSANVDoAAB0Xlwcdgw449.png自適應(yīng)預(yù)訓(xùn)練最終的損失函數(shù)為:

wKgZomU10DSABFrEAAAP7deVISE239.png

經(jīng)過自適應(yīng)預(yù)訓(xùn)練后,我們利用模仿學(xué)習(xí) (Imitation Learning,IL) 和強(qiáng)化學(xué)習(xí) (Reinforcement Learning,RL) 訓(xùn)練策略對 GELA 模型在兩個(gè) VLN 下游任務(wù)(R2R 和 CVDN)上進(jìn)行微調(diào)。IL 監(jiān)督智能體克隆專家的行為,RL 鼓勵(lì)智能體根據(jù)學(xué)習(xí)策略探索軌跡。 wKgZomU10DWAZwyjAAAr2pbNr48702.png ?

實(shí)驗(yàn)結(jié)果

如圖 5 所示,GELA 模型在 R2R 數(shù)據(jù)集上與先前 SOTA 模型的性能進(jìn)行比較。GELA 模型在所有子集上的主要指標(biāo)(SR 和 SPL)均優(yōu)于所有其他模型。具體地,在已知驗(yàn)證集上,GELA 的性能與 HAMT 模型相當(dāng),而在未知驗(yàn)證集和測試集上,GELA 模型分別取得了 5% 、2% (SR) 和 4% 、2% (SPL) 的提高。因此,GELA 模型具有更好的未知環(huán)境泛化能力,這主要是由于 GELA 模型在學(xué)習(xí)實(shí)體-標(biāo)志物對齊后,具有較強(qiáng)的語義特征捕捉能力。 wKgZomU10DWAfcr3AAMjz4D3vq4782.png 圖5. R2R數(shù)據(jù)集上的性能對比 我們同樣在 CVDN 數(shù)據(jù)集上對比了 GELA 模型與先前 SOTA 模型的性能,如圖 6 所示,該數(shù)據(jù)集使用以米為單位的目標(biāo)進(jìn)度 (Goal Progress,GP) 作為關(guān)鍵性能指標(biāo)。結(jié)果表明,GELA 模型在驗(yàn)證集和測試集上的性能都明顯優(yōu)于其他模型。因此,GELA 模型對不同的 VLN 下游任務(wù)具有良好的泛化能力。

wKgZomU10DWAPX-AAADJrBWOOD4487.png圖6. CVDN數(shù)據(jù)集上的性能對比

wKgZomU10DWANcWFAAAC0jQz1zo582.jpg

參考文獻(xiàn)

wKgZomU10DWANcWFAAAC0jQz1zo582.jpg ?

[1] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko S ? underhauf, Ian D. Reid, Stephen Gould, and Anton van den Hengel. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR, pages 3674–3683, 2018.

[2] Yicong Hong, Cristian Rodriguez Opazo, Qi Wu, and Stephen Gould. Sub-instruction aware vision-and-language navigation. In EMNLP, pages 3360–3376, 2020.

[3] Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, and Ivan Laptev. History aware multimodal transformer for vision-and-language navigation. In NeurIPS, pages 58345847, 2021.

·


原文標(biāo)題:ICCV 2023 | 面向視覺-語言導(dǎo)航的實(shí)體-標(biāo)志物對齊自適應(yīng)預(yù)訓(xùn)練方法

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:ICCV 2023 | 面向視覺-語言導(dǎo)航的實(shí)體-標(biāo)志物對齊自適應(yīng)預(yù)訓(xùn)練方法

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    模型展示了強(qiáng)大的泛化能力,能夠?qū)⒃谀M環(huán)境學(xué)到的技能遷移到真實(shí)場景。RT-2的改進(jìn)版本更是引入了視覺-語言預(yù)訓(xùn)練技術(shù),使模型能夠理解更抽象的任務(wù)描述。 第8章通過具體應(yīng)用案例展現(xiàn)了具身
    發(fā)表于 12-24 15:03

    基于視覺語言模型的導(dǎo)航框架VLMnav

    本文提出了一種將視覺語言模型(VLM)轉(zhuǎn)換為端到端導(dǎo)航策略的具體框架。不依賴于感知、規(guī)劃和控制之間的分離,而是使用VLM在一步中直接選擇動(dòng)作。驚訝的是,我們發(fā)現(xiàn)VLM可以作為一種無需任何微調(diào)或
    的頭像 發(fā)表于 11-22 09:42 ?267次閱讀

    ai大模型訓(xùn)練方法有哪些?

    AI大模型訓(xùn)練方法是一個(gè)復(fù)雜且不斷發(fā)展的領(lǐng)域。以下是ai大模型訓(xùn)練方法: 數(shù)據(jù)預(yù)處理和增強(qiáng) 數(shù)據(jù)清洗:去除噪聲和不完整的數(shù)據(jù)。 數(shù)據(jù)標(biāo)準(zhǔn)化:將數(shù)據(jù)縮放到統(tǒng)一的范圍。 數(shù)據(jù)增強(qiáng):通過旋轉(zhuǎn)、縮放、裁剪等
    的頭像 發(fā)表于 07-16 10:11 ?1881次閱讀

    如何在自己的固件中增加wifi自適應(yīng)性相關(guān)功能,以通過wifi自適應(yīng)認(rèn)證測試?

    目前官方提供了自適應(yīng)測試固件 ESP_Adaptivity_v2.0_26M_20160322.bin 用于進(jìn)行 wifi 自適應(yīng)認(rèn)證測試. 請問如何在自己的固件中增加 wifi 自適應(yīng)性相關(guān)功能,以通過 wifi
    發(fā)表于 07-12 08:29

    語言模型的預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型學(xué)習(xí)到語言的通用知識(shí)
    的頭像 發(fā)表于 07-11 10:11 ?549次閱讀

    LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢

    在人工智能和自然語言處理(NLP)領(lǐng)域,大型語言模型(Large Language Model,簡稱LLM)的興起極大地推動(dòng)了技術(shù)的進(jìn)步和應(yīng)用的發(fā)展。LLM通過在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練
    的頭像 發(fā)表于 07-10 11:03 ?1338次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念,尤其是在自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)等領(lǐng)域中得到了廣泛應(yīng)用。
    的頭像 發(fā)表于 07-03 18:20 ?3197次閱讀

    上海大學(xué):研發(fā)電化學(xué)生物傳感器檢測神經(jīng)系統(tǒng)疾病生物標(biāo)志物

    傳感新品 【上海大學(xué):研發(fā)電化學(xué)生物傳感器檢測神經(jīng)系統(tǒng)疾病生物標(biāo)志物】 神經(jīng)絲蛋白輕鏈(NEFL)是神經(jīng)退行性疾病的潛在生物標(biāo)志物,白細(xì)胞介素-6(IL-6)也與神經(jīng)炎癥密切相關(guān)。尤其是NEFL
    的頭像 發(fā)表于 06-28 17:15 ?751次閱讀
    上海大學(xué):研發(fā)電化學(xué)生物傳感器檢測神經(jīng)系統(tǒng)疾病生物<b class='flag-5'>標(biāo)志物</b>

    【大語言模型:原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

    語言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對預(yù)訓(xùn)練數(shù)據(jù)的需求也相
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    語義學(xué)習(xí)的起點(diǎn)是研究如何將詞轉(zhuǎn)化為向量表示,這一直是自然語言處理領(lǐng)域的研究熱點(diǎn)。詞表示方法主要分為三種:詞的獨(dú)熱表示、詞的分布式表示和基于預(yù)訓(xùn)練的詞嵌入表示。 詞的獨(dú)熱表示:構(gòu)建包含
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    的復(fù)雜模式和長距離依賴關(guān)系。 預(yù)訓(xùn)練策略: 預(yù)訓(xùn)練是LLMs訓(xùn)練過程的第一階段,模型在大量的文本數(shù)據(jù)上學(xué)習(xí)
    發(fā)表于 05-05 10:56

    利用液滴納米孔傳感平臺(tái),實(shí)現(xiàn)單分子水平上皮克級(jí)生物標(biāo)志物的靈敏檢測

    生物標(biāo)志物存在于各種新陳代謝過程中,需要在單分子水平上進(jìn)行精確細(xì)致的分析,以進(jìn)行準(zhǔn)確的臨床診斷。
    的頭像 發(fā)表于 04-23 11:38 ?748次閱讀
    利用液滴納米孔傳感平臺(tái),實(shí)現(xiàn)單分子水平上皮克級(jí)生物<b class='flag-5'>標(biāo)志物</b>的靈敏檢測

    基于DNA樹突狀探針的微流控免疫傳感平臺(tái),用于過敏原標(biāo)志物的高靈敏檢測

    過敏原特異性IgE(sIgE)是過敏原篩選和診斷中重要的過敏原標(biāo)志物之一。近年來,食物過敏已成為一個(gè)全球性的健康問題。
    的頭像 發(fā)表于 04-22 14:56 ?728次閱讀
    基于DNA樹突狀探針的微流控免疫傳感平臺(tái),用于過敏原<b class='flag-5'>標(biāo)志物</b>的高靈敏檢測

    什么是自適應(yīng)光學(xué)?自適應(yīng)光學(xué)原理與方法的發(fā)展

    目前,世界上大型的望遠(yuǎn)鏡系統(tǒng)都采用了自適應(yīng)光學(xué)技術(shù),自適應(yīng)光學(xué)的出現(xiàn)為補(bǔ)償動(dòng)態(tài)波前擾動(dòng),提高光波質(zhì)量提供了新的研究方向。 60多年來,自適應(yīng)光學(xué)技術(shù)獲得蓬勃發(fā)展,現(xiàn)已應(yīng)用于天文學(xué)、空間光學(xué)、激光、生物醫(yī)學(xué)等領(lǐng)域。
    發(fā)表于 03-11 10:27 ?2331次閱讀

    谷歌模型訓(xùn)練軟件有哪些功能和作用

    谷歌模型訓(xùn)練軟件主要是指ELECTRA,這是一種新的預(yù)訓(xùn)練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢,而且在效率上更勝一籌。
    的頭像 發(fā)表于 02-29 17:37 ?859次閱讀