視覺感知算法的核心在于精準(zhǔn)實(shí)時(shí)地感知周圍環(huán)境,以便下游更好地進(jìn)行決策規(guī)劃,而目標(biāo)檢測(cè)任務(wù)就是視覺感知的基礎(chǔ)。不僅在自動(dòng)駕駛領(lǐng)域,在機(jī)器人導(dǎo)航、工業(yè)檢測(cè)、視頻監(jiān)控等領(lǐng)域,目標(biāo)檢測(cè)都有著廣泛應(yīng)用,也是近年來理論研究的熱點(diǎn)。作為計(jì)算機(jī)視覺中的基礎(chǔ)算法,目標(biāo)檢測(cè)對(duì)后續(xù)的人臉識(shí)別、目標(biāo)跟蹤、實(shí)例分割等任務(wù)都起著至關(guān)重要的作用。
基于深度學(xué)習(xí)的卷積學(xué)習(xí)網(wǎng)絡(luò)(CNN)在目標(biāo)檢測(cè)任務(wù)上取得了優(yōu)越的性能,例如FasterRCNN、YOLO系列、CenterNet等等,也在實(shí)際應(yīng)用中實(shí)現(xiàn)了成功部署和使用。自Transformer在2017年被提出之后,無論是自然語(yǔ)言處理領(lǐng)域,還是計(jì)算機(jī)視覺 (CV)、強(qiáng)化學(xué)習(xí) (RL)、生成對(duì)抗網(wǎng)絡(luò) (GAN)、語(yǔ)音處理甚至是生物學(xué)領(lǐng)域,Transformer都大放異彩。而在目標(biāo)檢測(cè)領(lǐng)域中,視覺Transformer不僅可以實(shí)現(xiàn)2D檢測(cè)、3D檢測(cè),還可以實(shí)現(xiàn)多模態(tài)檢測(cè),BEV視角下的檢測(cè),性能也非常出色。 因此,掌握Transformer相關(guān)知識(shí)和工程基礎(chǔ)成為了企業(yè)招聘算法工程師的一個(gè)技能要求點(diǎn),也是簡(jiǎn)歷上的一個(gè)加分項(xiàng)。
然而,想要掌握基于Transformer的目標(biāo)檢測(cè)算法,有以下3個(gè)難點(diǎn):
理解Transformer背后的理論基礎(chǔ),比如自注意力機(jī)制(self-attention), 位置編碼(positional embedding),目標(biāo)查詢(object query)等等,網(wǎng)上的資料比較雜亂,不夠系統(tǒng),難以通過自學(xué)做到深入理解并融會(huì)貫通。
掌握基于Transformer的目標(biāo)檢測(cè)算法的思路和創(chuàng)新點(diǎn),一些Transformer論文涉及的新概念比較多,話術(shù)沒有那么通俗易懂,讀完論文仍然不理解算法的細(xì)節(jié)部分。
Transformer代碼不易看懂,因?yàn)樽饔脵C(jī)制與CNN有不少差別,所以完全理解代碼并實(shí)踐應(yīng)用需要花費(fèi)很大功夫。
那么如何學(xué)習(xí)基于Tansformer的目標(biāo)檢測(cè)算法呢?
課程「目標(biāo)檢測(cè)中的視覺Transformer」正是幫助各位同學(xué)解決以上這些難點(diǎn),不僅為大家詳細(xì)講解視覺Transformer的基礎(chǔ)知識(shí),還有各種經(jīng)典的基于Transformer的目標(biāo)檢測(cè)算法,還配有代碼解讀和實(shí)踐課程,讓大家真正活學(xué)活用,理解和掌握這些知識(shí)理論。
實(shí)踐部分
-
自動(dòng)駕駛
+關(guān)注
關(guān)注
785文章
13948瀏覽量
167126 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5519瀏覽量
121614 -
Transformer
+關(guān)注
關(guān)注
0文章
146瀏覽量
6058
原文標(biāo)題:如何入門面向自動(dòng)駕駛領(lǐng)域的視覺Transformer?
文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論