視覺(jué)語(yǔ)言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
1什么是視覺(jué)語(yǔ)言模型?
視覺(jué)語(yǔ)言模型是通過(guò)將大語(yǔ)言模型(LLM)與視覺(jué)編碼器相結(jié)合構(gòu)建的多模態(tài) AI 系統(tǒng),使 LLM 具有“看”的能力。
憑借這種能力,VLM 可以處理并提供對(duì)提示中的視頻、圖像和文本輸入的高級(jí)理解,以生成文本響應(yīng)。
圖 1:視覺(jué)語(yǔ)言模型用例
與傳統(tǒng)的計(jì)算機(jī)視覺(jué)模型不同,VLM 不受固定類別集或特定任務(wù)(如分類或檢測(cè))約束。在大量文本和圖像/視頻字幕對(duì)的語(yǔ)料上進(jìn)行重新訓(xùn)練,VLM 可以用自然語(yǔ)言進(jìn)行指導(dǎo),并用于處理許多典型的視覺(jué)任務(wù)以及新的生成式 AI 任務(wù),例如摘要和視覺(jué)問(wèn)答。
2為何視覺(jué)語(yǔ)言模型很重要?
為了理解 VLM 的重要性,了解之前的計(jì)算機(jī)視覺(jué)(CV)模型的工作原理會(huì)很有幫助。傳統(tǒng)的基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的 CV 模型是在有限類別的(數(shù)據(jù))集(合)上針對(duì)特定任務(wù)進(jìn)行訓(xùn)練的。例如:
識(shí)別圖像中是否包含貓或狗的分類模型
讀取圖像中的文本,但不對(duì)文檔的格式或任何視覺(jué)數(shù)據(jù)進(jìn)行解讀的光學(xué)字符檢測(cè)和識(shí)別 CV 模型
以前的 CV 模型是為了特定目的而進(jìn)行訓(xùn)練的,無(wú)法超越其開(kāi)發(fā)和訓(xùn)練的任務(wù)或類別集。如果用例發(fā)生根本變化或需要向模型添加新類別,開(kāi)發(fā)人員則須收集和標(biāo)記大量圖像并重新訓(xùn)練模型。這是一個(gè)昂貴且耗時(shí)的過(guò)程。此外,CV 模型沒(méi)有任何自然語(yǔ)言理解。
VLM 結(jié)合基礎(chǔ)模型(如 CLIP)和 LLM 的功能,擁有視覺(jué)和語(yǔ)言能力,從而帶來(lái)了一類新能力。開(kāi)箱即用,VLM 在各種視覺(jué)任務(wù)(如視覺(jué)問(wèn)答、分類和光學(xué)字符識(shí)別)上具有強(qiáng)大的零樣本性能。它們也非常靈活,不僅可以用于一組固定類別集,而且可以通過(guò)簡(jiǎn)單地更改文本提示用于幾乎任何用例。
使用 VLM 和與 LLM 交互非常類似。用戶提供可以與圖像交錯(cuò)的文本提示。然后根據(jù)輸入來(lái)生成文本輸出。輸入提示是開(kāi)放式的,允許用戶向 VLM 發(fā)出回答問(wèn)題、總結(jié)、解釋內(nèi)容或使用圖像進(jìn)行推理的指令。用戶可以與 VLM 進(jìn)行多輪對(duì)話,并能夠在對(duì)話上下文中添加圖像。VLM 還可以集成到視覺(jué)智能體中,從而自主執(zhí)行視覺(jué)任務(wù)。
3視覺(jué)語(yǔ)言模型如何工作?
大多數(shù) VLM 架構(gòu)由三部分構(gòu)成:
視覺(jué)編碼器
投影器(Projector)
LLM
視覺(jué)編碼器通常是一個(gè)基于 transformer 架構(gòu)的 CLIP 模型,該模型已在數(shù)百萬(wàn)個(gè)圖像-文本對(duì)進(jìn)行了訓(xùn)練,具有圖像與文本的關(guān)聯(lián)能力。投影器(Projector)由一組網(wǎng)絡(luò)層構(gòu)成,將視覺(jué)編碼器的輸出轉(zhuǎn)換為 LLM 可以理解的方式,一般解讀為圖像標(biāo)記(tokens)。投影器(Projector)可以是如 LLLaVA 與 VILA 中的簡(jiǎn)單線性層,或者是如 Llama 3.2 Vision 中使用的交叉注意力層更復(fù)雜的結(jié)構(gòu)。
任何現(xiàn)有的 LLM 都可以用來(lái)構(gòu)建 VLM。有數(shù)百種結(jié)合了各種 LLM 與視覺(jué)編碼器的 VLM 變體。
圖 2:視覺(jué)語(yǔ)言模型的通用三部分架構(gòu)
4如何訓(xùn)練視覺(jué)語(yǔ)言模型?
VLM 的訓(xùn)練分為幾個(gè)階段,包括預(yù)訓(xùn)練,之后是監(jiān)督式微調(diào)?;蛘?,參數(shù)有效微調(diào)(PEFT)也可以作為最后階段在自定義數(shù)據(jù)上構(gòu)建特定領(lǐng)域 VLM(的訓(xùn)練方法)。
預(yù)訓(xùn)練階段將視覺(jué)編碼器(encoder)、投影器(projector)和 LLM 對(duì)齊,使其在解釋文本和圖像輸入時(shí)基本上使用相同的語(yǔ)言。這是使用包含圖像——標(biāo)題對(duì)與交錯(cuò)圖像-文本數(shù)據(jù)的大量文本及圖像語(yǔ)料來(lái)完成的。一旦通過(guò)預(yù)訓(xùn)練將三部分對(duì)齊,VLM 就會(huì)通過(guò)監(jiān)督微調(diào)階段來(lái)幫助了解如何響應(yīng)用戶提示。
這一階段使用的數(shù)據(jù)是示例提示與文本和/或圖像輸入以及模型的預(yù)期響應(yīng)的混合。例如,這些數(shù)據(jù)可以是提示模型描述圖像或統(tǒng)計(jì)該幀內(nèi)所有目標(biāo)數(shù)量,以及預(yù)期正確的響應(yīng)。經(jīng)過(guò)這一輪訓(xùn)練,VLM 將了解如何最好地解讀圖像并響應(yīng)用戶提示。
圖 3:VLM 訓(xùn)練通常針對(duì)模型的特定部分,分幾個(gè)階段完成
VLM 一旦訓(xùn)練完成,可以以與 LLM 相同的方式,即提供提示的方式使用,該提示還可以在文本中穿插圖像。然后,VLM 將根據(jù)輸入生成文本響應(yīng)。VLM 通常使用 OpenAI 風(fēng)格的 REST API 接口進(jìn)行部署,以便于與模型交互。
目前正在研究更先進(jìn)的技術(shù)來(lái)增強(qiáng)視覺(jué)能力:
整合視覺(jué)編碼器來(lái)處理圖像輸入
將高分辨率圖像輸入分割為更小的圖塊進(jìn)行處理
增加上下文長(zhǎng)度,以改善長(zhǎng)視頻理解能力
所有這些進(jìn)展都在提升 VLM 的能力,從僅僅理解單一圖像輸入發(fā)展為能夠比較與對(duì)比圖像、準(zhǔn)確閱讀文本、理解長(zhǎng)視頻并具有強(qiáng)大空間理解能力的高性能模型。
5視覺(jué)語(yǔ)言模型如何進(jìn)行基準(zhǔn)測(cè)試?
目前存在的常見(jiàn)基準(zhǔn)測(cè)試,如 MMMU、Video-MME、MathVista、ChartQA 和 DocVQA,用于確定視覺(jué)語(yǔ)言模型在各種任務(wù)上的表現(xiàn),例如:
視覺(jué)問(wèn)答
邏輯和推理
文檔理解
多圖像比較
視頻理解
大多數(shù)基準(zhǔn)測(cè)試由一組圖像和幾個(gè)相關(guān)問(wèn)題組成,通常以多選題的形式呈現(xiàn)。多選題是一致性基準(zhǔn)測(cè)試和比較 VLM 的最簡(jiǎn)單方法。這些問(wèn)題測(cè)試 VLM 的感知、知識(shí)和推理能力。在運(yùn)行這些基準(zhǔn)測(cè)試時(shí),VLM 會(huì)收到圖像、問(wèn)題以及它必須做出選擇的多選題答案。
圖4:VLMs(視覺(jué)語(yǔ)言類模型)使用 MMMU 基準(zhǔn)測(cè)試的多選題示例
來(lái)源:MMMU
VLM 的準(zhǔn)確度是指一組多選題中做出正確選項(xiàng)的數(shù)量。一些基準(zhǔn)還包括數(shù)字問(wèn)題,其中 VLM 必須執(zhí)行特定的計(jì)算,并且在答案的一定百分比范圍內(nèi)才被視為正確。這些問(wèn)題和圖像通常來(lái)源于學(xué)術(shù)資料,如大學(xué)教材。
6如何使用視覺(jué)語(yǔ)言模型?
VLM 憑借其靈活性和自然語(yǔ)言理解能力,正迅速成為所有視覺(jué)相關(guān)任務(wù)類型的首選工具??梢酝ㄟ^(guò)自然語(yǔ)言輕松指示 VLM 執(zhí)行各種各樣的任務(wù):
視覺(jué)問(wèn)答
圖像和視頻總結(jié)
文本解析和手寫文檔
以前需要大量經(jīng)過(guò)特殊訓(xùn)練的模型的應(yīng)用程序現(xiàn)在只需一個(gè) VLM 即可完成。
VLM 尤其擅長(zhǎng)總結(jié)圖像內(nèi)容,并且可以根據(jù)內(nèi)容提示執(zhí)行特定任務(wù)。以教育用例為例——可以向 VLM 提供一張手寫數(shù)學(xué)問(wèn)題的圖像,它可以使用其光學(xué)字符識(shí)別和推理能力來(lái)解讀該問(wèn)題并生成如何解決問(wèn)題的分步指南。VLM 不僅能夠理解圖像的內(nèi)容,還可進(jìn)行推理并執(zhí)行特定任務(wù)。
圖 5:視頻分析 AI 智能體將視頻和圖像數(shù)據(jù)轉(zhuǎn)換為真實(shí)世界的見(jiàn)解
每天都會(huì)產(chǎn)生大量的視頻,因此審查各行各業(yè)制作的大量視頻并從中提取見(jiàn)解是不可行的。VLM 可以集成到更大的系統(tǒng)中,以構(gòu)建在提示時(shí)具有檢測(cè)特定事件能力的視頻分析 AI 智能體。這些系統(tǒng)可用于檢測(cè)倉(cāng)庫(kù)中發(fā)生故障的機(jī)器人,或在貨架變空時(shí)發(fā)出缺貨警報(bào)。其總體理解超越了單純的檢測(cè),還可以用來(lái)生成自動(dòng)報(bào)告。例如,智能交通系統(tǒng)可以檢測(cè)、分析并生成交通危險(xiǎn)報(bào)告,如倒下的樹(shù)木、停滯的車輛或發(fā)生碰撞。
VLM 可與圖數(shù)據(jù)庫(kù)等技術(shù)一起使用來(lái)理解長(zhǎng)視頻。這有助于其捕捉視頻中復(fù)雜的物體和活動(dòng)。此類系統(tǒng)可用于總結(jié)倉(cāng)庫(kù)中的操作以發(fā)現(xiàn)瓶頸和低效環(huán)節(jié),或?yàn)樽闱?、籃球或足球比賽制作體育解說(shuō)。
7視覺(jué)語(yǔ)言模型面臨哪些挑戰(zhàn)?
視覺(jué)語(yǔ)言模型正在迅速成熟,但它們?nèi)匀淮嬖谝恍┚窒扌?,特別是在空間理解和長(zhǎng)上下文視頻理解方面。
多數(shù) VLM 采用基于 CLIP 的模型作為視覺(jué)編碼器,輸入圖像大小被限制為 224x224 或 336x336。這種較小的輸入圖像導(dǎo)致小物體和細(xì)節(jié)很難被檢測(cè)到。例如,視頻的高清 1080x1920 幀必須壓縮或裁剪為更小的輸入分辨率,導(dǎo)致很難保留小物體或精細(xì)的細(xì)節(jié)。為了解決這個(gè)問(wèn)題,VLM 開(kāi)始使用平鋪方法,將大圖像分解成更小的塊,然后輸入到模型中。目前還在進(jìn)行研究,探索使用更高分辨率的圖像編碼器。
VLM 也難以提供物體的精確位置?;?CLIP 的視覺(jué)編碼器的訓(xùn)練數(shù)據(jù)主要由圖像的簡(jiǎn)短文本描述(如標(biāo)題)組成。這些描述不包括詳細(xì)的、細(xì)粒度的物體位置,這種限制會(huì)影響 CLIP 的空間理解。采用其作為視覺(jué)編碼器的 VLM 繼承了這一限制。新的方法正在探索集成多個(gè)視覺(jué)編碼器來(lái)克服這些限制 2408.15998 (arxiv.org)。
長(zhǎng)視頻理解是一項(xiàng)挑戰(zhàn),因?yàn)樾枰紤]長(zhǎng)達(dá)數(shù)小時(shí)的視頻中的視覺(jué)信息才能正確分析或回答問(wèn)題。與 LLM 一樣,VLM 具有有限的上下文長(zhǎng)度含義——只能涵蓋視頻中的一定數(shù)量的幀來(lái)回答問(wèn)題。目前正在研究增加上下文長(zhǎng)度和在更多基于視頻的數(shù)據(jù)上訓(xùn)練 VLM 的方法,例如 LongVILA 2408.10188(arxiv.org)。
對(duì)于非常具體的用例(例如,在特定產(chǎn)品線中發(fā)現(xiàn)制造缺陷)而言,VLM 可能沒(méi)有看到足夠的數(shù)據(jù)。這些限制可以通過(guò)在特定領(lǐng)域的數(shù)據(jù)上微調(diào) VLM 來(lái)克服,或者使用帶有上下文學(xué)習(xí)的多圖像 VLM 來(lái)提供示例,這些示例可以在不顯式訓(xùn)練模型的情況下傳授模型新的信息。使用 PEFT 對(duì)特定領(lǐng)域數(shù)據(jù)進(jìn)行模型訓(xùn)練是另一種可用于提高 VLM 在自定義數(shù)據(jù)上準(zhǔn)確性的技術(shù)。
8如何開(kāi)始使用視覺(jué)語(yǔ)言模型?
NVIDIA 提供了一些工具來(lái)簡(jiǎn)化視覺(jué)語(yǔ)言模型的構(gòu)建和部署:
NVIDIA NIM:NVIDIA NIM 是一組推理微服務(wù),包括行業(yè)標(biāo)準(zhǔn) API、領(lǐng)域特定代碼、優(yōu)化推理引擎和企業(yè)運(yùn)行時(shí)。點(diǎn)擊此處查看當(dāng)前可用的 VLM NIM。我們創(chuàng)建了 NIM 參考工作流,幫助您快速上手。
NVIDIA AI Blueprint:NVIDIA AI Blueprint 是生成式 AI 用例的參考工作流程,使用 NVIDIA NIM 微服務(wù)構(gòu)建,作為 NVIDIA AI 企業(yè)平臺(tái)的一部分。用于視頻搜索和摘要的 NVIDIA AI Blueprint 可幫助您構(gòu)建和定制交互式視頻分析 AI 智能體,該智能體能夠使用視覺(jué) VLM、LLM 和 RAG 理解大量實(shí)時(shí)或存檔視頻中的活動(dòng)。
9開(kāi)始學(xué)習(xí)
學(xué)習(xí)視頻分析 AI 智能體
視頻分析 AI 智能體可以結(jié)合視覺(jué)和語(yǔ)言模式來(lái)理解自然語(yǔ)言提示并進(jìn)行視覺(jué)回答。
-
編碼器
+關(guān)注
關(guān)注
45文章
3675瀏覽量
135331 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5082瀏覽量
103837 -
AI
+關(guān)注
關(guān)注
87文章
31742瀏覽量
270525 -
模型
+關(guān)注
關(guān)注
1文章
3346瀏覽量
49277
原文標(biāo)題:麗臺(tái)科普丨讓 AI "看懂"世界!一文搞懂視覺(jué)語(yǔ)言模型(VLM)
文章出處:【微信號(hào):Leadtek,微信公眾號(hào):麗臺(tái)科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
一文詳解知識(shí)增強(qiáng)的語(yǔ)言預(yù)訓(xùn)練模型
如何利用Transformers了解視覺(jué)語(yǔ)言模型
![如何利用Transformers了解<b class='flag-5'>視覺(jué)</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>](https://file.elecfans.com/web2/M00/95/26/poYBAGQBY6uARNa9AABg0AorACc240.jpg)
微軟視覺(jué)語(yǔ)言模型有顯著超越人類的表現(xiàn)
一文讀懂大語(yǔ)言模型
![<b class='flag-5'>一</b><b class='flag-5'>文</b>讀懂大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>](https://file1.elecfans.com/web2/M00/89/D3/wKgaomSLwSOAd3_lAADWhl7Sqc0306.jpg)
機(jī)器人基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)大模型
![機(jī)器人基于開(kāi)源的多模態(tài)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>視覺(jué)</b>大<b class='flag-5'>模型</b>](https://file1.elecfans.com/web2/M00/BD/50/wKgZomWp8DuABowbAAAhaztlej8465.png)
一文理解多模態(tài)大語(yǔ)言模型——下
![<b class='flag-5'>一</b><b class='flag-5'>文</b>理解多模態(tài)大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>——下](https://file1.elecfans.com//web3/M00/00/E5/wKgZO2dOtyiACm8SAAQZToNs9ng951.png)
評(píng)論