国产综合久久久久久欧美,人妖啪啪综合av一区ts人妖

隨著 GPT-4 和 Stable Diffusion 等模型多模態(tài)能力的突飛猛進(jìn)，多模態(tài)大模型已經(jīng)成為大模型邁向通用人工智能（AGI）目標(biāo)的下一個(gè)前沿焦點(diǎn)?？傮w而言，面向圖像和文本的多模態(tài)生成能力可以大致分為兩類：

1. 在圖生文（image-to-text generation）方面，以 GPT-4 為代表的多模態(tài)大模型，可以面向圖像進(jìn)行開放域?qū)υ捄蜕疃韧评恚?/span>

2. 在文生圖（text-to-image generation）方面，以 Stable Diffusion 為代表的多模態(tài)模型，可以根據(jù)文本生成圖像內(nèi)容。由這些多模態(tài)模型掀起的 AIGC 浪潮，廣泛而深刻地改變著學(xué)術(shù)界和工業(yè)界的思想實(shí)踐。

然而，目前多模態(tài)大模型的成功很大程度上局限于英文世界，而中文等其他非英語語言的多模態(tài)能力明顯落后。這是因?yàn)橄啾扔谟⑽氖澜纾形牡绕渌怯⒄Z語言的多模態(tài)數(shù)據(jù)嚴(yán)重稀缺，難以滿足多模態(tài)大模型對(duì)大規(guī)模高質(zhì)量圖文對(duì)數(shù)據(jù)的需求。這些問題使得多語言多模態(tài)大模型的構(gòu)建極具挑戰(zhàn)性。

為了解決上述挑戰(zhàn)，我們提出使用高資源語言（如英語）作為橋接圖像信號(hào)和低資源語言（如中文）的橋梁，實(shí)現(xiàn)多語言多模態(tài)大模型能力的快速泛化，從而緩解對(duì)低資源語言下模態(tài)對(duì)齊數(shù)據(jù)（圖文對(duì)數(shù)據(jù)）的依賴。

通過類比人類的學(xué)習(xí)過程，我們可以直觀地理解該方法：人類學(xué)習(xí)者可以僅通過母語與視覺信號(hào)的對(duì)應(yīng)關(guān)系，以及母語與不同語言之間的對(duì)應(yīng)關(guān)系，自然地建立起不同語言下對(duì)視覺信號(hào)的統(tǒng)一認(rèn)知。這是由于不同的自然語言符號(hào)系統(tǒng)，很大程度上都是以描述相同的客觀世界為驅(qū)動(dòng)力演化發(fā)展而來的，這為多語言多模態(tài)能力的快速泛化提供了基礎(chǔ)。

為了驗(yàn)證上述方法，我們以中英雙語的多模態(tài)大模型為例，構(gòu)建了 VisCPM 系列模型，建立中英雙語的多模態(tài)對(duì)話能力（VisCPM-Chat 模型）和文到圖生成能力（VisCPM-Paint 模型）。

在多語言對(duì)齊方面，我們選用百億參數(shù)量的 CPM-Bee 10B 作為基底語言模型。該模型優(yōu)秀的中英雙語能力，提供了多語言對(duì)齊的基礎(chǔ)。在多模態(tài)對(duì)齊方面，我們?yōu)镃PM-Bee分別融合視覺編碼器（Q-Former）和視覺解碼器（Diffusion-UNet）以支持視覺信號(hào)的輸入和輸出。得益于 CPM-Bee 基座優(yōu)秀的雙語能力，VisCPM 可以僅通過英文多模態(tài)數(shù)據(jù)預(yù)訓(xùn)練，泛化實(shí)現(xiàn)優(yōu)秀的中文多模態(tài)能力。

中英雙語多模態(tài)對(duì)話模型VisCPM-Chat

VisCPM-Chat 模型使用 Q-Former 作為視覺編碼器，使用 CPM-Bee（10B）作為語言基座模型，并通過語言建模訓(xùn)練目標(biāo)融合視覺和語言模型。模型訓(xùn)練包括預(yù)訓(xùn)練和指令精調(diào)兩階段：

預(yù)訓(xùn)練：我們使用約 100M 高質(zhì)量英文圖文對(duì)數(shù)據(jù)對(duì) VisCPM-Chat 進(jìn)行了預(yù)訓(xùn)練，數(shù)據(jù)包括 CC3M、CC12M、COCO、Visual Genome、LAION 等。在預(yù)訓(xùn)練階段，語言模型參數(shù)保持固定，僅更新Q-Former部分參數(shù)，以支持大規(guī)模視覺-語言表示的高效對(duì)齊。
指令精調(diào)：我們采用 LLaVA-150K 英文指令精調(diào)數(shù)據(jù)，并混合相應(yīng)翻譯后的中文數(shù)據(jù)對(duì)模型進(jìn)行指令精調(diào)，以對(duì)齊模型多模態(tài)基礎(chǔ)能力和用戶使用意圖。在指令精調(diào)階段，我們更新全部模型參數(shù)，以提升指令精調(diào)數(shù)據(jù)的利用效率。有趣的是，我們發(fā)現(xiàn)即使僅采用英文指令數(shù)據(jù)進(jìn)行指令精調(diào)，模型也可以理解中文問題，但僅能用英文回答。這表明模型的多語言多模態(tài)能力已經(jīng)得到良好的泛化。在指令精調(diào)階段進(jìn)一步加入少量中文翻譯數(shù)據(jù)，可以將模型回復(fù)語言和用戶問題語言對(duì)齊。

我們在 LLaVA 標(biāo)準(zhǔn)英文測試集和翻譯的中文測試集對(duì)模型進(jìn)行了評(píng)測，該評(píng)測基準(zhǔn)考察模型在開放域?qū)υ?、圖像細(xì)節(jié)描述、復(fù)雜推理方面的表現(xiàn)，并使用 GPT-4 進(jìn)行打分。可以觀察到，在不使用任何中文圖文對(duì)預(yù)訓(xùn)練數(shù)據(jù)的情況下，VisCPM-Chat 在中文多模態(tài)能力方面取得了最佳的平均性能，在通用域?qū)υ捄蛷?fù)雜推理表現(xiàn)出色，同時(shí)也表現(xiàn)出了不錯(cuò)的英文多模態(tài)能力。

在上述平衡的中英雙語能力（VisCPM-Chat-balance）基礎(chǔ)上，我們在預(yù)訓(xùn)練階段額外加入 20M 清洗后的原生中文圖文對(duì)數(shù)據(jù)和 120M 翻譯到中文的圖文對(duì)數(shù)據(jù)，可以實(shí)現(xiàn)中文多模態(tài)能力的進(jìn)一步強(qiáng)化（VisCPM-Chat-zhplus）。

VisCPM-Chat 表現(xiàn)出令人印象深刻的圖像理解能力，并能夠在對(duì)話中運(yùn)用世界知識(shí)和常識(shí)知識(shí)。例如在下圖中，VisCPM 能夠識(shí)別染色的地圖和人像，并正確理解出染色代表的不同含義。除此之外，VisCPM-Chat 還具有不錯(cuò)的中文特色能力，比如能用李白的詩描繪黃河的景象并作解讀，在面對(duì)中秋月夜時(shí)還能用蘇軾的《水調(diào)歌頭》借景抒情。

中英雙語文生圖模型VisCPM-Paint

VisCPM-Paint 使用 CPM-Bee（10B）作為文本編碼器，使用 UNet 作為圖像解碼器，并通過擴(kuò)散模型訓(xùn)練目標(biāo)融合語言和視覺模型。在訓(xùn)練過程中，語言模型參數(shù)始終保持固定。我們使用 Stable Diffusion 2.1 的 UNet 參數(shù)初始化視覺解碼器，并通過逐步解凍其中關(guān)鍵的橋接參數(shù)將其與語言模型融合。該模型在 LAION 2B 英文圖文對(duì)數(shù)據(jù)上進(jìn)行了訓(xùn)練。

我們在標(biāo)準(zhǔn)圖像生成測試集 MSCOCO 上采樣了 3 萬張圖片，計(jì)算了常用評(píng)估圖像生成指標(biāo) FID（Fréchet Inception Distance）評(píng)估生成圖片的質(zhì)量。與 VisCPM 類似，我們發(fā)現(xiàn)得益于 CPM-Bee 的雙語能力，VisCPM-Paint 可以僅通過英文圖文對(duì)訓(xùn)練，泛化實(shí)現(xiàn)良好的中文文到圖生成能力，達(dá)到中文開源模型的最佳效果。在中英平衡能力（VisCPM-Paint-balance）的基礎(chǔ)上，通過進(jìn)一步加入 20M 清洗后的原生中文圖文對(duì)數(shù)據(jù)，以及 120M 翻譯到中文的圖文對(duì)數(shù)據(jù)，模型的中文文到圖生成能力可以獲得進(jìn)一步提升（VisCPM-Paint-zhplus）。

VisCPM-Paint 模型中分別輸入“海上生明月，天涯共此時(shí)，唯美風(fēng)格，抽象風(fēng)格”和“人閑桂花落，月靜春山空”兩條 prompts，生成了以下兩張圖片?？梢钥闯?，VisCPM-Paint 對(duì)中國特色意向也有較好的把握能力。

為了推動(dòng)多模態(tài)大模型開源社區(qū)和相關(guān)研究領(lǐng)域的發(fā)展，我們將 VisCPM 系列的所有模型免費(fèi)開源（https://github.com/OpenBMB/VisCPM），歡迎個(gè)人和研究用途自由使用。未來我們也會(huì)將 VisCPM 整合到 huggingface代碼框架中，以及陸續(xù)完善安全模型、支持快速網(wǎng)頁部署、支持模型量化功能、支持模型微調(diào)等功能，歡迎持續(xù)關(guān)注。

· ·

原文標(biāo)題：VisCPM：邁向多語言多模態(tài)大模型時(shí)代

文章出處：【微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

物聯(lián)網(wǎng)

物聯(lián)網(wǎng)

+關(guān)注

關(guān)注
2914

文章
44955

瀏覽量
377317

原文標(biāo)題：VisCPM：邁向多語言多模態(tài)大模型時(shí)代

文章出處：【微信號(hào)：tyutcsplab，微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評(píng)論

相關(guān)推薦

商湯日日新多模態(tài)大模型權(quán)威評(píng)測第一

剛剛，商湯科技日日新SenseNova多模態(tài)大模型，在權(quán)威綜合評(píng)測權(quán)威平臺(tái)OpenCompass的多模態(tài)評(píng)測中取得榜單第一。

發(fā)表于 12-20 10:39 ?363次閱讀

一文理解多模態(tài)大語言模型——下

/understanding-multimodal-llms ? 《一文理解多模態(tài)大語言模型 - 上》介紹了什么是多

發(fā)表于 12-03 15:18 ?217次閱讀

一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>——下

一文理解多模態(tài)大語言模型——上

/understanding-multimodal-llms 在過去幾個(gè)月中， OpenVINO? 架構(gòu)師 Yury閱讀了眾多有關(guān)多模態(tài)大語言模型的論文和博客，在此基礎(chǔ)上，推薦了一篇解

發(fā)表于 12-02 18:29 ?478次閱讀

一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>——上

ChatGPT 的多語言支持特點(diǎn)

）技術(shù)迎來了巨大的挑戰(zhàn)和機(jī)遇。ChatGPT，作為一個(gè)領(lǐng)先的語言模型，其多語言支持的特點(diǎn)成為了它在眾多應(yīng)用場景中不可或缺的優(yōu)勢。 1. 多語言理解能力 ChatGPT 的

發(fā)表于 10-25 17:30 ?928次閱讀

科大訊飛發(fā)布訊飛星火4.0 Turbo大模型及星火多語言大模型

，科大訊飛以其一貫的創(chuàng)新精神，開創(chuàng)性地發(fā)布了星火多語言大模型。這一創(chuàng)新之舉不僅進(jìn)一步鞏固了科大訊飛在中文和英文處理領(lǐng)域的領(lǐng)先地位，更將語言的支持范圍大幅擴(kuò)展，涵蓋了俄語、日語、阿拉伯語、韓語、法語、西班牙語、葡萄牙語以及

發(fā)表于 10-24 13:58 ?486次閱讀

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進(jìn)行融合，通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實(shí)現(xiàn)更加智能化的信息處理。簡單來說，多

發(fā)表于 10-18 09:39 ?568次閱讀

谷歌全新推出開放式視覺語言模型PaliGemma

這種熱烈的反響非常鼓舞人心，開發(fā)者們打造了一系列多樣的項(xiàng)目，例如用于印度語言的多語言變體 Navarasa，以及設(shè)備端側(cè)動(dòng)作模型 Octopus v2。開發(fā)者們展示了 Gemma 在打造極具影響力且易于使用的 AI 解決方案方面

發(fā)表于 10-15 17:37 ?453次閱讀

云知聲推出山海多模態(tài)大模型

在人工智能技術(shù)的浩瀚星海中，多模態(tài)交互技術(shù)正成為引領(lǐng)未來的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創(chuàng)新之姿，推出了其匠心獨(dú)運(yùn)的山海多模態(tài)大

發(fā)表于 08-27 15:20 ?441次閱讀

Mistral AI與NVIDIA推出全新語言模型Mistral NeMo 12B

Mistral AI 和 NVIDIA 于近日共同發(fā)布了一款全新的領(lǐng)先語言模型Mistral NeMo 12B。開發(fā)者可以輕松定制和部署該模型，令其適用于支持聊天機(jī)器人、多語言任務(wù)、編

發(fā)表于 07-27 11:04 ?747次閱讀

智譜AI發(fā)布全新多模態(tài)開源模型GLM-4-9B

近日，智譜AI在人工智能領(lǐng)域取得重大突破，成功推出全新開源模型GLM-4-9B。這款模型以其卓越的多模態(tài)能力，再次刷新了業(yè)界對(duì)于大型語言

發(fā)表于 06-07 09:17 ?831次閱讀

【大語言模型：原理與工程實(shí)踐】大語言模型的評(píng)測

至關(guān)重要。在大語言模型應(yīng)用中，翻譯類評(píng)測任務(wù)主要聚焦于兩大核心要求：高質(zhì)量翻譯和多語言適應(yīng)性。高質(zhì)量翻譯作為跨文化和跨地域信息傳播的基礎(chǔ)，對(duì)全球化背景下的商業(yè)活動(dòng)、科研合作和多元文化交流具有至關(guān)重要

發(fā)表于 05-07 17:12

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

文本生成、語言理解、圖像識(shí)別及視頻生成等多模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新一代 LLM-Based的自然交互，同時(shí)多

發(fā)表于 04-18 17:01 ?668次閱讀

這個(gè)多語言包怎么搜不到

大家好，這個(gè)多語言包怎么搜不到 seven language lib 誰有離線包不感謝分享，

發(fā)表于 03-24 10:06

大語言模型（LLMs）如何處理多語言輸入問題

研究者們提出了一個(gè)框架來描述LLMs在處理多語言輸入時(shí)的內(nèi)部處理過程，并探討了模型中是否存在特定于語言的神經(jīng)元。

發(fā)表于 03-07 14:44 ?704次閱讀

大語言模型中的語言與知識(shí)：一種神秘的分離現(xiàn)象

自然語言處理領(lǐng)域存在著一個(gè)非常有趣的現(xiàn)象：在多語言模型中，不同的語言之間似乎存在著一種隱含的對(duì)齊關(guān)系。

發(fā)表于 02-20 14:53 ?592次閱讀

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

VisCPM：邁向多語言多模態(tài)大模型時(shí)代

中英雙語多模態(tài)對(duì)話模型VisCPM-Chat

中英雙語文生圖模型VisCPM-Paint

評(píng)論

商湯日日新多模態(tài)大模型權(quán)威評(píng)測第一

一文理解多模態(tài)大語言模型——下

一文理解多模態(tài)大語言模型——上

ChatGPT 的多語言支持特點(diǎn)

科大訊飛發(fā)布訊飛星火4.0 Turbo大模型及星火多語言大模型

利用OpenVINO部署Qwen2多模態(tài)模型

谷歌全新推出開放式視覺語言模型PaliGemma

云知聲推出山海多模態(tài)大模型

Mistral AI與NVIDIA推出全新語言模型Mistral NeMo 12B

智譜AI發(fā)布全新多模態(tài)開源模型GLM-4-9B

【大語言模型：原理與工程實(shí)踐】大語言模型的評(píng)測

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

這個(gè)多語言包怎么搜不到

大語言模型（LLMs）如何處理多語言輸入問題

大語言模型中的語言與知識(shí)：一種神秘的分離現(xiàn)象