BLIP-2：下一代多模態(tài)模型的雛形

最近ChatGPT風(fēng)頭正勁，但只能理解文字或多或少限制其才華的發(fā)揮。得益于Transformer在NLP和CV領(lǐng)域的大放異彩，多模態(tài)近幾年取得了非常大的進(jìn)步。但之前的工作大多數(shù)局限在幾個(gè)特定的，比如VQA，ITR，VG等任務(wù)上，限制了其應(yīng)用。最近，Junnan Li大佬掛出了他最新的杰作BLIP2。讓我對(duì)多模態(tài)模型有了一些新的認(rèn)識(shí)，希望通過(guò)本文分享一下我的想法。由于本身水平有限，加上很長(zhǎng)時(shí)間沒有survey過(guò)相關(guān)領(lǐng)域的論文了，里面大部分的思考可能都是閉門造車，所以不可避免有很多錯(cuò)誤，歡迎大家指正討論。

ALBEF，BLIP，BLIP2 都是 Junnan Li 大佬的杰作，給了我很大的啟發(fā)。ALBEF去掉了笨重的Detector，BLIP統(tǒng)一了理解與生成，BLIP2再次刷新了我的認(rèn)知，感謝大佬！

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

論文連接：https://arxiv.org/abs/2301.12597

代碼倉(cāng)庫(kù)：https://github.com/salesforce/LAVIS/tree/main/projects/blip2

HF上的Demo：

https://huggingface.co/spaces/Salesforce/BLIP2

TL,DR

實(shí)現(xiàn)了開放性的多模態(tài)內(nèi)容理解與生成，讓我們有了更多的想象空間；

從新的視角去看待圖文模態(tài)，引入了LLM模型。CV模型是傳感器，負(fù)責(zé)感知，LLM模型是處理器，負(fù)責(zé)處理；

相對(duì)友好的計(jì)算資源，比起動(dòng)輒幾百?gòu)埧ǖ拇竽Ｐ?，BLIP 2 最大的模型也不過(guò)16張A100 40G；

傳統(tǒng)圖文任務(wù)上性能爆表；

從泰坦尼克號(hào)說(shuō)起

BLIP2模型的多模態(tài)問(wèn)答

開始前介紹論文前我們先來(lái)討論下，實(shí)現(xiàn)圖片中的問(wèn)答，需要什么能力呢？

圖片里發(fā)生了什么：一位男士在船頭摟著一位女士。（感知-CV模型的能力）

問(wèn)題問(wèn)的什么：電影的結(jié)尾是什么？（感知-NLP模型的能力）

圖片和電影有什么關(guān)系：這是泰坦尼克號(hào)里的經(jīng)典鏡頭。（對(duì)齊融合-多模態(tài)模型的能力）

電影的結(jié)尾是什么：泰坦尼克號(hào)沉沒了。（推理-LLM模型的能力）

對(duì)不同模型扮演角色的理解

從上面的問(wèn)題可以看出，為了解決這個(gè)問(wèn)題，需要幾個(gè)模型配合一下。其實(shí)自從多模態(tài)模型（特別是圖文多模態(tài)模型）出現(xiàn)，模態(tài)之間怎么配合就是個(gè)問(wèn)題。

ViLBERT

19年20年的時(shí)候，ViLBERT和Uniter采用了Object-Text對(duì)來(lái)提升模型對(duì)圖片的理解能力。Object的引入，不可避免的需要一個(gè)笨重的檢測(cè)器，去檢測(cè)各種框，使得圖像模態(tài)顯得比較笨重。而且檢測(cè)器模型不可避免的會(huì)存在漏檢的問(wèn)題，可以參考后來(lái)Open-Vocabulary一些工作，比如ViLD。這一階段，顯然對(duì)圖像的理解是多模態(tài)的重頭戲，文本更多是輔助圖像任務(wù)的理解。

ViLT

到了21年22年，去掉檢測(cè)器成了主流，ViLT，ALBEF，VLMo，BLIP 等等都拋棄了檢測(cè)器，徹底擺脫了CNN網(wǎng)絡(luò)的舒服，全面擁抱Transformer，當(dāng)然這也得益于本身ViT模型在CV領(lǐng)域的大放光彩，讓兩個(gè)模態(tài)的有機(jī)融合成為了可能。在這一階段，文本模態(tài)感覺已經(jīng)可以和圖像模態(tài)平起平坐了。從在各項(xiàng)具體下游任務(wù)（VQA、VG、ITR）的實(shí)際表現(xiàn)上來(lái)說(shuō)，已經(jīng)比較令人滿意了。但總感覺差點(diǎn)味道，就是復(fù)雜推理。比如VQA上的問(wèn)題，大多數(shù)是簡(jiǎn)單的邏輯計(jì)算或識(shí)別，感覺還不夠智能。

那么如何實(shí)現(xiàn)更加復(fù)雜的推理呢？眾所周知，NLP領(lǐng)域一直領(lǐng)先于CV領(lǐng)域的發(fā)展。得益于更豐富的語(yǔ)料庫(kù)，NLP領(lǐng)域的已經(jīng)擁有了一些具有初步推理能力模型的研究，特別是LLM大模型的出現(xiàn)。（今天谷歌剛剛發(fā)布了22B的ViT，而在NLP領(lǐng)域這個(gè)規(guī)模的模型應(yīng)該已經(jīng)不算新聞了。）我對(duì)于LLM能力有多強(qiáng)的理解，其實(shí)也是ChatGPT之后才有明確的感知。

BLIP2

23年1月，BLIP2出來(lái)了，引入了LLM。從圖像上看，BLIP2大概由這么幾個(gè)部分組成，圖像（Image）輸入了圖像編碼器（Image Encoder），得到的結(jié)果與文本（Text）在Q-Former（BERT初始化）里進(jìn)行融合，最后送入LLM模型。我是學(xué)自動(dòng)化出身的，從自動(dòng)化的角度看看BLIP2。

圖像和文本：自然信號(hào)；

圖像編碼器（Image Encoder）：傳感器（圖像）；

Q-Former：傳感器（文本）+ 融合算法（Query）；

LLM：處理器。

之前的模型大多都關(guān)注在了傳感器和融合算法的設(shè)計(jì)上，但忽略了處理器的重要作用。BERT模型雖然能理解文本，但卻沒有世界觀的概念，沒有龐大的背景知識(shí)庫(kù)，只能作一個(gè)傳感器。只有LLM模型，才能實(shí)現(xiàn)這一角色，統(tǒng)一起各個(gè)模態(tài)的信號(hào)，從一個(gè)宏觀的角度去看待這個(gè)問(wèn)題。這里引用一段原文中的話。

Powered by LLMs (e.g. OPT (Zhang et al., 2022), FlanT5 (Chung et al., 2022)), BLIP-2 can be prompted to perform zero-shot image-to-text generation that follows natural language instructions, which enables emerging capabilities such as visual knowledge reasoning, visual conversation, etc.

目前看，或許LLM就是下一代多模態(tài)模型的關(guān)鍵一環(huán)。

言歸正傳，我們開始介紹論文。

如何統(tǒng)一多模態(tài)的表征

LLM本質(zhì)上是個(gè)語(yǔ)言模型，自然無(wú)法直接接受其他模態(tài)的信息。所以如何把各個(gè)模態(tài)的信息，統(tǒng)一到LLM能理解的特征空間，就是第一步要解決的問(wèn)題。為此，作者提出了Q-Former。

Q-Former的設(shè)計(jì)

為了融合特征，那Transformer架構(gòu)是最合適不過(guò)的了。熟悉ALBEF或者BLIP的同學(xué)或許發(fā)現(xiàn)，Q-Former的結(jié)構(gòu)和ALBEF其實(shí)很像，如果看代碼的話，可以發(fā)現(xiàn)就是在ALBEF基礎(chǔ)上改的。

相較于ALBEF，最大的不同，就是Learned Query的引入?？梢钥吹竭@些Query通過(guò)Cross-Attention與圖像的特征交互，通過(guò)Self-Attention與文本的特征交互。這樣做的好處有兩個(gè)：（1）這些Query是基于兩種模態(tài)信息得到的；（2）無(wú)論多大的視覺Backbone，最后都是Query長(zhǎng)度的特征輸出，大大降低了計(jì)算量。比如在實(shí)際實(shí)驗(yàn)中，ViT-L/14的模型的輸出的特征是257x1024的大小，最后也是32x768的Query特征。

這里其實(shí)有點(diǎn)疑問(wèn)，也歡迎大家討論。論文里是這樣講的：

This bottleneck architecture works together with our pre-training objectives into forcing the queries to extract visual information that is most relevant to the text.

作者通過(guò)Q-Former強(qiáng)制讓Query提取文本相關(guān)的特征，但如果在推理時(shí)沒有文本先驗(yàn)，那什么樣的特征算是相關(guān)的呢？

針對(duì)Q-Former的三個(gè)訓(xùn)練任務(wù)分別是 Image-Text Contrastive Learning (ITC)，Image-grounded Text Generation (ITG)，Image-Text Matching (ITM)。其中 ITC 和 ITM 任務(wù)，與ALBEF中的實(shí)現(xiàn)類似，只不過(guò)圖像特征改為了Query的特征，具體可以參考代碼實(shí)現(xiàn)（ITC和ITM）。這里比較特別的是ITG任務(wù)，與ALBEF中的MLM不同，這里改成了生成整句Text的任務(wù)，類似Captioning，具體代碼實(shí)現(xiàn)ITG。實(shí)際上，這幾個(gè)任務(wù)都是以Query特征和文本特征作為輸入得到的，只不過(guò)有不同的Mask組合，具體可以參考上圖中的右圖。

第一階段，對(duì)于模型的訓(xùn)練，就是由以上三個(gè)任務(wù)組成，通過(guò)這幾個(gè)任務(wù)，實(shí)現(xiàn)了對(duì)于特征的提取與融合。但現(xiàn)在模型還沒見過(guò)LLM。我們現(xiàn)在用傳感器完成了數(shù)據(jù)的提取與融合，下一步，我們得把數(shù)據(jù)轉(zhuǎn)換成處理器能識(shí)別的格式。

變成LLM認(rèn)識(shí)的樣子

第二階段的訓(xùn)練架構(gòu)

通過(guò)第一階段的訓(xùn)練，Query已經(jīng)濃縮了圖片的精華，現(xiàn)在要做的，就是把Query變成LLM認(rèn)識(shí)的樣子。

為什么不讓LLM認(rèn)識(shí)Query，而讓Query變成LLM認(rèn)識(shí)呢？這里的原因有兩：（1）LLM模型的訓(xùn)練代價(jià)有點(diǎn)大；（2）從 Prompt Learning 的觀點(diǎn)來(lái)看，目前多模態(tài)的數(shù)據(jù)量不足以保證LLM訓(xùn)練的更好，反而可能會(huì)讓其喪失泛化性。如果不能讓模型適應(yīng)任務(wù)，那就讓任務(wù)來(lái)適應(yīng)模型。

這里作者針對(duì)兩類不同LLM設(shè)計(jì)了不同的任務(wù)：

Decoder類型的LLM（如OPT）：以Query做輸入，文本做目標(biāo)；

Encoder-Decoder類型的LLM（如FlanT5）：以Query和一句話的前半段做輸入，以后半段做目標(biāo)；

為了適合各模型不同的Embedding維度，作者引入了一個(gè)FC層做維度變換。

至此，模型兩階段的訓(xùn)練方法就介紹完了。

訓(xùn)練細(xì)節(jié)

作為圖文預(yù)訓(xùn)練的工作，工程問(wèn)題往往是關(guān)鍵。BLIP2的訓(xùn)練過(guò)程主要由以下幾個(gè)值得關(guān)注的點(diǎn)：

訓(xùn)練數(shù)據(jù)方面：包含常見的 COCO，VG，SBU，CC3M，CC12M 以及 115M的LAION400M中的圖片。采用了BLIP中的CapFilt方法來(lái)Bootstrapping訓(xùn)練數(shù)據(jù)。

CV模型：選擇了CLIP的ViT-L/14和ViT-G/14，特別的是，作者采用倒數(shù)第二層的特征作為輸出。

LLM模型：選擇了OPT和FlanT5的一些不同規(guī)模的模型。

訓(xùn)練時(shí)，CV模型和LLM都是凍結(jié)的狀態(tài)，并且參數(shù)都轉(zhuǎn)為了FP16。這使得模型的計(jì)算量大幅度降低。主要訓(xùn)練的基于BERT-base初始化的Q-Former只有188M的參數(shù)量。

最大的模型，ViT-G/14和FlanT5-XXL，只需要16卡A100 40G，訓(xùn)練6+3天就可以完成。

所有的圖片都被縮放到224x224的大小。

實(shí)驗(yàn)部分

作者首先用了整整一頁(yè)的篇幅，為我們展示了BLIP2的 instructed zero-shot image-to-text generation 能力。這里暫且按下不表，到后面一起討論。我們先看看BLIP2在傳統(tǒng)的一些圖文任務(wù)上的效果。

Image Captioning

Captioning 實(shí)驗(yàn)結(jié)果

作者用圖片配合文字 prompt “a photo of”作為模型的輸入。訓(xùn)練過(guò)程中凍結(jié)LLM，訓(xùn)練Q-Former和CV模型?？梢钥吹?，在域內(nèi)數(shù)據(jù)集（COCO）上，其表現(xiàn)并沒有非常亮眼，但在域外數(shù)據(jù)集NoCaps上，BLIP2顯示出了強(qiáng)大的泛化能力，相交之前的模型有明顯的提升。

Visual Question Answering

VQA 實(shí)驗(yàn)結(jié)果

VQA 任務(wù) Pipeline

訓(xùn)練的參數(shù)和IC任務(wù)一致，主要是Q-Former和ViT。不同的是，Q-Former和LLM都有Question作為文本輸入。Q-Former的文本輸入，保證了Query提取到的特征更加的精煉。

Image-Text Retrieval

Image-Text Retrieval 實(shí)驗(yàn)結(jié)果

ITR任務(wù)，作者只采用了第一階段的Q-Former和ViT來(lái)做，沒有引入LLM。具體的做法與ALBEF類似，先通過(guò)ITC任務(wù)算出點(diǎn)積相似度，再取Topk的匹配對(duì)，作ITM任務(wù)，得到最后的Matching Score。Flickr30K上再次刷新了SOTA，特別是I2T，基本飽和了。

Instructed Zero-shot Image-to-Text Generation

我覺得這個(gè)能力才是BLIP2最亮眼的地方。文章中是這樣說(shuō)的：

Selected examples of instructed zero-shot image-to-text generation using a BLIP-2 model w/ ViT-G and FlanT5XXL, where it shows?a wide range of capabilities including visual conversation, visual knowledge reasoning, visual commensense reasoning, storytelling, personalized image-to-text generation, etc.

首先我們來(lái)看看BLIP2對(duì)信息的檢索能力，下面幾個(gè)例子都是對(duì)圖片中物體的背景知識(shí)提問(wèn)，可以看到，模型都給出了相應(yīng)的答案。這里體現(xiàn)的實(shí)際上是LLM強(qiáng)大的背景知識(shí)庫(kù)。圖中有什么（ViT）+ 問(wèn)的是什么（Q-Former，LLM）+ 找答案（LLM）。

信息檢索能力

下面的幾個(gè)問(wèn)題，都是要求模型對(duì)圖片的內(nèi)容進(jìn)行進(jìn)一步的推理。比如圖二，需要建立對(duì)男人驚訝和雞之間的因果聯(lián)系。

事實(shí)推理能力

最后的幾個(gè)問(wèn)題是開放性的生成問(wèn)題。需要模型有一定的長(zhǎng)文本生成能力。

開放生成問(wèn)題

為了進(jìn)一步探索BLIP2模型的效果，我也自己測(cè)試了一些Demo，這里采用的是ViT-G和FlanT5的模型組合，Hugging Face 上提供的CKPT加起來(lái)有50G左右了，作為一個(gè)平時(shí)接觸CV多一點(diǎn)的人來(lái)看，是想當(dāng)炸裂的，一般我模型的CKPT和最后那個(gè)零頭差不多。

模型參數(shù)文件

先介紹一下測(cè)試的輸入格式，這里主要參考：

GitHub - NielsRogge/Transformers-Tutorials: This repository contains demos I made with the Transformers library by HuggingFace.

我測(cè)試了如下形式的輸入樣例，其中比較特別的是Incontext Learning，這里除了圖片中的信息，我還會(huì)給出一段文本中的信息，希望模型通過(guò)綜合兩個(gè)模態(tài)的信息給出答案。

Single-question answering

Template："Question: {} Answer:"

Input: [Query, Template]

Multi-questions answering

Context: "Question: {} Answer: {}."

Template: "Question: {} Answer: "

Input: [Query, Context, Template]

Incontext Learning

Template: "Context: {} Question: {}"

Input: [Query, Template]

Instructed Generation

Input: [Query, Command]

下面是一些測(cè)試樣例以及有趣的發(fā)現(xiàn)。粗體為模型的輸出結(jié)果。

樣例：Airbus 380

首先，我們問(wèn)幾個(gè)簡(jiǎn)單的問(wèn)題

Q: What type of aircraft is this?
A: a a380
Q: What are the characteristics of this type of aircraft?
A: the a380 is the largest commercial passenger airline.

可以看到BLIP2基本給出了正確的回答，但當(dāng)我詢問(wèn)飛機(jī)載客量時(shí)，模型確依然給出了380，推測(cè)可能是這個(gè)飛機(jī)和380這個(gè)數(shù)字的聯(lián)系比較緊密。

Q: How many people can this aircraft accommodate?
A: 380

于是，同樣的問(wèn)題，我們給出一點(diǎn)文字上的提示，這里摘取了一段Wiki上的介紹送入模型。

C: The Airbus A380 is a large wide-body airliner that was developed and produced by Airbus. It is the world's largest passenger airliner and only full-length double-deck jet airliner. Airbus studies started in 1988, and the project was announced in 1990 to challenge the dominance of the Boeing 747 in the long-haul market. The full-length double-deck aircraft has a typical seating for 525 passengers, with a maximum certified capacity for 853 passengers.
Q: How many people can the aircraft in this figure accommodate?
A: 853

這時(shí)，我們可以看到，模型成功的給出了回答。也就是說(shuō)，模型有聯(lián)合兩個(gè)模態(tài)信息聯(lián)合推理的能力。如果我們使點(diǎn)壞呢，比如給出錯(cuò)誤的Context。

C: The Airbus A350 is a long-range, wide-body twin-engine jet airliner developed and produced by Airbus.
Q: What type of aircraft is this figure?
A: airbus a350

可以看到，模型輸出了錯(cuò)誤的答案?？赡苡捎诒旧鞮LM對(duì)文字更加關(guān)注，而且Figure的概念可能對(duì)他來(lái)說(shuō)并不熟悉，在他看來(lái)，32個(gè)Query只不過(guò)是帶Visual信息的Word Token。

樣例：交通標(biāo)志

在這個(gè)樣例中，我們直接讓模型自己生成個(gè)問(wèn)題。

Q: Give me several question about the figure.
A: What is the speed limit on the road?

接著，我們問(wèn)問(wèn)看，模型自己知道答案么？

Q: What is the speed limit on the road?
A: 40 mph.

可以看到，模型準(zhǔn)確地給出了限速。接著我們讓他做一些簡(jiǎn)單邏輯判斷。

Q: Can I drive 70 mph here?
A: No.
Q: Can I drive 30 mph here?
A: Yes.

模型竟然都能夠正確的給出答案。最后，來(lái)個(gè)OCR的任務(wù)，讓模型輸出牌子上寫了什么。

Q: What is written on this sign?
A: speed limit 40.

模型同樣也給出了正確的答案。可以看到，模型對(duì)于邏輯判斷和圖片中文字的識(shí)別，都有一定的基礎(chǔ)。

樣例：表格

這里先用文章中自己的表格做測(cè)試。

Q: What is the name of the table?
A: a comparison of the mri and ct scans.

Emmm，屬于是自家人不認(rèn)自家人了。問(wèn)問(wèn)他認(rèn)識(shí)自己不？

Q: Do you know BLIP2?
A: BLIP2 is a protein that in humans is encoded by the BLIP2 gene.

好吧，不認(rèn)識(shí)。接著又有一些問(wèn)題，模型的回答也不是很好。

Q: Which model in the table performs best?
A: dcm vs dcm vs dcm vs dcm vs dcm vs dcm.
Q: How many training parameters does BLIP2 have?
A: BLIP2 has a total of ten training parameters.

原因的話，其實(shí)比較好理解，表格的圖片相對(duì)于自然圖像的Gap較大，模型本身可能缺乏相應(yīng)的訓(xùn)練數(shù)據(jù)；其次，雖然32的Query使得信息變得精煉，但也使得模型的表達(dá)能力有了瓶頸，加上224x224的大小，這種小文字的識(shí)別其實(shí)是比較困難的。我們看下個(gè)例子。

樣例：圖表1

我們讓模型自己?jiǎn)杺€(gè)問(wèn)題。

Q: Give me several question about the figure
A: What is the percentage of survival for those with no adolescent treatment?

可以看到，模型提問(wèn)的大致方向是可以的，比如存活率。但是圖表中的Adjuvant Treatment卻被識(shí)別成了adolescent treatment。這說(shuō)明，模型有一定的OCR能力，但不多。尤其是對(duì)于這種比較小又不常見的文字，很容易識(shí)別錯(cuò)誤。

樣例：圖表2

同樣，先讓模型自己?jiǎn)杺€(gè)問(wèn)題。

C: Caption: Fig. 3. The hospitalization and ICU ?gures from our simulation.
Q: Give me several question about the figure
A: What is the population of the city?

自問(wèn)自答一下。

C: Caption: Fig. 3. The hospitalization and ICU ?gures from our simulation.
Q: What is the population of the city?
A: NYC population 8 million.

從這里不難看出，模型其實(shí)對(duì)于常見的單詞，即使圖片比較小也能夠很好地識(shí)別到。最后來(lái)個(gè)最難的。

Q: On day 20, approximately how many people were hospitalized?
A: 200, 000.

這個(gè)問(wèn)題的要求其實(shí)挺高，需要模型根據(jù)坐標(biāo)去推斷數(shù)值，不出意外的回答錯(cuò)誤了。

Limitation

首先，不可否認(rèn)的是，這篇工作確實(shí)讓我們的想象空間更多了，尤其是 Instructed Zero-shot Image-to-Text Generation 的能力，我覺得肯定還有沒有發(fā)現(xiàn)的潛在能力。但我們從測(cè)試樣例中也看到，模型還存在一些問(wèn)題。在文章中，作者也給出了一些Bad Case，比如錯(cuò)誤的建立聯(lián)系，錯(cuò)誤的推斷依據(jù)以及過(guò)時(shí)的知識(shí)庫(kù)。

Bad Case

作者在文中對(duì)自己模型的不足主要解釋為，首先，

However, our experiments with BLIP-2?do not observe an improved VQA performance when providing the LLM with in-context VQA examples.?We attribute the lack of in-context learning capability to our pretraining dataset, which only contains a single image-text pair per sample.

由于圖文數(shù)據(jù)集大多數(shù)是一對(duì)一的匹配，所以很難讓模型建立上下文的聯(lián)系。

其次，

BLIP-2's image-to-text generation could have unsatisfactory results due to various reasons including inaccurate knowledge from the LLM, activating the incorrect reasoning path, or not having up-to-date information about new image content.

這個(gè)主要是由于LLM模型本身局限決定的。

除了作者提到的幾點(diǎn)，我覺得一下幾點(diǎn)也是可以探索的：

細(xì)粒度的識(shí)別，由于圖像的信息都濃縮在了32個(gè)Query中，所以能否識(shí)別細(xì)粒度信息以及圖像中重要的位置信息就成了疑問(wèn)；

更多的任務(wù)，BLIP2強(qiáng)大zero-shot能力，能不能應(yīng)用在更多的任務(wù)上，多模態(tài)的類似VG，單模態(tài)的類似Classification。

當(dāng)然從傳感器與處理器的角度去看，其他模態(tài)（比如Audio）也可以拿個(gè)傳感器去測(cè)，然后送給處理器分析分析hhh

當(dāng)然，BLIP2的能力應(yīng)該還遠(yuǎn)遠(yuǎn)沒有被挖掘完，等有新的認(rèn)識(shí)了再分享。

編輯：黃飛

閱讀全文

傳感器(738419) 傳感器(738419)
處理器(221452) 處理器(221452)

評(píng)論

相關(guān)推薦

高通下一代頂級(jí)SoC驍龍855，以打造下一代5G設(shè)備

下一代的驍龍855手機(jī)距離我們還很遙遠(yuǎn)。不過(guò)，高通似乎已經(jīng)規(guī)劃好了這款產(chǎn)品。據(jù)推特用戶Roland Quandt爆料，日本軟銀在2月份發(fā)布的財(cái)報(bào)中不慎透露了高通下一代頂級(jí)SoC的相關(guān)信息！

2018-03-11 20:51:56

11556

千億參數(shù)多模態(tài)大模型，“紫東太初”規(guī)模化應(yīng)用加速

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）過(guò)去近一年時(shí)間，國(guó)內(nèi)外大模型技術(shù)越來(lái)越成熟，并逐步在不同場(chǎng)景中實(shí)現(xiàn)實(shí)現(xiàn)應(yīng)用。在國(guó)內(nèi)，作為早早布局多模態(tài)大模型的科研機(jī)構(gòu)，中國(guó)科學(xué)院自動(dòng)化研究所自2019年開始在語(yǔ)音

2023-12-08 00:09:00

1200

2014光通訊論壇：熱議400G/SDN、下一代PON技術(shù)等前沿?zé)狳c(diǎn)

細(xì)分領(lǐng)域，以及400G、光子集成、SDN、下一代PON技術(shù)等熱點(diǎn)，一同探討光通訊產(chǎn)業(yè)的現(xiàn)狀和未來(lái)趨勢(shì)?！　　?會(huì)議基本信息：　　會(huì)議名稱：OFweek 2014 光通訊技術(shù)與應(yīng)用論壇

2014-07-11 17:09:42

2016CES：Atmel下一代觸摸傳感技術(shù)亮相

　2016年1月7日——全球微控制器（MCU）及觸控技術(shù)解決方案領(lǐng)域的領(lǐng)導(dǎo)者Atmel公司今日宣布，將把下一代壓力傳感技術(shù)應(yīng)用于最新面向智能手機(jī)應(yīng)用的maXTouchU系列。Atmel的壓力傳感技術(shù)

2016-01-13 15:39:49

5G技術(shù)助力下一代物聯(lián)網(wǎng)

主持人Gerhard Fettweis確信已為下一代5G蜂窩網(wǎng)絡(luò)空中介面作好準(zhǔn)備。他認(rèn)為通用頻分多工（GFDM）優(yōu)勢(shì)明顯，可以支持他所說(shuō)的觸覺網(wǎng)際網(wǎng)絡(luò)，這同時(shí)也是物聯(lián)網(wǎng)（IoT）的未來(lái)，目前并已經(jīng)獲得了

2019-07-12 07:49:05

86038A光色散分析儀加快下一代光通信網(wǎng)絡(luò)開發(fā)速度

86038A 光色散分析儀加快下一代光通信網(wǎng)絡(luò)開發(fā)速度

2019-08-13 14:28:16

一文詳解下一代功率器件寬禁帶技術(shù)

，從而支持每次充電能續(xù)航更遠(yuǎn)的里程。車載充電器(OBC)和牽引逆變器現(xiàn)在正使用寬禁帶(WBG)產(chǎn)品來(lái)實(shí)現(xiàn)這一目標(biāo)。碳化硅(SiC)和氮化鎵(GaN)是寬禁帶材料，提供下一代功率器件的基礎(chǔ)。與硅相比

2020-10-27 09:33:16

下一代SONET SDH設(shè)備

下一代SONET/SDH設(shè)備

2019-09-05 07:05:33

下一代傳輸網(wǎng)絡(luò)

Transport network infrastructure is evolving to new technologies, architectures and topologies to more efficiently, and flexibly deliver data services.

2019-09-06 14:12:49

下一代定位與導(dǎo)航系統(tǒng)

下一代定位與導(dǎo)航系統(tǒng)

2012-08-18 10:37:12

下一代家用電器的更多想象力

近日，德州儀器Yuan Tao發(fā)布了一篇題為《為下一代家用電器注入更多想象力》的博文，以下為全文：我們每天都與人機(jī)界面（HMI）進(jìn)行交互。其中一些交互是顯而易見的，比如在觸摸智能手機(jī)或平板電腦的主

2019-07-29 07:52:50

下一代廣電綜合業(yè)務(wù)網(wǎng)上營(yíng)業(yè)廳的特點(diǎn)與功能

政策的出臺(tái),面向下一代廣播電視網(wǎng)(NGB)的業(yè)務(wù)及其運(yùn)營(yíng)成為各廣電運(yùn)營(yíng)商的核心工作內(nèi)容,廣電運(yùn)營(yíng)商提供的業(yè)務(wù)類型開始增多,從“單一業(yè)務(wù)”向“多業(yè)務(wù)、綜合業(yè)務(wù)”發(fā)展;與此同時(shí)隨著市場(chǎng)競(jìng)爭(zhēng)的加劇,廣電運(yùn)營(yíng)商的服務(wù)理念也從“以業(yè)務(wù)為中心”逐步轉(zhuǎn)換到“ [hide]全文下載[/hide]

2010-04-23 11:33:30

下一代測(cè)試系統(tǒng)：用LXI拓展視野

下一代測(cè)試系統(tǒng)：用LXI拓展視野

2019-09-26 14:24:15

下一代測(cè)試系統(tǒng)：用LXI推進(jìn)愿景

下一代測(cè)試系統(tǒng)：用LXI推進(jìn)愿景（AN 1465-16）

2019-10-09 09:47:53

下一代照明更加節(jié)能

安森美半導(dǎo)體照明業(yè)務(wù)部James Lee前言照明于我們而言至關(guān)重要。美國(guó)能源信息署（US Energy Information Administration）的一項(xiàng)估測(cè)證實(shí)了這一點(diǎn)：我們用于家居照明

2019-07-18 08:43:54

下一代自動(dòng)測(cè)試系統(tǒng)體系結(jié)構(gòu)

本帖最后由 sinap_zhj 于 2016-4-16 14:52 編輯 下一代自動(dòng)測(cè)試系統(tǒng)體系結(jié)構(gòu)首先是信息共享和交互的結(jié)構(gòu)，能夠滿足測(cè)試系統(tǒng)內(nèi)部各組件間、不同測(cè)試系統(tǒng)之間、測(cè)試系統(tǒng)

2016-04-16 14:47:33

下一代超快I-V測(cè)試系統(tǒng)關(guān)鍵的技術(shù)挑戰(zhàn)有哪些?

如何進(jìn)行超快I-V測(cè)量？下一代超快I-V測(cè)試系統(tǒng)關(guān)鍵的技術(shù)挑戰(zhàn)有哪些?

2021-04-15 06:33:03

Cadence新的Allegro平臺(tái)變革下一代PCB設(shè)計(jì)生產(chǎn)力

Charlie Giorgetti表示，“我們?yōu)榭蛻糸_發(fā)并提供創(chuàng)新的能力，顯見我們對(duì)PCB市場(chǎng)的承諾?！?amp;nbsp;  下一代PCB設(shè)計(jì)流程

2008-06-19 09:36:24

FPGA 超越 GPU，問(wèn)鼎下一代深度學(xué)習(xí)主引擎

`人工智能即將深刻改變我們的世界，而數(shù)據(jù)洪流帶來(lái)數(shù)據(jù)量爆炸和數(shù)據(jù)形態(tài)的多樣性，對(duì)數(shù)據(jù)處理能力以及下一代深度學(xué)習(xí)的計(jì)算能力也提出了更高的要求。隨著人工智能在越來(lái)越多的應(yīng)用領(lǐng)域開始新的探索，隨著不規(guī)則

2017-04-27 14:10:12

LMS Virtual Lab 流固模態(tài)分析

LMS Virtual Lab 流固模態(tài)分析的主要步驟：1、設(shè)置材料、屬性、約束條件，進(jìn)行結(jié)構(gòu)有限元模態(tài)分析。注意：模態(tài)計(jì)算的頻率范圍不要太小，否則可能計(jì)算錯(cuò)誤！2、對(duì)流體進(jìn)行模態(tài)分析3、建立結(jié)構(gòu)網(wǎng)格到流體網(wǎng)格的映射，再利用結(jié)構(gòu)模態(tài)和流體模態(tài)進(jìn)行流固耦合模態(tài)分析

2019-05-29 06:59:58

MIMO系統(tǒng)的的信道模型來(lái)源

空間復(fù)用式多輸入多輸出 (MIMO) 發(fā)射器與接收器據(jù)稱可比其現(xiàn)有的單輸入單輸出 (SISO) 對(duì)應(yīng)器件提升更大的無(wú)線通信系統(tǒng)性能。下一代無(wú)線標(biāo)準(zhǔn)，如 802.11n，將支持高達(dá) 600 Mbps

2019-06-14 07:03:16

OmniBER適用于下一代SONET SDH的測(cè)試應(yīng)用

OmniBER適用于下一代SONET/SDH的測(cè)試應(yīng)用

2019-09-23 14:16:58

Qualcomm 推出下一代物聯(lián)網(wǎng)專用蜂窩技術(shù)芯片組！精選資料分享

北京時(shí)間 12 月 18 日，Qualcomm 美國(guó)高通宣布推出下一代物聯(lián)網(wǎng)（IoT）專用調(diào)制解調(diào)器，面向資產(chǎn)追蹤器、健康監(jiān)測(cè)儀、安全系統(tǒng)、智慧城市傳感器、智能計(jì)量?jī)x以及可穿戴追蹤器等物聯(lián)網(wǎng)

2021-07-23 08:16:37

Silicon Labs下一代交流電流傳感器系列

　　高性能模擬與混合信號(hào)IC領(lǐng)導(dǎo)廠商Silicon Laboratories (芯科實(shí)驗(yàn)室有限公司, Nasdaq: SLAB)今日推出下一代交流電流傳感器系列，可取代傳統(tǒng)的電流

2018-11-01 17:24:07

Supermicro將在 CES上發(fā)布下一代單路平臺(tái)

Supermicro 將在 CES 上發(fā)布下一代單路平臺(tái) 2011-01-05 22:30 基于Intel P67 和Q67芯片組的高性能桌面電腦加利福尼亞州圣何塞市2011年1月5日電 /美通社

2011-01-05 22:41:43

TEK049 ASIC為下一代示波器提供動(dòng)力

TEK049 ASIC為下一代示波器提供動(dòng)力

2018-11-01 16:28:42

[原創(chuàng)]下一代軟件SSL VPN免費(fèi)體驗(yàn)版發(fā)布

下一代軟件SSL VPN免費(fèi)體驗(yàn)版發(fā)布本軟件適用的用戶群有分支機(jī)構(gòu)的企業(yè),分部需要訪問(wèn)總部數(shù)據(jù)資源(ERP軟件、用友、金蝶等財(cái)務(wù)軟件、倉(cāng)庫(kù)管理軟件、客戶關(guān)系管理軟件、進(jìn)銷存管理軟件、協(xié)同辦公OA

2009-12-02 10:57:30

【MPS電源評(píng)估板試用申請(qǐng)】下一代接入網(wǎng)的芯片研究

項(xiàng)目名稱：下一代接入網(wǎng)的芯片研究試用計(jì)劃：下一代接入網(wǎng)的芯片研究：主要針對(duì)于高端FPGA的電路設(shè)計(jì)，其中重要的包括芯片設(shè)計(jì)，重要的是芯片外部電源設(shè)計(jì)，1.需要評(píng)估芯片各個(gè)模式下的功耗功耗，2.需要

2020-06-18 13:41:35

【轉(zhuǎn)載】黑莓CEO：不會(huì)推下一代BB10平板電腦專注智能手機(jī)

【轉(zhuǎn)載】黑莓CEO：不會(huì)推下一代BB10平板電腦專注智能手機(jī)鳳凰科技訊北京時(shí)間6月28日消息，據(jù)外國(guó)媒體CNET報(bào)道稱，黑莓CEO托斯滕?海恩斯（Thorsten Heins）表示對(duì)黑莓10

2013-07-01 17:23:10

為什么說(shuō)射頻前端的一體化設(shè)計(jì)決定下一代移動(dòng)設(shè)備？

隨著移動(dòng)行業(yè)向下一代網(wǎng)絡(luò)邁進(jìn)，整個(gè)行業(yè)將面臨射頻組件匹配，模塊架構(gòu)和電路設(shè)計(jì)上的挑戰(zhàn)。射頻前端的一體化設(shè)計(jì)對(duì)下一代移動(dòng)設(shè)備真的有影響嗎？

2019-08-01 07:23:17

介紹一種高性能超低功率的存儲(chǔ)器技術(shù)

Molex推出下一代高性能超低功率存儲(chǔ)器技術(shù)

2021-05-21 07:00:24

傳蘋果正開發(fā)下一代無(wú)線充電技術(shù)

據(jù)彭博社報(bào)道，有傳聞稱蘋果公司目前正致力于開發(fā)下一代無(wú)線充電技術(shù)，將可允許iPhone和iPad用戶遠(yuǎn)距離充電。報(bào)道稱，有熟知內(nèi)情的消息人士透露：“蘋果公司正在與美國(guó)和亞洲伙伴展開合作以開發(fā)新的無(wú)線

2016-02-01 14:26:15

低成本低功耗的嵌入式計(jì)算機(jī)視覺平臺(tái)ADZS-BF707-BLIP2

ADZS-BF707-BLIP2，Blackfin低功耗成像平臺(tái)（BLIP）評(píng)估系統(tǒng)是一款低成本，低功耗的嵌入式計(jì)算機(jī)視覺平臺(tái)，適用于大量實(shí)時(shí)傳感應(yīng)用。 BLIP利用行業(yè)領(lǐng)先的低功耗Blackfin

2019-03-08 09:24:38

半導(dǎo)體行業(yè)是否為下一代IVN協(xié)議的需求做好充分準(zhǔn)備？

已經(jīng)成為大量電信和數(shù)據(jù)通信基礎(chǔ)設(shè)施的基礎(chǔ)，目前正在汽車中使用100Mbps的數(shù)據(jù)傳輸速率。下一代1Gbps汽車以太網(wǎng)已經(jīng)為下一代IVN設(shè)計(jì)，將在未來(lái)2-3年內(nèi)推向市場(chǎng)。根據(jù)Strategy

2018-10-17 15:07:16

單片光學(xué)實(shí)現(xiàn)下一代設(shè)計(jì)

單片光學(xué) - 實(shí)現(xiàn)下一代設(shè)計(jì)

2019-09-20 10:40:49

雙向射頻收發(fā)器NCV53480在下一代RKE中的應(yīng)用是什么

雙向射頻收發(fā)器NCV53480在下一代RKE中的應(yīng)用是什么

2021-05-20 06:54:23

基于多傳感器的多模型機(jī)動(dòng)目標(biāo)跟蹤算法設(shè)計(jì)

　　摘要：多模型目標(biāo)跟蹤算法由于其獨(dú)特的處理未知結(jié)構(gòu)和可變參數(shù)的優(yōu)點(diǎn)，已成為當(dāng)前目標(biāo)跟蹤研究領(lǐng)域的一個(gè)重要方向。然而當(dāng)今的多模型目標(biāo)跟蹤方法大都停留在理論層面，因此在實(shí)際應(yīng)用層面上研究并設(shè)計(jì)多模型

2018-12-05 15:16:23

基于CompactRIO和LabVIEW的下一代機(jī)器人控制系統(tǒng)設(shè)計(jì)

用CompactRIO和LabVIEW開發(fā)下一代機(jī)器人控制系統(tǒng)Author(s):Bill Miller - FIRST Frank Merrick - FIRSTKate Pilotte

2019-05-15 09:40:01

如何利用人工智能實(shí)現(xiàn)更為高效的下一代數(shù)據(jù)存儲(chǔ)

充分利用人工智能，實(shí)現(xiàn)更為高效的下一代數(shù)據(jù)存儲(chǔ)

2021-01-15 07:08:39

如何利用低成本FPGA設(shè)計(jì)下一代游戲控制臺(tái)？

如何利用低成本FPGA設(shè)計(jì)下一代游戲控制臺(tái)？

2021-04-30 06:54:28

如何利用新型Linux開發(fā)工具應(yīng)對(duì)下一代嵌入式系統(tǒng)設(shè)計(jì)挑戰(zhàn)?

內(nèi)部增添工程能力。這兩種模式都已被證明是成功的，但是每種做法都需各自的成本。那么我們?cè)撊绾卫眯滦蚅inux開發(fā)工具應(yīng)對(duì)下一代嵌入式系統(tǒng)設(shè)計(jì)挑戰(zhàn)呢?

2019-07-30 06:05:30

如何建設(shè)下一代蜂窩網(wǎng)絡(luò)？

全球網(wǎng)絡(luò)支持移動(dòng)設(shè)備體系結(jié)構(gòu)及其底層技術(shù)面臨很大的挑戰(zhàn)。在蜂窩電話自己巨大成功的推動(dòng)下，移動(dòng)客戶設(shè)備數(shù)量以及他們對(duì)帶寬的要求在不斷增長(zhǎng)。但是分配給移動(dòng)運(yùn)營(yíng)商的帶寬并沒有增長(zhǎng)。網(wǎng)絡(luò)中某一通道的使用效率也保持平穩(wěn)不變。下一代射頻接入網(wǎng)必須要解決這些難題，這似乎很難。

2019-08-19 07:49:08

安捷倫多波長(zhǎng)測(cè)試儀系列概述

高性能波長(zhǎng)測(cè)量確定下一代光網(wǎng)絡(luò)特點(diǎn)

2019-07-12 12:24:27

實(shí)現(xiàn)下一代機(jī)器人至關(guān)重要的關(guān)鍵傳感器技術(shù)介紹

對(duì)實(shí)現(xiàn)下一代機(jī)器人至關(guān)重要的幾項(xiàng)關(guān)鍵傳感器技術(shù)包括磁性位置傳感器、存在傳感器、手勢(shì)傳感器、力矩傳感器、環(huán)境傳感器和電源管理傳感器。

2020-12-07 07:04:36

射頻轉(zhuǎn)換器為下一代無(wú)線基站提供高效的多波段無(wú)線電

為了支持不斷增長(zhǎng)的無(wú)線數(shù)據(jù)需求，現(xiàn)代基站無(wú)線電正在被設(shè)計(jì)成支持多個(gè)E-DURA波段，以及載波聚合技術(shù)。這些多波段無(wú)線電采用下一代，GSPS射頻模數(shù)轉(zhuǎn)換器和DACS，允許頻率捷變，直接射頻信號(hào)合成

2018-12-13 11:07:19

小草帶你體驗(yàn) 下一代LabVIEW 軟件

：https://bbs.elecfans.com/jishu_1102572_1_1.html很多小伙伴由于各種原因，未能看到直播現(xiàn)場(chǎng)內(nèi)容，先發(fā)布一節(jié)視頻。NI公司將發(fā)布基于新軟件下一代LabVIEW，目前

2016-12-25 19:53:36

怎樣去設(shè)計(jì)GSM前端中下一代CMOS開關(guān)？

怎樣去設(shè)計(jì)GSM前端中下一代CMOS開關(guān)？

2021-05-28 06:13:36

性能提升1倍，成本直降50%！基于龍蜥指令加速的下一代云原生網(wǎng)關(guān)

重要方向，我們開啟了下一代網(wǎng)關(guān)的探索之路。傳統(tǒng)網(wǎng)關(guān)傳統(tǒng)網(wǎng)關(guān)通過(guò)流量網(wǎng)關(guān)與業(yè)務(wù)網(wǎng)關(guān)兩層網(wǎng)關(guān)來(lái)構(gòu)建（參考[1]），流量網(wǎng)關(guān)提供全局性的、與后端業(yè)務(wù)無(wú)關(guān)的策略配置，例如 Tengine 就是典型的流量網(wǎng)關(guān)

2022-08-31 10:46:10

提前布局下一代測(cè)試計(jì)量及儀器技術(shù)

，他還沒有的資源可以很快地在模型內(nèi)自動(dòng)生成或開發(fā)，從而可以繼續(xù)滿足任何新的測(cè)試需求。通過(guò)這一模型的建立，將使傳統(tǒng)儀器的“單機(jī)”概念消失，代之而起的是經(jīng)多次、深度集成制造而成的大型“儀器庫(kù)”。在將來(lái)

2020-10-04 14:30:00

支持更多功能的下一代汽車后座娛樂系統(tǒng)

的不斷發(fā)展，紅外線或藍(lán)牙無(wú)線耳機(jī)逐漸普及，光驅(qū)支持的編解碼標(biāo)準(zhǔn)也在不斷增加，如MP3或DviX解碼標(biāo)準(zhǔn)。但是，這些設(shè)備的數(shù)據(jù)源基本沒有發(fā)生變化，還是局限于DVD和CD兩種媒體。下一代后座娛樂系統(tǒng)必須涵蓋

2019-05-16 10:45:09

汽車設(shè)計(jì)師在下一代汽車架構(gòu)中考慮的電壓電源板網(wǎng)

。盡管看似使用單個(gè)高壓電源板網(wǎng)是最好的選擇，但實(shí)際上，不同執(zhí)行器和ECU的功率要求不斷變化，這促使汽車系統(tǒng)設(shè)計(jì)人員在車輛中安裝兩到三個(gè)電壓電源板網(wǎng)。本文中，我們將討論汽車設(shè)計(jì)師在下一代汽車架構(gòu)中考

2022-11-07 07:15:43

測(cè)試下一代核心路由器性能

測(cè)試下一代核心路由器性能

2019-09-19 07:05:39

用Java開發(fā)下一代嵌入式產(chǎn)品

用Java開發(fā)下一代嵌入式產(chǎn)品在我10年的Java布道師生涯里，沒有哪次Java新版本發(fā)布能讓我如此興奮。Java 8的發(fā)布不僅在語(yǔ)言本身加入了些不錯(cuò)的新特性，還在嵌入式開發(fā)上加入了很棒的功能

2021-11-05 09:12:34

用自組織多頻EoC實(shí)現(xiàn)下一代廣電網(wǎng)絡(luò)

【作者】：田明;許如鋼;顧士平;吳軍基;【來(lái)源】：《電視技術(shù)》2010年02期【摘要】：介紹多路并行處理器及高頻調(diào)諧器如何并行協(xié)調(diào)工作,如何自組織實(shí)現(xiàn)多個(gè)頻道捆綁,實(shí)現(xiàn)下一代廣電網(wǎng)絡(luò)。為基于廣電

2010-04-23 11:25:14

簡(jiǎn)單的模型進(jìn)行流固耦合的模態(tài)分析

　　本次分享，對(duì)一個(gè)簡(jiǎn)單的模型進(jìn)行流固耦合的模態(tài)分析，有限元科技小編主要給大家演示如何使用Hypermesh與Nastran對(duì)流固耦合的結(jié)構(gòu)進(jìn)行模態(tài)分析，以及了解聲腔對(duì)結(jié)構(gòu)模態(tài)的影響?！　∩钲谑?/div>

2020-07-07 17:15:39

航空電子設(shè)備PCB組件的實(shí)驗(yàn)模態(tài)分析

的物性參數(shù)圖2 對(duì)象PCB 組件的有限元模型　　1.2 有限元模態(tài)分析結(jié)果　　建立起對(duì)象PCB 組件的有限元模型，并采用蘭索斯分塊法（Block Lanczos Method）進(jìn)行模態(tài)分析。模態(tài)分析

2018-09-13 16:40:12

請(qǐng)問(wèn)Tony Tang，CorTex-A8+C674x的下一代DSP+ARM SOC大約何時(shí)可以開始用戶評(píng)估？

帶PRUSSV2并能支持EtherCAT的，大致相當(dāng)于AM335x+C674x的SOC，目前的L138驅(qū)動(dòng)高分辨率LCD有困難，DM814x少了PRU，成本和功耗也偏高，很關(guān)注您之前提到的TI下一代DSP+ARM SOC，Timeline說(shuō)是2012下半年，現(xiàn)在有新消息么？

2018-06-21 06:22:04

請(qǐng)問(wèn)Ultrascale FPGA中單片和下一代堆疊硅互連技術(shù)是什么意思？

大家好，在Ultrascale FPGA中，使用單片和下一代堆疊硅互連（SSI）技術(shù)編寫。 “單片和下一代堆疊硅互連（SSI）技術(shù)”是什么意思？謝謝娜文G K.

2020-04-27 09:29:55

資料下載：上一代ERP是什么？

前段時(shí)間好友陳果寫了一篇《企業(yè)如何走向下一代ERP（Next Gen ERP）》，我也心癢，遂想寫一篇上一代ERP是什么。不知道上一代ERP是什么，也就很難想象下一代ERP到底為什么是這樣...

2021-07-02 07:23:48

車載信息系統(tǒng)在下一代應(yīng)用的使用

作者：Kristopher CieplakQNX CAR高級(jí)軟件開發(fā)工程師QNX軟件系統(tǒng)公司當(dāng)今的消費(fèi)者希望車載系統(tǒng)能夠與智能電話等消費(fèi)類產(chǎn)品進(jìn)行無(wú)縫互連，從而能夠簡(jiǎn)易地集成一些最新的應(yīng)用軟件于車載

2019-05-16 10:44:48

遠(yuǎn)景研討會(huì) 紀(jì)要，面向下一代計(jì)算的開源芯片與敏捷開發(fā)方法

遠(yuǎn)景研討會(huì)(SIGARCH Visioning Workshop)紀(jì)要面向下一代計(jì)算的開源芯片與敏捷開發(fā)方法作者：包云崗2019 年8 月轉(zhuǎn)自中國(guó)開放指令生態(tài)(RISC-V)聯(lián)盟概要近年來(lái)，開源硬件

2022-08-04 15:38:02

釋放下一代車輛的無(wú)限潛力

提供超低延時(shí)、高靈活性、分擔(dān)CPU負(fù)載和確定性延遲，同時(shí)內(nèi)置安全功能，有助于加快這些高級(jí)應(yīng)用背后的E/E架構(gòu)的下一代區(qū)域網(wǎng)關(guān)的開發(fā)和上市。intoPIX的超低延時(shí)視頻壓縮解決方案· intoPIX 演示

2023-02-21 13:40:29

阿里云安全肖力：云原生安全構(gòu)筑下一代企業(yè)安全架構(gòu)

"數(shù)字經(jīng)濟(jì)的發(fā)展驅(qū)動(dòng)越來(lái)越多的企業(yè)上云，每個(gè)企業(yè)都會(huì)基于云原生安全能力構(gòu)筑下一代企業(yè)安全架構(gòu)，完成從扁平到立體式架構(gòu)的進(jìn)化，屆時(shí)云原生安全技術(shù)紅利也將加速釋放！”9月27日，阿里云智能安全

2019-09-29 15:15:23

面向下一代電視的低功耗LED驅(qū)動(dòng)IC是什么？

面向下一代電視的低功耗LED驅(qū)動(dòng)IC是什么？

2021-06-04 06:36:58

瑞薩電子推出RA6T2 MCU，適用于變頻設(shè)備、樓宇自動(dòng)化和工業(yè)驅(qū)動(dòng)應(yīng)用中的下一代電機(jī)控制

的硬件加速器以及用于實(shí)現(xiàn) 240MHz 高速實(shí)時(shí)性能的高速閃存相結(jié)合，它還可以實(shí)現(xiàn)下一代高速、高響應(yīng)電機(jī)算法，并提高其他通信處理等并行處理性能。RA6T2總共有

2022-03-23 14:52:11

下一代網(wǎng)絡(luò)概述

了解下一代網(wǎng)絡(luò)的基本概念掌握以軟交換為核心的下一代網(wǎng)絡(luò)(NGN)的形態(tài)與結(jié)構(gòu)掌握下一代網(wǎng)絡(luò)的網(wǎng)關(guān)技術(shù)，包括媒體網(wǎng)關(guān)、信令網(wǎng)關(guān)、接入網(wǎng)關(guān)掌握軟交換的概念、原理、

2009-06-22 14:26:17

BLIP2主板支持包

BLIP2 Board Support Package

2021-03-24 16:01:32

BLIP2電路板設(shè)計(jì)數(shù)據(jù)庫(kù)

BLIP2 Board Design Database

2021-03-24 16:48:21

基于層次注意力機(jī)制的多模態(tài)圍堵情感識(shí)別模型

識(shí)別模型。在音頻模態(tài)中加人頻率注意力機(jī)制學(xué)習(xí)頻域上下文信息，利用多模態(tài)注意力機(jī)制將視頻特征與音頻特征進(jìn)行融合，依據(jù)改進(jìn)的損失函數(shù)對(duì)模態(tài)缺失問(wèn)題進(jìn)行優(yōu)化，提高模型的魯棒性以及情感識(shí)別的性能。在公開數(shù)據(jù)集上的實(shí)

2021-04-01 11:20:51

BLIP2電路板設(shè)計(jì)數(shù)據(jù)庫(kù)

BLIP2電路板設(shè)計(jì)數(shù)據(jù)庫(kù)

2021-06-03 20:32:38

BLIP2主板支持包

BLIP2主板支持包

2021-06-05 16:45:55

為下一代家電供電：如何積少成多？

為下一代家電供電：如何積少成多？

2022-11-02 08:16:00

為下一代家電供電：如何集腋成裘

為下一代家電供電：如何集腋成裘

2022-11-02 08:16:07

使用BLIP-2 零樣本“圖生文”

現(xiàn)代計(jì)算機(jī)視覺和自然語(yǔ)言模型在能力越來(lái)越強(qiáng)大的同時(shí)，模型尺寸也隨之顯著增大。由于當(dāng)前進(jìn)行一次單模態(tài)模型的預(yù)訓(xùn)練既耗費(fèi)資源又昂貴，因此端到端視覺語(yǔ)言預(yù)訓(xùn)練的成本也已變得越來(lái)越高。

2023-03-03 11:06:05

711

單張消費(fèi)級(jí)顯卡微調(diào)多模態(tài)大模型

把大模型的訓(xùn)練門檻打下來(lái)！我們?cè)趩螐埾M(fèi)級(jí)顯卡上實(shí)現(xiàn)了多模態(tài)大模型（LaVIN-7B, LaVIN-13B）的適配和訓(xùn)練

2023-06-30 10:43:28

1172

碾壓GPT-4！谷歌DeepMind CEO自曝：下一代大模型將與AlphaGo合體

一個(gè)是用強(qiáng)化學(xué)習(xí)擊敗人類圍棋冠軍、創(chuàng)造歷史的AI系統(tǒng)，一個(gè)是目前霸榜幾乎所有大模型榜單、一騎絕塵的最強(qiáng)多模態(tài)大模型，兩個(gè)AI一合體，簡(jiǎn)直要無(wú)敵了！

2023-07-04 16:28:01

294

VisCPM：邁向多語(yǔ)言多模態(tài)大模型時(shí)代

隨著 GPT-4 和 Stable Diffusion 等模型多模態(tài)能力的突飛猛進(jìn)，多模態(tài)大模型已經(jīng)成為大模型邁向通用人工智能（AGI）目標(biāo)的下一個(gè)前沿焦點(diǎn)。總體而言，面向圖像和文本的多模態(tài)生成能力

2023-07-10 10:05:01

408

更強(qiáng)更通用：智源「悟道3.0」Emu多模態(tài)大模型開源，在多模態(tài)序列中「補(bǔ)全一切」

當(dāng)前學(xué)界和工業(yè)界都對(duì)多模態(tài)大模型研究熱情高漲。去年，谷歌的 Deepmind 發(fā)布了多模態(tài)視覺語(yǔ)言模型 Flamingo ，它使用單一視覺語(yǔ)言模型處理多項(xiàng)任務(wù)，在多模態(tài)大模型領(lǐng)域保持較高

2023-07-16 20:45:02

379

探究編輯多模態(tài)大語(yǔ)言模型的可行性

不同于單模態(tài)模型編輯，多模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單模態(tài)模型編輯入手，將單模態(tài)模型編輯拓展到多模態(tài)模型編輯，主要從以下三個(gè)方面：可靠性（Reliability），穩(wěn)定性（Locality）和泛化性（Generality）。

2023-11-09 14:53:22

215

中國(guó)電信大模型做得怎么樣了？

千億參數(shù)的星辰大模型發(fā)布。從2021年10月啟動(dòng)自研城市治理大模型，星辰大模型已經(jīng)走過(guò)語(yǔ)義大模型、多模態(tài)大模型、語(yǔ)音大模型到下一代數(shù)字人的階段發(fā)展，2023年6月發(fā)布百億參數(shù)大模型，短短4個(gè)月后就發(fā)布千億參數(shù)大模型，用迅猛發(fā)展來(lái)總結(jié)應(yīng)該是準(zhǔn)確的單詞。

2023-11-15 12:24:29

280

大模型+多模態(tài)的3種實(shí)現(xiàn)方法

我們知道，預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就，然而其明顯的劣勢(shì)是不支持其他模態(tài)（包括圖像、語(yǔ)音、視頻模態(tài)）的輸入和輸出，那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息，讓其變得更強(qiáng)大、更通用呢？本節(jié)將介紹“大模型+多模態(tài)”的3種實(shí)現(xiàn)方法。

2023-12-13 13:55:04

524

從Google多模態(tài)大模型看后續(xù)大模型應(yīng)該具備哪些能力

前段時(shí)間Google推出Gemini多模態(tài)大模型，展示了不凡的對(duì)話能力和多模態(tài)能力，其表現(xiàn)究竟如何呢？

2023-12-28 11:19:52

361

機(jī)器人基于開源的多模態(tài)語(yǔ)言視覺大模型

ByteDance Research 基于開源的多模態(tài)語(yǔ)言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作模型，只用單機(jī)就可以訓(xùn)練。

2024-01-19 11:43:08

106

Sora爆紅，多模態(tài)大模型是下一發(fā)展階段

“大語(yǔ)言模型為 AI 產(chǎn)業(yè)帶來(lái)新的生機(jī)，然而語(yǔ)言模型的應(yīng)用場(chǎng)景有限。要全面打開生成式 AI 的想象力，還是要依托多模態(tài)大模型?！盜DC 中國(guó)研究總監(jiān)盧言霞近日表示。Sora在文生視頻領(lǐng)域真正邁出

2024-02-20 16:13:26

159

已全部加載完成

搜索歷史

BLIP-2：下一代多模態(tài)模型的雛形

評(píng)論