嵌入式 AI

AI 簡(jiǎn)報(bào) 20230414 期

1. 黑芝麻智能7nm中央計(jì)算芯片正式發(fā)布，單芯片實(shí)現(xiàn)智能汽車(chē)跨域融合

原文：https://mp.weixin.qq.com/s/s-oDcsvKmwDx81E8LL1quw

在智能網(wǎng)聯(lián)概念的推動(dòng)下，智能汽車(chē)的發(fā)展已經(jīng)從域控逐漸過(guò)渡到域融合，并繼續(xù)向著中央集成去邁進(jìn)。架構(gòu)的變化對(duì)作為系統(tǒng)核心的計(jì)算芯片也提出了新的要求，為了幫助汽車(chē)產(chǎn)業(yè)更好地應(yīng)對(duì)未來(lái)的智能汽車(chē)需求，在4月7日舉辦的“芯所向至未來(lái) BEST TECH Day 2023”黑芝麻智能戰(zhàn)略發(fā)布暨生態(tài)合作伙伴大會(huì)上，該公司正式發(fā)布首個(gè)車(chē)規(guī)級(jí)跨域計(jì)算平臺(tái)——武當(dāng)系列，以及系列中首款產(chǎn)品C1200芯片。

武當(dāng)系列面向架構(gòu)創(chuàng)新

當(dāng)前，汽車(chē)行業(yè)的發(fā)展可以說(shuō)是日新月異，正在經(jīng)歷前所未有之大變局，機(jī)會(huì)迎面而來(lái)，而機(jī)會(huì)也稍縱即逝。黑芝麻智能創(chuàng)始人兼CEO單記章表示，黑芝麻智能要做改變?nèi)祟?lèi)出行方式的芯片，用人工智能、感知技術(shù)、核心芯片去改變汽車(chē)行業(yè)。

“經(jīng)過(guò)長(zhǎng)達(dá)24個(gè)月的艱苦研發(fā)，我們向行業(yè)正式推出黑芝麻智能全新的產(chǎn)品線(xiàn)——武當(dāng)系列，主打跨域計(jì)算。”他在介紹中提到，“目前，行業(yè)對(duì)于L3及以下級(jí)別自動(dòng)駕駛的算力需求比較清晰，黑芝麻智能A1000芯片已經(jīng)能夠很好地支持前融合BEV算法。面向未來(lái)，華山系列仍將繼續(xù)探索更高級(jí)別自動(dòng)駕駛對(duì)算力的清晰需求，而武當(dāng)系列則關(guān)注跨域融合向中央計(jì)算架構(gòu)的轉(zhuǎn)變，通過(guò)架構(gòu)創(chuàng)新，提升智能汽車(chē)的整體性能?！?/p>

黑芝麻智能產(chǎn)品副總裁丁丁在會(huì)上對(duì)武當(dāng)系列和C1200進(jìn)行了全面的介紹。他談到，智車(chē)時(shí)代，汽車(chē)行業(yè)將會(huì)有四大新需求，分別是架構(gòu)創(chuàng)新、算力綜合、車(chē)規(guī)安全和平臺(tái)化方案。那么，作為智車(chē)時(shí)代的車(chē)載計(jì)算方案，就需要能夠支持七大類(lèi)算力需求，依次是通用邏輯、圖形渲染、音頻音效、數(shù)學(xué)計(jì)算、實(shí)時(shí)控制、人工智能和數(shù)據(jù)處理。

為了解決未來(lái)的行業(yè)需求和算力需求，黑芝麻智能的武當(dāng)系列芯片具有四大典型優(yōu)勢(shì)——新、準(zhǔn)、強(qiáng)、高。

“新”是指創(chuàng)新的架構(gòu)融合。武當(dāng)系列通過(guò)異構(gòu)隔離技術(shù)，把不同算力根據(jù)不同場(chǎng)景，以及不同規(guī)格和安全要求，進(jìn)行搭配組合，能夠支撐汽車(chē)電子電氣架構(gòu)的靈活發(fā)展，支持雙腦、艙駕、中央計(jì)算等各種架構(gòu)方案。

“準(zhǔn)”是指準(zhǔn)確的市場(chǎng)定位。如上所述，黑芝麻智能武當(dāng)系列精準(zhǔn)服務(wù)于海量的L2+級(jí)別融合計(jì)算市場(chǎng)，通過(guò)單芯片支持跨域融合的方式，力求在這一市場(chǎng)給下游客戶(hù)帶來(lái)高賦能價(jià)值、成本最優(yōu)、系統(tǒng)最優(yōu)的解決方案。

“強(qiáng)”是指強(qiáng)大的家族化平臺(tái)。武當(dāng)系列基于當(dāng)前行業(yè)最先進(jìn)的平臺(tái)架構(gòu)，其中C1200選擇的是7nm工藝，領(lǐng)先的工藝保證了芯片的算力、功耗、成本能夠達(dá)到更好的平衡。同時(shí)，黑芝麻智能在軟硬件結(jié)合上提供SDK配套方案，滿(mǎn)足客戶(hù)各場(chǎng)景需求，節(jié)省開(kāi)發(fā)時(shí)間，以及后續(xù)的長(zhǎng)期維護(hù)代價(jià)。因此，黑芝麻智能不僅芯片是家族化規(guī)劃，軟件平臺(tái)同樣如此，確保了客戶(hù)軟件資產(chǎn)能夠得到最好的繼承。

“高”是指滿(mǎn)足最高車(chē)規(guī)要求。丁丁在介紹時(shí)指出，黑芝麻智能三代車(chē)規(guī)級(jí)芯片，每一代都一次性流片成功，持續(xù)為客戶(hù)提供高可靠性+高功能性安全+高信息安全的方案體驗(yàn)。武當(dāng)系列在上一代芯片平臺(tái)的基礎(chǔ)上進(jìn)一步優(yōu)化了設(shè)計(jì)，可提供行業(yè)最高標(biāo)準(zhǔn)的Safety和Security能力。

智能汽車(chē)跨域計(jì)算平臺(tái)C1200

C1200是武當(dāng)系列的首款產(chǎn)品，基于7nm計(jì)算平臺(tái)，內(nèi)部搭載支持鎖步的車(chē)規(guī)級(jí)高性能CPU 核A78AE（性能高達(dá)150KDMIPS），和車(chē)規(guī)級(jí)高性能GPU核G78AE，提供強(qiáng)大的通用計(jì)算和通用渲染算力。C1200提供豐富的片上資源，包括黑芝麻智能自研DynamAI NN車(chē)規(guī)級(jí)低功耗神經(jīng)網(wǎng)絡(luò)加速引擎，新一代自研多功能NeuralIQ ISP模塊，高性能HIFI DSP，支持多組鎖步的MCU算力，支持17MP高清攝像頭的MIPI等。

并且，丁丁強(qiáng)調(diào)，C1200還提供豐富的接口資源，比如支持處理多路CAN數(shù)據(jù)的接入和轉(zhuǎn)發(fā)，支持以太網(wǎng)接口并支持所有常用的顯示接口格式，支持雙通道的LPDDR5內(nèi)存，等等。

在異構(gòu)隔離技術(shù)的賦能下，黑芝麻智能C1200芯片開(kāi)創(chuàng)性地實(shí)現(xiàn)了硬隔離獨(dú)立計(jì)算子系統(tǒng)，獨(dú)立渲染，獨(dú)立顯示，滿(mǎn)足儀表控制屏的高安全性和快速啟動(dòng)的要求。同時(shí)，該子系統(tǒng)也可以靈活應(yīng)用于自動(dòng)駕駛、HUD抬頭顯示等需要獨(dú)立系統(tǒng)的計(jì)算場(chǎng)景。

當(dāng)然，C1200芯片領(lǐng)先行業(yè)的安全性也需要特別指出。該芯片內(nèi)置支持ASIL-D等級(jí)的Safety Island和國(guó)密二級(jí)和EVITA full的Security模塊，并滿(mǎn)足車(chē)規(guī)安全等級(jí)最高的可靠性要求。

基于這些領(lǐng)先性能，C1200單芯片支持跨域計(jì)算多種場(chǎng)景，包括CMS（電子后視鏡）系統(tǒng)、行泊一體、智能大燈、整車(chē)計(jì)算、信息娛樂(lè)系統(tǒng)、智能座艙、艙內(nèi)感知系統(tǒng)等。

綜上所述，黑芝麻智能C1200將在跨域融合方面帶來(lái)極致的性?xún)r(jià)比。丁丁指出，目前基于C1200的原型機(jī)已經(jīng)準(zhǔn)備就緒，將在2023年內(nèi)提供樣片。

黑芝麻智能定位全面升級(jí)

除了C1200單芯片支持智能汽車(chē)跨域融合以外，黑芝麻智能也是行業(yè)內(nèi)首個(gè)提出單芯片支持行泊一體方案的公司。幾天前，該公司剛剛宣布實(shí)現(xiàn)能夠?qū)崿F(xiàn)支持10V（攝像頭）NOA功能的行泊一體域控制器BOM成本控制在3000元人民幣以?xún)?nèi)，支持50-100T物理算力。

單記章指出，2023年汽車(chē)行業(yè)面臨著非常大的降價(jià)壓力，成本壓力也會(huì)傳導(dǎo)到上游的供應(yīng)鏈。在自動(dòng)駕駛方案上，合理的算力+高性能+高性?xún)r(jià)比將成為市場(chǎng)主流。50T左右的物理算力能夠支持L2+、L2++級(jí)別的自動(dòng)駕駛已經(jīng)成為市場(chǎng)的標(biāo)準(zhǔn)配置。

同時(shí)，會(huì)場(chǎng)外也展示出了基于黑芝麻智能芯片的豐富方案，來(lái)自該公司自己以及行業(yè)合作伙伴。這些具有顛覆性創(chuàng)新方案的背后是黑芝麻智能企業(yè)定位的升級(jí)。單記章表示，黑芝麻智能已經(jīng)從“自動(dòng)駕駛計(jì)算芯片的引領(lǐng)者”升級(jí)為“智能汽車(chē)計(jì)算芯片的引領(lǐng)者”。

他在演講中提到黑芝麻智能戰(zhàn)略定位的三步走計(jì)劃：

第一步：聚焦自動(dòng)駕駛計(jì)算芯片及解決方案，實(shí)現(xiàn)產(chǎn)品的商業(yè)化落地，形成完整的技術(shù)閉環(huán)；
第二步：根據(jù)汽車(chē)電子電氣架構(gòu)的發(fā)展趨勢(shì)，拓展產(chǎn)品線(xiàn)覆蓋到車(chē)內(nèi)更多的計(jì)算節(jié)點(diǎn)，形成多產(chǎn)線(xiàn)的組合；
第三步：不斷擴(kuò)充產(chǎn)品線(xiàn)覆蓋更多汽車(chē)的需求，為客戶(hù)提供基于我們芯片的多種汽車(chē)軟硬件解決方案。

單記章在會(huì)上呼吁：“中國(guó)市場(chǎng)已經(jīng)開(kāi)始逐漸走出一條屬于自己的自動(dòng)駕駛技術(shù)路線(xiàn)，我們歡迎友商和合作伙伴光明正大地競(jìng)爭(zhēng)和合作，這樣中國(guó)自動(dòng)駕駛行業(yè)才能夠良性發(fā)展?！?/p>

后記

大會(huì)上，黑芝麻智能還發(fā)布了“華山開(kāi)發(fā)者計(jì)劃”，并邀請(qǐng)到來(lái)自長(zhǎng)安汽車(chē)、東風(fēng)汽車(chē)和億咖通等公司的頂級(jí)行業(yè)專(zhuān)家進(jìn)行技術(shù)分享?？梢钥闯觯殡S著黑芝麻智能企業(yè)定位的升級(jí)，不僅是軟硬件方面會(huì)更加豐富，生態(tài)同樣在日益壯大。在堅(jiān)持顛覆式創(chuàng)新之路上，黑芝麻智能路越走越遠(yuǎn)，路也越走越寬。

2. 無(wú)需寫(xiě)代碼能力，手搓最簡(jiǎn)單BabyGPT模型：前特斯拉AI總監(jiān)新作

原文：https://mp.weixin.qq.com/s/BBRBjH-y4hG8AoN2SfMyrw

我們知道，OpenAI 的 GPT 系列通過(guò)大規(guī)模和預(yù)訓(xùn)練的方式打開(kāi)了人工智能的新時(shí)代，然而對(duì)于大多數(shù)研究者來(lái)說(shuō)，語(yǔ)言大模型（LLM）因?yàn)轶w量和算力需求而顯得高不可攀。在技術(shù)向上發(fā)展的同時(shí)，人們也一直在探索「最簡(jiǎn)」的 GPT 模式。

近日，特斯拉前 AI 總監(jiān)，剛剛回歸 OpenAI 的 Andrej Karpathy 介紹了一種最簡(jiǎn) GPT 的玩法，或許能為更多人了解這種流行 AI 模型背后的技術(shù)帶來(lái)幫助。

是的，這是一個(gè)帶有兩個(gè) token 0/1 和上下文長(zhǎng)度為 3 的極簡(jiǎn) GPT，將其視為有限狀態(tài)馬爾可夫鏈。它在序列「111101111011110」上訓(xùn)練了 50 次迭代，Transformer 的參數(shù)和架構(gòu)修改了箭頭上的概率。

例如我們可以看到：

在訓(xùn)練數(shù)據(jù)中，狀態(tài) 101 確定性地轉(zhuǎn)換為 011，因此該轉(zhuǎn)換的概率變得更高 (79%)。但不接近于 100%，因?yàn)檫@里只做了 50 步優(yōu)化。
狀態(tài) 111 以 50% 的概率分別進(jìn)入 111 和 110，模型幾乎已學(xué)會(huì)了（45%、55%）。
在訓(xùn)練期間從未遇到過(guò)像 000 這樣的狀態(tài)，但具有相對(duì)尖銳的轉(zhuǎn)換概率，例如 73% 轉(zhuǎn)到 001。這是 Transformer 歸納偏差的結(jié)果。你可能會(huì)想這是 50%，除了在實(shí)際部署中幾乎每個(gè)輸入序列都是唯一的，而不是逐字地出現(xiàn)在訓(xùn)練數(shù)據(jù)中。

通過(guò)簡(jiǎn)化，Karpathy 已讓 GPT 模型變得易于可視化，讓你可以直觀地了解整個(gè)系統(tǒng)。

你可以在這里嘗試它：

https://colab.research.google.com/drive/1SiF0KZJp75rUeetKOWqpsA8clmHP6jMg?usp=sharing

實(shí)際上，即使是 GPT 的最初版本，模型的體量很相當(dāng)可觀：在 2018 年，OpenAI 發(fā)布了第一代 GPT 模型，從論文《Improving Language Understanding by Generative Pre-Training》可以了解到，其采用了 12 層的 Transformer Decoder 結(jié)構(gòu)，使用約 5GB 無(wú)監(jiān)督文本數(shù)據(jù)進(jìn)行訓(xùn)練。

但如果將其概念簡(jiǎn)化，GPT 是一種神經(jīng)網(wǎng)絡(luò)，它采用一些離散 token 序列并預(yù)測(cè)序列中下一個(gè) token 的概率。例如，如果只有兩個(gè)標(biāo)記 0 和 1，那么一個(gè)很小的二進(jìn)制 GPT 可以例如告訴我們：

1[0,1,0]--->GPT--->[P(0)=20%,P(1)=80%]

在這里，GPT 采用位序列 [0,1,0]，并根據(jù)當(dāng)前的參數(shù)設(shè)置，預(yù)測(cè)下一個(gè)為 1 的可能性為 80%。重要的是，默認(rèn)情況下 GPT 的上下文長(zhǎng)度是有限的。如果上下文長(zhǎng)度為 3，那么它們?cè)谳斎霑r(shí)最多只能使用 3 個(gè) token。在上面的例子中，如果我們拋出一枚有偏差的硬幣并采樣 1 確實(shí)應(yīng)該是下一個(gè)，那么我們將從原始狀態(tài) [0,1,0] 轉(zhuǎn)換到新?tīng)顟B(tài) [1,0,1]。我們?cè)谟覀?cè)添加了新位 (1)，并通過(guò)丟棄最左邊的位 (0) 將序列截?cái)酁樯舷挛拈L(zhǎng)度 3，然后可以一遍又一遍地重復(fù)這個(gè)過(guò)程以在狀態(tài)之間轉(zhuǎn)換。

很明顯，GPT 是一個(gè)有限狀態(tài)馬爾可夫鏈：有一組有限的狀態(tài)和它們之間的概率轉(zhuǎn)移箭頭。每個(gè)狀態(tài)都由 GPT 輸入處 token 的特定設(shè)置定義（例如 [0,1,0]）。我們可以以一定的概率將其轉(zhuǎn)換到新?tīng)顟B(tài)，如 [1,0,1]。讓我們?cè)敿?xì)看看它是如何工作的：

1#hyperparametersforourGPT#vocabsizeis2,soweonlyhavetwopossibletokens:0,1vocab_size=2#contextlengthis3,sowetake3bitstopredictthenextbitprobabilitycontext_length=3

GPT 神經(jīng)網(wǎng)絡(luò)的輸入是長(zhǎng)度為 context_length 的 token 序列。這些 token 是離散的，因此狀態(tài)空間很簡(jiǎn)單：

1print('statespace(forthisexercise)=',vocab_size**context_length)#statespace(forthisexercise)=8

細(xì)節(jié)：準(zhǔn)確來(lái)說(shuō)，GPT 可以采用從 1 到 context_length 的任意數(shù)量的 token。因此如果上下文長(zhǎng)度為 3，原則上我們可以在嘗試預(yù)測(cè)下一個(gè) token 時(shí)輸入 1 個(gè)、2 個(gè)或 3 個(gè) token。這里我們忽略這一點(diǎn)并假設(shè)上下文長(zhǎng)度已「最大化」，只是為了簡(jiǎn)化下面的一些代碼，但這一點(diǎn)值得牢記。

1print('actualstatespace(inreality)=',sum(vocab_size**iforiinrange(1,context_length+1)))#actualstatespace(inreality)=14

我們現(xiàn)在要在 PyTorch 中定義一個(gè) GPT。出于本筆記本的目的，你無(wú)需理解任何此代碼。

現(xiàn)在讓我們構(gòu)建 GPT 吧：

1config=GPTConfig(block_size=context_length,vocab_size=vocab_size,n_layer=4,n_head=4,n_embd=16,bias=False,)gpt=GPT(config)

對(duì)于這個(gè)筆記本你不必?fù)?dān)心 n_layer、n_head、n_embd、bias，這些只是實(shí)現(xiàn) GPT 的 Transformer 神經(jīng)網(wǎng)絡(luò)的一些超參數(shù)。

GPT 的參數(shù)（12656 個(gè)）是隨機(jī)初始化的，它們參數(shù)化了狀態(tài)之間的轉(zhuǎn)移概率。如果你平滑地更改這些參數(shù)，就會(huì)平滑地影響狀態(tài)之間的轉(zhuǎn)換概率。

現(xiàn)在讓我們?cè)囈辉囯S機(jī)初始化的 GPT。讓我們獲取上下文長(zhǎng)度為 3 的小型二進(jìn)制 GPT 的所有可能輸入：

1defall_possible(n,k):#returnallpossiblelistsofkelements,eachinrangeof[0,n)ifk==0:yield[]else:foriinrange(n):forcinall_possible(n,k-1):yield[i]+clist(all_possible(vocab_size,context_length))
2

1[[0,0,0],[0,0,1],[0,1,0],[0,1,1],[1,0,0],[1,0,1],[1,1,0],[1,1,1]]

這是 GPT 可能處于的 8 種可能狀態(tài)。讓我們對(duì)這些可能的標(biāo)記序列中的每一個(gè)運(yùn)行 GPT，并獲取序列中下一個(gè)標(biāo)記的概率，并繪制為可視化程度比較高的圖形：

 1#we'llusegraphvizforprettyplottingthecurrentstateoftheGPTfromgraphvizimportDigraph
 2
 3defplot_model():dot=Digraph(comment='BabyGPT',engine='circo')
 4
 5forxiinall_possible(gpt.config.vocab_size,gpt.config.block_size):
 6#forwardtheGPTandgetprobabilitiesfornexttokenx=torch.tensor(xi,dtype=torch.long)[None,...]#turnthelistintoatorchtensorandaddabatchdimensionlogits=gpt(x)#forwardthegptneuralnetprobs=nn.functional.softmax(logits,dim=-1)#gettheprobabilitiesy=probs[0].tolist()#removethebatchdimensionandunpackthetensorintosimplelistprint(f"input{xi}--->{y}")
 7
 8#alsobuildupthetransitiongraphforplottinglatercurrent_node_signature="".join(str(d)fordinxi)dot.node(current_node_signature)fortinrange(gpt.config.vocab_size):next_node=xi[1:]+[t]#cropthecontextandappendthenextcharacternext_node_signature="".join(str(d)fordinnext_node)p=y[t]label=f"{t}({p*100:.0f}%)"dot.edge(current_node_signature,next_node_signature,label=label)
 9returndot
10
11plot_model()

1input[0,0,0]--->[0.4963349997997284,0.5036649107933044]input[0,0,1]--->[0.4515703618526459,0.5484296679496765]input[0,1,0]--->[0.49648362398147583,0.5035163760185242]input[0,1,1]--->[0.45181113481521606,0.5481888651847839]input[1,0,0]--->[0.4961162209510803,0.5038837194442749]input[1,0,1]--->[0.4517717957496643,0.5482282042503357]input[1,1,0]--->[0.4962802827358246,0.5037197470664978]input[1,1,1]--->[0.4520467519760132,0.5479532480239868]

我們看到了 8 個(gè)狀態(tài)，以及連接它們的概率箭頭。因?yàn)橛?2 個(gè)可能的標(biāo)記，所以每個(gè)節(jié)點(diǎn)有 2 個(gè)可能的箭頭。請(qǐng)注意，在初始化時(shí)，這些概率中的大多數(shù)都是統(tǒng)一的（在本例中為 50%），這很好而且很理想，因?yàn)槲覀兩踔粮緵](méi)有訓(xùn)練模型。

下面開(kāi)始訓(xùn)練：

1#let'strainourbabyGPTonthissequenceseq=list(map(int,"111101111011110"))seq

1[1,1,1,1,0,1,1,1,1,0,1,1,1,1,0]

1#convertthesequencetoatensorholdingalltheindividualexamplesinthatsequenceX,Y=[],[]#iterateoverthesequenceandgrabeveryconsecutive3bits#thecorrectlabelforwhat'snextisthenextbitateachpositionforiinrange(len(seq)-context_length):X.append(seq[i:i+context_length])Y.append(seq[i+context_length])print(f"example{i+1:2d}:{X[-1]}-->{Y[-1]}")X=torch.tensor(X,dtype=torch.long)Y=torch.tensor(Y,dtype=torch.long)print(X.shape,Y.shape)

我們可以看到在那個(gè)序列中有 12 個(gè)示例。現(xiàn)在讓我們訓(xùn)練它：

1#initaGPTandtheoptimizertorch.manual_seed(1337)gpt=GPT(config)optimizer=torch.optim.AdamW(gpt.parameters(),lr=1e-3,weight_decay=1e-1)

1#traintheGPTforsomenumberofiterationsforiinrange(50):logits=gpt(X)loss=F.cross_entropy(logits,Y)loss.backward()optimizer.step()optimizer.zero_grad()print(i,loss.item())

1print("Trainingdatasequence,asareminder:",seq)plot_model()我們沒(méi)有得到這些箭頭的準(zhǔn)確 100% 或 50% 的概率，因?yàn)?a href="http://www.delux-kingway.cn/v/tag/1722/" target="_blank">網(wǎng)絡(luò)沒(méi)有經(jīng)過(guò)充分訓(xùn)練，但如果繼續(xù)訓(xùn)練，你會(huì)期望接近。

請(qǐng)注意一些其他有趣的事情：一些從未出現(xiàn)在訓(xùn)練數(shù)據(jù)中的狀態(tài)（例如 000 或 100）對(duì)于接下來(lái)應(yīng)該出現(xiàn)的 token 有很大的概率。如果在訓(xùn)練期間從未遇到過(guò)這些狀態(tài)，它們的出站箭頭不應(yīng)該是 50% 左右嗎？這看起來(lái)是個(gè)錯(cuò)誤，但實(shí)際上是可取的，因?yàn)樵诓渴鹌陂g的真實(shí)應(yīng)用場(chǎng)景中，幾乎每個(gè) GPT 的測(cè)試輸入都是訓(xùn)練期間從未見(jiàn)過(guò)的輸入。我們依靠 GPT 的內(nèi)部結(jié)構(gòu)（及其「歸納偏差」）來(lái)適當(dāng)?shù)貓?zhí)行泛化。

大小比較：

GPT-2 有 50257 個(gè) token 和 2048 個(gè) token 的上下文長(zhǎng)度。所以 `log2 (50,257) * 2048 = 每個(gè)狀態(tài) 31,984 位 = 3,998 kB。這足以實(shí)現(xiàn)量變。
GPT-3 的上下文長(zhǎng)度為 4096，因此需要 8kB 的內(nèi)存；大約相當(dāng)于 Atari 800。
GPT-4 最多 32K 個(gè) token，所以大約 64kB，即 Commodore64。
I/O 設(shè)備：一旦開(kāi)始包含連接到外部世界的輸入設(shè)備，所有有限狀態(tài)機(jī)分析就會(huì)崩潰。在 GPT 領(lǐng)域，這將是任何一種外部工具的使用，例如必應(yīng)搜索能夠運(yùn)行檢索查詢(xún)以獲取外部信息并將其合并為輸入。

Andrej Karpathy 是 OpenAI 的創(chuàng)始成員和研究科學(xué)家。但在 OpenAI 成立一年多后，Karpathy 便接受了馬斯克的邀請(qǐng)，加入了特斯拉。在特斯拉工作的五年里，他一手促成了 Autopilot 的開(kāi)發(fā)。這項(xiàng)技術(shù)對(duì)于特斯拉的完全自動(dòng)駕駛系統(tǒng) FSD 至關(guān)重要，也是馬斯克針對(duì) Model S、Cybertruck 等車(chē)型的賣(mài)點(diǎn)之一。

今年 2 月，在 ChatGPT 火熱的背景下，Karpathy 回歸 OpenAI，立志構(gòu)建現(xiàn)實(shí)世界的 JARVIS 系統(tǒng)。

英偉達(dá)人工智能科學(xué)家 Jim Fan 表示：「對(duì)于 Meta 的這項(xiàng)研究，我認(rèn)為是計(jì)算機(jī)視覺(jué)領(lǐng)域的 GPT-3 時(shí)刻之一。它已經(jīng)了解了物體的一般概念，即使對(duì)于未知對(duì)象、不熟悉的場(chǎng)景（例如水下圖像）和模棱兩可的情況下也能進(jìn)行很好的圖像分割。最重要的是，模型和數(shù)據(jù)都是開(kāi)源的。恕我直言，Segment-Anything 已經(jīng)把所有事情（分割）都做的很好了?！?/p>

3. CV開(kāi)啟大模型時(shí)代！谷歌發(fā)布史上最大ViT：220億參數(shù)，視覺(jué)感知力直逼人類(lèi)

原文：https://mp.weixin.qq.com/s/lWgA5JiBhUYAzeGvgqE_mg

Transformer無(wú)疑是促進(jìn)自然語(yǔ)言處理領(lǐng)域繁榮的最大功臣，也是GPT-4等大規(guī)模語(yǔ)言模型的基礎(chǔ)架構(gòu)。

不過(guò)相比語(yǔ)言模型動(dòng)輒成千上萬(wàn)億的參數(shù)量，計(jì)算機(jī)視覺(jué)領(lǐng)域吃到Transformer的紅利就沒(méi)那么多了，目前最大的視覺(jué)Transformer模型ViT-e的參數(shù)量還只有40億參數(shù)。

最近谷歌發(fā)布了一篇論文，研究人員提出了一種能夠高效且穩(wěn)定訓(xùn)練大規(guī)模Vision Transformers(ViT)模型的方法，成功將ViT的參數(shù)量提升到220億。

論文鏈接：https://arxiv.org/abs/2302.05442

為了實(shí)現(xiàn)模型的擴(kuò)展，ViT-22B結(jié)合了其他語(yǔ)言模型（如PaLM模型）的思路，使用 QK 歸一化改進(jìn)了訓(xùn)練穩(wěn)定性，提出了一種異步并行線(xiàn)性操作（asynchronous parallel linear operations） 的新方法提升訓(xùn)練效率，并且能夠在硬件效率更高的Cloud TPU上進(jìn)行訓(xùn)練。

在對(duì)ViT-22B模型進(jìn)行實(shí)驗(yàn)以評(píng)估下游任務(wù)性能時(shí)，ViT-22B也表現(xiàn)出類(lèi)似大規(guī)模語(yǔ)言模型的能力，即隨著模型規(guī)模的擴(kuò)大，性能也在不斷提升。

ViT-22B 還可以應(yīng)用于PaLM-e中，與語(yǔ)言模型結(jié)合后的大模型可以顯著提升機(jī)器人任務(wù)的技術(shù)水平。

研究人員還進(jìn)一步觀察到規(guī)模帶來(lái)的其他優(yōu)勢(shì)，包括更好地平衡公平性和性能，在形狀/紋理偏見(jiàn)方面與人類(lèi)視覺(jué)感知的一致性，以及更好的穩(wěn)健性。

模型架構(gòu)

ViT-22B 是一個(gè)基于Transformer架構(gòu)的模型，和原版ViT架構(gòu)相比，研究人員主要做了三處修改以提升訓(xùn)練效率和訓(xùn)練穩(wěn)定性。

并行層（parallel layers）

ViT-22B并行執(zhí)行注意力塊和MLP塊，而在原版Transformer中為順序執(zhí)行。

PaLM模型的訓(xùn)練也采用了這種方法，可以將大模型的訓(xùn)練速度提高15%，并且性能沒(méi)有下降。

query/key (QK) normalization

在擴(kuò)展ViT的過(guò)程中，研究人員在80億參數(shù)量的模型中觀察到，在訓(xùn)練幾千步之后訓(xùn)練損失開(kāi)始發(fā)散(divergence)，主要是由于注意力logits的數(shù)值過(guò)大引起的不穩(wěn)定性，導(dǎo)致零熵的注意力權(quán)重（幾乎one-hot）。

為了解決這個(gè)問(wèn)題，研究人員在點(diǎn)乘注意力計(jì)算之前對(duì)Query和Key使用LayerNorm

在80億參數(shù)模型上的實(shí)驗(yàn)結(jié)果如下圖所示，歸一化可以緩解發(fā)散問(wèn)題。

刪除QKV投影和LayerNorms上的偏置項(xiàng)

和PaLM模型一樣，ViT-22B從QKV投影中刪除了偏置項(xiàng)，并且在所有LayerNorms中都沒(méi)有偏置項(xiàng)（bias）和centering，使得硬件利用率提高了3%，并且質(zhì)量沒(méi)有下降。

不過(guò)與PaLM不同的是，ViT-22B對(duì)（內(nèi)部和外部）MLP稠密連接層使用了偏置項(xiàng)，可以觀察到質(zhì)量得到了改善，并且速度也沒(méi)有下降。

ViT-22B的編碼器模塊中，嵌入層，包括抽取patches、線(xiàn)性投影和額外的位置嵌入都與原始ViT中使用的相同，并且使用多頭注意力pooling來(lái)聚合每個(gè)頭中的per-token表征。

ViT-22B的patch尺寸為14×14，圖像的分辨率為224×224（通過(guò)inception crop和隨機(jī)水平翻轉(zhuǎn)進(jìn)行預(yù)處理）。

異步并聯(lián)線(xiàn)性運(yùn)算（asynchronous parallel linear operations）

大規(guī)模的模型還需要分片（sharding），即將模型參數(shù)分布在不同的計(jì)算設(shè)備中，除此之外，研究人員還把激活（acctivations，輸入的中間表征）也進(jìn)行分片。

因?yàn)檩斎牒途仃嚤旧矶际欠植荚诟鞣N設(shè)備上的，即使是像矩陣乘法這樣簡(jiǎn)單的操作也需要特別小心。

研究人員開(kāi)發(fā)了一種稱(chēng)為異步并行線(xiàn)性運(yùn)算的方法，可以在矩陣乘法單元（在TPU 中占據(jù)絕大多數(shù)計(jì)算能力的單元）中計(jì)算時(shí)，同時(shí)對(duì)設(shè)備之間的激活和權(quán)值進(jìn)行通信。

異步方法最小化了等待傳入通信的時(shí)間，從而提高了設(shè)備效率。

異步并行線(xiàn)性運(yùn)算的目標(biāo)是計(jì)算矩陣乘法 y = Ax，但矩陣 A 和激活 x 都分布在不同的設(shè)備上，需要通過(guò)跨設(shè)備的重疊通信和計(jì)算來(lái)實(shí)現(xiàn)這一點(diǎn)。矩陣 A 在設(shè)備之間進(jìn)行列分片（column-shard），每個(gè)矩陣包含一個(gè)連續(xù)的切片，每個(gè)塊表示為 Aij，更多細(xì)節(jié)請(qǐng)看原始論文。

實(shí)驗(yàn)結(jié)果

為了說(shuō)明ViT-22B學(xué)習(xí)到的表征非常豐富，研究人員使用LiT-tuning訓(xùn)練一個(gè)文本模型來(lái)生成一些表征用來(lái)對(duì)齊文本和圖像。

下面是用Parti 和 Imagen 生成的分布外（out-of-distribution）圖像得到的實(shí)驗(yàn)結(jié)果，可以看到ViT-22B的zero-shot圖像分類(lèi)泛化能力非常強(qiáng)，僅從web上爬取的自然圖像就能識(shí)別出沒(méi)見(jiàn)過(guò)的物體和場(chǎng)景。

論文中還討論了ViT-22B在視頻分類(lèi)、深度估計(jì)和語(yǔ)義分割任務(wù)上的效果。

結(jié)論

研究人員提出了一個(gè)目前最大的視覺(jué)Transformer模型 ViT-22B，包含220億參數(shù)。

通過(guò)對(duì)原始模型架構(gòu)進(jìn)行微小但關(guān)鍵的修改后，實(shí)現(xiàn)了更高的硬件利用率和訓(xùn)練穩(wěn)定性，從而得到了一個(gè)在幾個(gè)基準(zhǔn)測(cè)試上提高了模型的上限性能。

使用凍結(jié)模型生成嵌入，只需要在頂部訓(xùn)練幾層，即可獲得很好的性能，并且評(píng)估結(jié)果進(jìn)一步表明，與現(xiàn)有模型相比，ViT-22B 在形狀和紋理偏差方面顯示出與人類(lèi)視知覺(jué)更多的相似性，并且在公平性和穩(wěn)健性方面提供了優(yōu)勢(shì)。

4. 計(jì)算機(jī)視覺(jué)中的圖像標(biāo)注工具總結(jié)

原文：https://mp.weixin.qq.com/s/ggxVzo4pEjRP5Jn0zzb0Fg

labelme

地址：https://github.com/wkentaro/labelme

你可以用它做什么

labelme 是一個(gè)基于 python 的開(kāi)源圖像多邊形標(biāo)注工具，可用于手動(dòng)標(biāo)注圖像以進(jìn)行對(duì)象檢測(cè)、分割和分類(lèi)。它是在線(xiàn) LabelMe 的離線(xiàn)分支，最近關(guān)閉了新用戶(hù)注冊(cè)選項(xiàng)。所以，在這篇文章中，我們只考慮 labelme（小寫(xiě)）。

該工具是具有直觀用戶(hù)界面的輕量級(jí)圖形應(yīng)用程序。使用 labelme，您可以創(chuàng)建：多邊形、矩形、圓、線(xiàn)、點(diǎn)或線(xiàn)帶。通常，能夠以眾所周知的格式（例如 COCO、YOLO 或 PASCAL VOL）導(dǎo)出注釋以供后續(xù)使用通常很方便。但是，在 labelme 中，標(biāo)簽只能直接從應(yīng)用程序保存為 JSON 文件。如果要使用其他格式，可以使用 labelme 存儲(chǔ)庫(kù)中的 Python 腳本將注釋轉(zhuǎn)換為 PASCAL VOL。盡管如此，它還是一個(gè)相當(dāng)可靠的應(yīng)用程序，具有用于手動(dòng)圖像標(biāo)記和廣泛的計(jì)算機(jī)視覺(jué)任務(wù)的簡(jiǎn)單功能。

安裝和配置

labelme 是一個(gè)跨平臺(tái)的應(yīng)用程序，可以在多個(gè)系統(tǒng)上工作，例如 Windows、Ubuntu 或 macOS。安裝本身非常簡(jiǎn)單，這里有很好的描述。例如，在 macOS 上，您需要在終端中運(yùn)行以下命令：

安裝依賴(lài)：brew install pyqt
安裝labelme：pip install labelme
運(yùn)行 labelme：labelme

labelImg

地址：https://github.com/tzutalin/labelImg

你可以用它做什么

labelImg 是一種廣泛使用的開(kāi)源圖形注釋工具。它僅適用于目標(biāo)定位或檢測(cè)任務(wù)，并且只能在考慮的對(duì)象周?chē)鷦?chuàng)建矩形框。盡管存在這種限制，我們還是建議使用此工具，因?yàn)樵搼?yīng)用程序僅專(zhuān)注于創(chuàng)建盡可能簡(jiǎn)化工具的邊界框。對(duì)于此任務(wù)，labelImg 具有所有必要的功能和方便的鍵盤(pán)快捷鍵。另一個(gè)優(yōu)點(diǎn)是您可以以 3 種流行的注釋格式保存/加載注釋?zhuān)篜ASCAL VOC、YOLO 和 CreateML。

安裝和配置

這里對(duì)安裝進(jìn)行了很好的描述。還要注意 labelImg 是一個(gè)跨平臺(tái)的應(yīng)用程序。例如，對(duì)于 MacOS，需要在命令行上執(zhí)行以下操作：

安裝依賴(lài)：先 brew install qt，然后 brew install libxml2
選擇要安裝的文件夾的位置。
當(dāng)你在文件夾中時(shí)，運(yùn)行以下命令：git clone https://github.com/tzutalin/labelImg.git, cd labelImg 然后 make qt5py3
運(yùn)行 labelImg：python3 labelImg.py
開(kāi)發(fā)人員強(qiáng)烈建議使用 Python 3 或更高版本和 PyQt5。

CVAT

地址：https://github.com/openvinotoolkit/cvat

你可以用它做什么

CVAT 是一種用于圖像和視頻的開(kāi)源注釋工具，用于對(duì)象檢測(cè)、分割和分類(lèi)等任務(wù)。要使用此工具，您無(wú)需在計(jì)算機(jī)上安裝該應(yīng)用程序?？梢栽诰€(xiàn)使用此工具的網(wǎng)絡(luò)版本。您可以作為一個(gè)團(tuán)隊(duì)協(xié)作處理標(biāo)記圖像并在用戶(hù)之間分配工作。還有一個(gè)很好的選擇，它允許您使用預(yù)先訓(xùn)練的模型來(lái)自動(dòng)標(biāo)記您的數(shù)據(jù)，如果您使用 CVAT 儀表板中現(xiàn)有的可用模型，這可以簡(jiǎn)化最流行的類(lèi)（例如，COCO 中包含的類(lèi)）的過(guò)程?；蛘?，您也可以使用自己的預(yù)訓(xùn)練模型。CVAT 具有我們已經(jīng)考慮過(guò)的工具中最廣泛的功能集。特別是，它允許您以大約 15 種不同的格式保存標(biāo)簽?？梢栽诖颂幷业酵暾母袷搅斜?。

hasty.ai

地址：https://hasty.ai/

你可以用它做什么

與上述所有工具不同，hasty.ai 不是免費(fèi)的開(kāi)源服務(wù)，但由于所謂的對(duì)象檢測(cè)和分割的 AI 助手，它非常方便地標(biāo)記數(shù)據(jù)。自動(dòng)支持允許您顯著加快注釋過(guò)程，因?yàn)樵跇?biāo)記期間輔助模型正在訓(xùn)練。換句話(huà)說(shuō)，標(biāo)記的圖像越多，助手的工作就越準(zhǔn)確。我們將在下面看一個(gè)例子來(lái)說(shuō)明它是如何工作的。

您也可以免費(fèi)試用此服務(wù)。該試驗(yàn)提供 3000 積分，足以為一個(gè)物體檢測(cè)任務(wù)自動(dòng)生成大約 3000 個(gè)物體的建議標(biāo)簽。

hasty.ai 允許您以 COCO 或 Pascal VOC 格式導(dǎo)出數(shù)據(jù)。您還可以作為一個(gè)團(tuán)隊(duì)處理單個(gè)項(xiàng)目并在項(xiàng)目設(shè)置中分配角色。

免費(fèi)積分用完后，hasty.ai 仍然可以免費(fèi)使用，但標(biāo)記將完全由手動(dòng)操作。在這種情況下，最好考慮上述免費(fèi)工具。

配置

要使用該工具，您需要在 hasty.ai 上注冊(cè)。
登錄您的帳戶(hù)。
單擊創(chuàng)建新項(xiàng)目。
用名稱(chēng)和描述填寫(xiě)表單并導(dǎo)航到項(xiàng)目設(shè)置，您可以在其中定義考慮中的類(lèi)，為該項(xiàng)目添加數(shù)據(jù)。
此外，您可以添加其他用戶(hù)來(lái)共同處理項(xiàng)目。積分將從共享項(xiàng)目的用戶(hù)的帳戶(hù)中使用。

5. 微軟開(kāi)源“傻瓜式”類(lèi)ChatGPT模型訓(xùn)練工具，成本大大降低，速度提升15倍

原文：https://mp.weixin.qq.com/s/t3HA4Hu61LLDC3h2Njmo_Q

當(dāng)?shù)貢r(shí)間 4 月 12 日，微軟宣布開(kāi)源 DeepSpeed-Chat，幫助用戶(hù)輕松訓(xùn)練類(lèi) ChatGPT 等大語(yǔ)言模型。

據(jù)悉，Deep Speed Chat 是基于微軟 Deep Speed 深度學(xué)習(xí)優(yōu)化庫(kù)開(kāi)發(fā)而成，具備訓(xùn)練、強(qiáng)化推理等功能，還使用了 RLHF（基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)）技術(shù)，可將訓(xùn)練速度提升 15 倍以上，而成本卻大大降低。

如下圖，一個(gè) 130 億參數(shù)的類(lèi) ChatGPT 模型，訓(xùn)練時(shí)間只需要 1.25 小時(shí)。

簡(jiǎn)單來(lái)說(shuō)，用戶(hù)只需要通過(guò) Deep Speed Chat 提供的 “傻瓜式” 操作，就能以最短的時(shí)間、最高效的成本訓(xùn)練類(lèi) ChatGPT 大語(yǔ)言模型。

使 RLHF 訓(xùn)練真正在 AI 社區(qū)普及

近來(lái)，ChatGPT 及類(lèi)似模型引發(fā)了 AI 行業(yè)的一場(chǎng)風(fēng)潮。ChatGPT 類(lèi)模型能夠執(zhí)行歸納、編程、翻譯等任務(wù)，其結(jié)果與人類(lèi)專(zhuān)家相當(dāng)甚至更優(yōu)。為了能夠使普通數(shù)據(jù)科學(xué)家和研究者能夠更加輕松地訓(xùn)練和部署 ChatGPT 等模型，AI 開(kāi)源社區(qū)進(jìn)行了各種嘗試，如 ChatLLaMa、ChatGLM-6B、Alpaca、Vicuna、Databricks-Dolly 等。

然而，目前業(yè)內(nèi)依然缺乏一個(gè)支持端到端的基于人工反饋機(jī)制的強(qiáng)化學(xué)習(xí)（RLHF）的規(guī)?；到y(tǒng)，這使得訓(xùn)練強(qiáng)大的類(lèi) ChatGPT 模型十分困難。

例如，使用現(xiàn)有的開(kāi)源系統(tǒng)訓(xùn)練一個(gè)具有 67 億參數(shù)的類(lèi) ChatGPT 模型，通常需要昂貴的多卡至多節(jié)點(diǎn)的 GPU 集群，但這些資源對(duì)大多數(shù)數(shù)據(jù)科學(xué)家或研究者而言難以獲取。同時(shí)，即使有了這樣的計(jì)算資源，現(xiàn)有的開(kāi)源系統(tǒng)的訓(xùn)練效率通常也達(dá)不到這些機(jī)器最大效率的 5%。

簡(jiǎn)而言之，即使有了昂貴的多 GPU 集群，現(xiàn)有解決方案也無(wú)法輕松、快速、經(jīng)濟(jì)的訓(xùn)練具有數(shù)千億參數(shù)的最先進(jìn)的類(lèi) ChatGPT 模型。

與常見(jiàn)的大語(yǔ)言模型的預(yù)訓(xùn)練和微調(diào)不同，ChatGPT 模型的訓(xùn)練基于 RLHF 技術(shù)，這使得現(xiàn)有深度學(xué)習(xí)系統(tǒng)在訓(xùn)練類(lèi) ChatGPT 模型時(shí)存在種種局限。

微軟在 Deep Speed Chat 介紹文檔中表示，“為了讓 ChatGPT 類(lèi)型的模型更容易被普通數(shù)據(jù)科學(xué)家和研究者使用，并使 RLHF 訓(xùn)練真正在 AI 社區(qū)普及，我們發(fā)布了 DeepSpeed-Chat?！?/p>

據(jù)介紹，為了實(shí)現(xiàn)無(wú)縫的訓(xùn)練體驗(yàn)，微軟在 DeepSpeed-Chat 中整合了一個(gè)端到端的訓(xùn)練流程，包括以下三個(gè)主要步驟：

監(jiān)督微調(diào)（SFT），使用精選的人類(lèi)回答來(lái)微調(diào)預(yù)訓(xùn)練的語(yǔ)言模型以應(yīng)對(duì)各種查詢(xún)；
獎(jiǎng)勵(lì)模型微調(diào)，使用一個(gè)包含人類(lèi)對(duì)同一查詢(xún)的多個(gè)答案打分的數(shù)據(jù)集來(lái)訓(xùn)練一個(gè)獨(dú)立的（通常比 SFT 小的）獎(jiǎng)勵(lì)模型（RW）；
RLHF 訓(xùn)練，利用 Proximal Policy Optimization（PPO）算法，根據(jù) RW 模型的獎(jiǎng)勵(lì)反饋進(jìn)一步微調(diào) SFT 模型。

在步驟 3 中，微軟提供了指數(shù)移動(dòng)平均（EMA）和混合訓(xùn)練兩個(gè)額外的功能，以幫助提高模型質(zhì)量。根據(jù) InstructGPT，EMA 通常比傳統(tǒng)的最終訓(xùn)練模型提供更好的響應(yīng)質(zhì)量，而混合訓(xùn)練可以幫助模型保持預(yù)訓(xùn)練基準(zhǔn)解決能力。

總體來(lái)說(shuō)，DeepSpeed-Chat 具有以下三大核心功能：

1.簡(jiǎn)化 ChatGPT 類(lèi)型模型的訓(xùn)練和強(qiáng)化推理體驗(yàn)：只需一個(gè)腳本即可實(shí)現(xiàn)多個(gè)訓(xùn)練步驟，包括使用 Huggingface 預(yù)訓(xùn)練的模型、使用 DeepSpeed-RLHF 系統(tǒng)運(yùn)行 InstructGPT 訓(xùn)練的所有三個(gè)步驟、甚至生成你自己的類(lèi) ChatGPT 模型。此外，微軟還提供了一個(gè)易于使用的推理API，用于用戶(hù)在模型訓(xùn)練后測(cè)試對(duì)話(huà)式交互。

2.DeepSpeed-RLHF 模塊：DeepSpeed-RLHF 復(fù)刻了 InstructGPT 論文中的訓(xùn)練模式，并確保包括 SFT、獎(jiǎng)勵(lì)模型微調(diào)和 RLHF 在內(nèi)的三個(gè)步驟與其一一對(duì)應(yīng)。此外，微軟還提供了數(shù)據(jù)抽象和混合功能，以支持用戶(hù)使用多個(gè)不同來(lái)源的數(shù)據(jù)源進(jìn)行訓(xùn)練。

3.DeepSpeed-RLHF 系統(tǒng)：微軟將 DeepSpeed 的訓(xùn)練（training engine）和推理能力（inference engine) 整合到一個(gè)統(tǒng)一的混合引擎（DeepSpeed-HE）中用于 RLHF 訓(xùn)練。DeepSpeed-HE 能夠在 RLHF 中無(wú)縫地在推理和訓(xùn)練模式之間切換，使其能夠利用來(lái)自 DeepSpeed-Inference 的各種優(yōu)化，如張量并行計(jì)算和高性能 CUDA 算子進(jìn)行語(yǔ)言生成，同時(shí)對(duì)訓(xùn)練部分還能從 ZeRO- 和 LoRA-based 內(nèi)存優(yōu)化策略中受益。此外，DeepSpeed-HE 還能自動(dòng)在 RLHF 的不同階段進(jìn)行智能的內(nèi)存管理和數(shù)據(jù)緩存。

高效、經(jīng)濟(jì)、擴(kuò)展性強(qiáng)

據(jù)介紹，DeepSpeed-RLHF 系統(tǒng)在大規(guī)模訓(xùn)練中具有出色的效率，使復(fù)雜的 RLHF 訓(xùn)練變得快速、經(jīng)濟(jì)并且易于大規(guī)模推廣。

具體而言，DeepSpeed-HE 比現(xiàn)有系統(tǒng)快 15 倍以上，使 RLHF 訓(xùn)練快速且經(jīng)濟(jì)實(shí)惠。例如，DeepSpeed-HE 在 Azure 云上只需 9 小時(shí)即可訓(xùn)練一個(gè) OPT-13B 模型，只需 18 小時(shí)即可訓(xùn)練一個(gè) OPT-30B 模型。這兩種訓(xùn)練分別花費(fèi)不到 300 美元和 600 美元。

此外，DeepSpeed-HE 也具有卓越的擴(kuò)展性，其能夠支持訓(xùn)練擁有數(shù)千億參數(shù)的模型，并在多節(jié)點(diǎn)多 GPU 系統(tǒng)上展現(xiàn)出卓越的擴(kuò)展性。因此，即使是一個(gè)擁有 130 億參數(shù)的模型，也只需 1.25 小時(shí)就能完成訓(xùn)練。而對(duì)于參數(shù)規(guī)模為 1750 億的更大模型，使用 DeepSpeed-HE 進(jìn)行訓(xùn)練也只需不到一天的時(shí)間。

另外，此次開(kāi)源有望實(shí)現(xiàn) RLHF 訓(xùn)練的普及化。微軟表示，僅憑單個(gè) GPU，DeepSpeed-HE 就能支持訓(xùn)練超過(guò) 130 億參數(shù)的模型。這使得那些無(wú)法使用多 GPU 系統(tǒng)的數(shù)據(jù)科學(xué)家和研究者不僅能夠輕松創(chuàng)建輕量級(jí)的 RLHF 模型，還能創(chuàng)建大型且功能強(qiáng)大的模型，以應(yīng)對(duì)不同的使用場(chǎng)景。

那么，人手一個(gè)專(zhuān)屬 ChatGPT 的時(shí)代，還有多遠(yuǎn)？

6. 10張圖總結(jié)2023年人工智能狀況

https://mp.weixin.qq.com/s/oKPPsfzKK8DbGg_vzaTRuQ

斯坦福大學(xué)以人為本人工智能研究所（Human-Centered AI Institute，HAI）收集了一年的人工智能數(shù)據(jù)（https://hai.stanford.edu/），提供了當(dāng)今人工智能世界的全面情況。該報(bào)告自2017年起，由斯坦福大學(xué)開(kāi)始主導(dǎo)研究。AI指數(shù)報(bào)告作為一項(xiàng)獨(dú)立計(jì)劃，每年發(fā)布AI指數(shù)年度報(bào)告，全面追蹤人工智能的最新發(fā)展?fàn)顟B(tài)和趨勢(shì)。今年的綜合報(bào)告共有302頁(yè)，這比2022年的報(bào)告增長(zhǎng)了近60%。這在很大程度上要?dú)w功于2022年需求關(guān)注的生成性人工智能的蓬勃發(fā)展，以及收集人工智能和道德數(shù)據(jù)的努力越來(lái)越大。

對(duì)于那些像我（作者，以下簡(jiǎn)稱(chēng)我）一樣渴望閱讀整個(gè)《2023年人工智能指數(shù)報(bào)告》（https://aiindex.stanford.edu/report/）的人，你可以首先在這里進(jìn)行了解。下面是10張圖表，捕捉了當(dāng)今人工智能的基本趨勢(shì)。

———————End———————

RT-Thread線(xiàn)下入門(mén)培訓(xùn)-4月場(chǎng)次青島、北京

1.免費(fèi)2.動(dòng)手實(shí)驗(yàn)+理論3.主辦方免費(fèi)提供開(kāi)發(fā)板4.自行攜帶電腦，及插線(xiàn)板用于筆記本電腦充電5.參與者需要有C語(yǔ)言、單片機(jī)（ARM Cortex-M核）基礎(chǔ)，請(qǐng)?zhí)崆鞍惭b好RT-Thread Studio 開(kāi)發(fā)環(huán)境

立即掃碼報(bào)名

報(bào)名鏈接

https://jinshuju.net/f/UYxS2k

巡回城市：青島、北京、西安、成都、武漢、鄭州、杭州、深圳、上海、南京

你可以添加微信：rtthread2020 為好友，注明：公司+姓名，拉進(jìn)RT-Thread官方微信交流群！

點(diǎn)擊閱讀原文，進(jìn)入RT-Thread 官網(wǎng)

原文標(biāo)題：【嵌入式AI簡(jiǎn)報(bào)20230414】黑芝麻智能7nm中央計(jì)算芯片正式發(fā)布、微軟開(kāi)源“傻瓜式”類(lèi)ChatGPT模型訓(xùn)練工具

文章出處：【微信公眾號(hào)：RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

RT-Thread

RT-Thread

+關(guān)注

關(guān)注
31

文章
1306

瀏覽量
40426

原文標(biāo)題：【嵌入式AI簡(jiǎn)報(bào)20230414】黑芝麻智能7nm中央計(jì)算芯片正式發(fā)布、微軟開(kāi)源“傻瓜式”類(lèi)ChatGPT模型訓(xùn)練工具

文章出處：【微信號(hào)：RTThread，微信公眾號(hào)：RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

黑芝麻智能與RockAI聯(lián)手發(fā)布AI Agent解決方案

近日，在備受矚目的CES 2025國(guó)際消費(fèi)電子展上，黑芝麻智能攜手RockAI共同推出了一項(xiàng)創(chuàng)新的AI Agent解決方案，該方案基于黑芝麻智能

發(fā)表于 01-16 13:46 ?208次閱讀

黑芝麻智能與Nullmax聯(lián)袂發(fā)布A2000多模態(tài)大模型智駕方案

近日，全球自動(dòng)駕駛計(jì)算芯片領(lǐng)域的領(lǐng)軍企業(yè)黑芝麻智能，攜手自動(dòng)駕駛解決方案提供商N(yùn)ullmax，共同宣布了一項(xiàng)重大合作成果——基于黑芝麻

發(fā)表于 01-14 11:42 ?253次閱讀

黑芝麻智能與Elektrobit聯(lián)手推出武當(dāng)系列解決方案

近日，在CES 2025展會(huì)上，黑芝麻智能展示了其華山系列與武當(dāng)系列芯片的強(qiáng)勁實(shí)力，并宣布了與產(chǎn)業(yè)鏈伙伴的合作新進(jìn)展。1月8日，黑芝麻智能攜

發(fā)表于 01-14 11:23 ?571次閱讀

黑芝麻智能與RockAI發(fā)布AI Agent解決方案

黑芝麻智能與RockAI聯(lián)合發(fā)布基于武當(dāng)C1200家族芯片的AI Agent解決方案，該方案將部署于未來(lái)的

發(fā)表于 01-10 16:33 ?276次閱讀

黑芝麻智能、NESINEXT、傅利葉聯(lián)合發(fā)布“靈巧手”

黑芝麻智能、NESINEXT以及傅利葉聯(lián)合展示基于黑芝麻智能C1200家族芯片的通用人形機(jī)器人“靈巧手”具身

發(fā)表于 01-09 15:13 ?230次閱讀

黑芝麻智能與Elektrobit推出Classic AUTOSAR解決方案

黑芝麻智能與Elektrobit聯(lián)合發(fā)布了基于武當(dāng)系列C1296芯片的完整的Classic AUTOSAR解決方案。

發(fā)表于 01-09 09:53 ?166次閱讀

嵌入式系統(tǒng)的未來(lái)趨勢(shì)有哪些?

嵌入式系統(tǒng)是指將我們的操作系統(tǒng)和功能軟件集成于計(jì)算機(jī)硬件系統(tǒng)之中，形成一個(gè)專(zhuān)用的計(jì)算機(jī)系統(tǒng)。那么嵌入式系統(tǒng)的未來(lái)趨勢(shì)有哪些呢? 1. 人工智能

發(fā)表于 09-12 15:42

開(kāi)啟全新AI時(shí)代智能嵌入式系統(tǒng)快速發(fā)展——“第六屆國(guó)產(chǎn)嵌入式操作系統(tǒng)技術(shù)與產(chǎn)業(yè)發(fā)展論壇”圓滿(mǎn)結(jié)束

嵌入式系統(tǒng)是電子信息產(chǎn)業(yè)的基礎(chǔ)，是智能系統(tǒng)的核心。大模型催生AI走入千家萬(wàn)戶(hù)、喚醒端側(cè)AI的需求爆發(fā)。以機(jī)器人、無(wú)人駕駛和

發(fā)表于 08-30 17:24

智能汽車(chē)AI芯片第一股黑芝麻智能在港交所掛牌上市

今日，智能汽車(chē)AI芯片領(lǐng)域的佼佼者——黑芝麻智能，在香港交易所成功掛牌上市，股票代碼為02533.HK，標(biāo)志著其正式成為“

發(fā)表于 08-08 10:32 ?657次閱讀

EVASH Ultra EEPROM：助力ChatGPT等AI應(yīng)用的嵌入式存儲(chǔ)解決方案

EVASH Ultra EEPROM：助力ChatGPT等AI應(yīng)用的嵌入式存儲(chǔ)解決方案

發(fā)表于 06-26 18:13 ?982次閱讀

黑芝麻智能獲國(guó)際最高安全標(biāo)準(zhǔn)認(rèn)證

近日，黑芝麻智能宣布其代碼生成工具成功獲得ISO 26262:2018 ASIL D功能安全產(chǎn)品認(rèn)證證書(shū)，這一里程碑式的成就標(biāo)志著黑芝麻

發(fā)表于 06-04 11:12 ?993次閱讀

AI引爆邊緣計(jì)算變革，塑造嵌入式產(chǎn)業(yè)新未來(lái)AI引爆邊緣計(jì)算變革，塑造嵌入式產(chǎn)業(yè)新未來(lái)——2024研華嵌入式

，來(lái)自英特爾、高通、瑞芯微、微軟、Hailo等全球知名半導(dǎo)體和軟件廠(chǎng)商均分享了AI帶來(lái)的嵌入式技術(shù)變革與創(chuàng)新。同時(shí)，大會(huì)還邀請(qǐng)到機(jī)器視覺(jué)、醫(yī)療、智能駕駛等眾多產(chǎn)業(yè)伙伴與研華一同分享最新

發(fā)表于 05-31 13:53 ?385次閱讀

黑芝麻智能展望智能汽車(chē)計(jì)算芯片新趨勢(shì)

近日，中國(guó)電動(dòng)汽車(chē)百人會(huì)論壇（2024）在北京盛大召開(kāi)，吸引了眾多行業(yè)內(nèi)外人士的目光。在這場(chǎng)科技盛宴中，黑芝麻智能首席市場(chǎng)營(yíng)銷(xiāo)官楊宇欣發(fā)表了主題演講，深入探討了智能汽車(chē)計(jì)算

發(fā)表于 03-18 10:07 ?881次閱讀

2024年全球與中國(guó)7nm智能座艙芯片行業(yè)總體規(guī)模、主要企業(yè)國(guó)內(nèi)外市場(chǎng)占有率及排名

：7nm智能座艙芯片行業(yè)生產(chǎn)模式圖 55：7nm智能座艙芯片行業(yè)銷(xiāo)售模式分析 ▲資料來(lái)源：辰宇

發(fā)表于 03-16 14:52

嵌入式人工智能的就業(yè)方向有哪些?

。國(guó)內(nèi)外科技巨頭紛紛爭(zhēng)先入局，在微軟、谷歌、蘋(píng)果、臉書(shū)等積極布局人工智能的同時(shí)，國(guó)內(nèi)的BAT、華為、小米等科技公司也相繼切入到嵌入式人工智能的賽道。那么

發(fā)表于 02-26 10:17

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

【嵌入式AI簡(jiǎn)報(bào)20230414】黑芝麻智能7nm中央計(jì)算芯片正式發(fā)布、微軟開(kāi)源“傻瓜式”類(lèi)ChatGPT模型訓(xùn)練工具

嵌入式 AI

1. 黑芝麻智能7nm中央計(jì)算芯片正式發(fā)布，單芯片實(shí)現(xiàn)智能汽車(chē)跨域融合

2. 無(wú)需寫(xiě)代碼能力，手搓最簡(jiǎn)單BabyGPT模型：前特斯拉AI總監(jiān)新作

3. CV開(kāi)啟大模型時(shí)代！谷歌發(fā)布史上最大ViT：220億參數(shù)，視覺(jué)感知力直逼人類(lèi)

4. 計(jì)算機(jī)視覺(jué)中的圖像標(biāo)注工具總結(jié)

5. 微軟開(kāi)源“傻瓜式”類(lèi)ChatGPT模型訓(xùn)練工具，成本大大降低，速度提升15倍

6. 10張圖總結(jié)2023年人工智能狀況

評(píng)論

黑芝麻智能與RockAI聯(lián)手發(fā)布AI Agent解決方案

黑芝麻智能與Nullmax聯(lián)袂發(fā)布A2000多模態(tài)大模型智駕方案

黑芝麻智能與Elektrobit聯(lián)手推出武當(dāng)系列解決方案

黑芝麻智能與RockAI發(fā)布AI Agent解決方案

黑芝麻智能、NESINEXT、傅利葉聯(lián)合發(fā)布“靈巧手”

黑芝麻智能與Elektrobit推出Classic AUTOSAR解決方案

嵌入式系統(tǒng)的未來(lái)趨勢(shì)有哪些?

開(kāi)啟全新AI時(shí)代智能嵌入式系統(tǒng)快速發(fā)展——“第六屆國(guó)產(chǎn)嵌入式操作系統(tǒng)技術(shù)與產(chǎn)業(yè)發(fā)展論壇”圓滿(mǎn)結(jié)束

智能汽車(chē)AI芯片第一股黑芝麻智能在港交所掛牌上市

EVASH Ultra EEPROM：助力ChatGPT等AI應(yīng)用的嵌入式存儲(chǔ)解決方案

黑芝麻智能獲國(guó)際最高安全標(biāo)準(zhǔn)認(rèn)證

AI引爆邊緣計(jì)算變革，塑造嵌入式產(chǎn)業(yè)新未來(lái)AI引爆邊緣計(jì)算變革，塑造嵌入式產(chǎn)業(yè)新未來(lái)——2024研華嵌入式

黑芝麻智能展望智能汽車(chē)計(jì)算芯片新趨勢(shì)

2024年全球與中國(guó)7nm智能座艙芯片行業(yè)總體規(guī)模、主要企業(yè)國(guó)內(nèi)外市場(chǎng)占有率及排名

嵌入式人工智能的就業(yè)方向有哪些?

搜索歷史

【嵌入式AI簡(jiǎn)報(bào)20230414】黑芝麻智能7nm中央計(jì)算芯片正式發(fā)布、微軟開(kāi)源“傻瓜式”類(lèi)ChatGPT模型訓(xùn)練工具

1. 黑芝麻智能7nm中央計(jì)算芯片正式發(fā)布，單芯片實(shí)現(xiàn)智能汽車(chē)跨域融合

2. 無(wú)需寫(xiě)代碼能力，手搓最簡(jiǎn)單BabyGPT模型：前特斯拉AI總監(jiān)新作

3. CV開(kāi)啟大模型時(shí)代！谷歌發(fā)布史上最大ViT：220億參數(shù)，視覺(jué)感知力直逼人類(lèi)

4. 計(jì)算機(jī)視覺(jué)中的圖像標(biāo)注工具總結(jié)

5. 微軟開(kāi)源“傻瓜式”類(lèi)ChatGPT模型訓(xùn)練工具，成本大大降低，速度提升15倍

6. 10張圖總結(jié)2023年人工智能狀況

評(píng)論

【嵌入式AI簡(jiǎn)報(bào)20230414】黑芝麻智能7nm中央計(jì)算芯片正式發(fā)布、微軟開(kāi)源“傻瓜式”類(lèi)ChatGPT模型訓(xùn)練工具

1. 黑芝麻智能7nm中央計(jì)算芯片正式發(fā)布，單芯片實(shí)現(xiàn)智能汽車(chē)跨域融合

2. 無(wú)需寫(xiě)代碼能力，手搓最簡(jiǎn)單BabyGPT模型：前特斯拉AI總監(jiān)新作

3. CV開(kāi)啟大模型時(shí)代！谷歌發(fā)布史上最大ViT：220億參數(shù)，視覺(jué)感知力直逼人類(lèi)

5. 微軟開(kāi)源“傻瓜式”類(lèi)ChatGPT模型訓(xùn)練工具，成本大大降低，速度提升15倍