欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGLM2-6B解析與TPU部署

jf_pJlTbmA9 ? 來源:jf_pJlTbmA9 ? 作者:jf_pJlTbmA9 ? 2023-08-18 11:28 ? 次閱讀

概述#

算能BM1684X芯片已經(jīng)實現(xiàn)ChatGLM2-6B的C++代碼部署,代碼實現(xiàn)鏈接:https://github.com/sophgo/ChatGLM2-TPU。

本文總結(jié)部署該模型過程中的一些技術(shù)點。首先是ChatGLM2-6B的整體運行流程,然后介紹如何將該動態(tài)網(wǎng)路轉(zhuǎn)換成靜態(tài)網(wǎng)絡(luò)形式,接著介紹如何將該模型導(dǎo)出成ONNX。

最后如何將ONNX使用TPU-MLIR編譯器實現(xiàn)網(wǎng)絡(luò)的編譯以及用C++代碼編寫應(yīng)用程序,可以直接看源碼就可以理解,這里不做介紹。

ChatGLM2-6b運行流程#



wKgaomTeyYuAGAEHAAOdqNVoTSg583.png

如圖該網(wǎng)絡(luò)基本上可以分為5個階段:

將句子通過分詞器(使用google的sentencepiece)轉(zhuǎn)換成tokens,如圖中的<1x17 xi32>的數(shù)據(jù)。注意tokens里面64790, 64792是起始符號。

通過WordEmbedding將tokens轉(zhuǎn)換成詞向量,得到的結(jié)果是<1x17x4096 xf32>的數(shù)據(jù)。

通過Tranformer進行神經(jīng)網(wǎng)絡(luò)推理,推理結(jié)果是<1x17x4096 xf32>,答案在最后的詞向量上,所以做一個額外的slice操作,得到<1x1x4096 xf32>。這里Transformer網(wǎng)絡(luò)是由28個Block組成,每個Block的核心是一個Attention運算,并輸出kv cache給下一輪Transform做為輸入。

經(jīng)過LmHead操作生成<1x1 xi32>的結(jié)果,也就是輸出的Token。LmHead的組成如圖所示。

Token經(jīng)過分詞器轉(zhuǎn)成詞語,且傳遞給下一輪推理,進入第一階段。直到token == EOS_ID結(jié)束。

轉(zhuǎn)成靜態(tài)網(wǎng)絡(luò)#

ChatGLM2-6B從前面的描述中,可以看到有兩處是動態(tài)的,一是因句子的長短不同,Transformer的輸入Shape有所有不同;二是每一輪Transformer生成的kv cache會逐步增長。為了方便部署,根據(jù)網(wǎng)絡(luò)特點轉(zhuǎn)換成靜態(tài)網(wǎng)絡(luò)。轉(zhuǎn)換后的運行流程如下:

wKgZomTeyY6AFQEgAAW1_ICPg_Q001.png

從圖中可以看到句子不論長短,轉(zhuǎn)換后的tokens始終是<1x512x i32>,kv cache的數(shù)據(jù)也始終是<512x1x2x128x f32>。

這里介紹最關(guān)鍵的幾點:

將原始tokens輸入尾部補0,從<1x17x i32>轉(zhuǎn)換成<1x512x i32>。

將position_ids從GlmBlock中提取出來,并固定長度為<1x512x i32>,也是尾部補0,本例中的數(shù)值為[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,0,0,0,0,...0],用于位置編碼。因為在原始網(wǎng)絡(luò)中這部分是變長,提取出來后就可以做成定長。

將attention_mask從GlmBlock中提取出來,并固定長度為<1x512x512x f32>,注意無效部分全部補1,因為它之后會有masked_fill操作將mask為1的部分全部配置為-inf。然后經(jīng)過Softmax使超出部分全部清0,保留有效部分,從而保證最終結(jié)果與原始結(jié)果一致。如下圖,為說明問題,Attention做了簡化。

wKgaomTeyZKAcEiQAANk81R4E_M592.png

第一輪Transformer后,kv_chache有效部分是[0:17],我們將該部分移到末尾[512-17:],并頭部清0。因為kv cache的累加發(fā)生在尾部。從第二輪開始累加后做Slice操作去掉頭部1個單位,取[1:],這樣就保證了kv cache始終保持在512。同時attention mask也要是從尾部實際token len長度的0,頭部全部置1。

導(dǎo)出ONNX#

將該網(wǎng)絡(luò)分為4塊:WorkEmbedding,GlmBlock,GlmBlockCache,LmHead。這里分別介紹這四塊是如何導(dǎo)出的。

導(dǎo)出前,先要指定python路徑,如下:

1
export PYTHONPATH=/workspace/chatglm2-6b:$PYTHONPATH

需要先加載原始ChatGLM2-6B,如下代碼:

1
2
3
4
5
6
7
8
9
10
11
CHATGLM2_PATH = "/workspace/chatglm2-6b"

origin_model = AutoModel.from_pretrained(CHATGLM2_PATH,
                                         trust_remote_code=True).float()
origin_model.eval()
transformer = origin_model.transformer
MAX_LEN = transformer.seq_length
for param in origin_model.parameters():
    param.requires_grad = False
num_layers = transformer.encoder.num_layers
layers = transformer.encoder.layers

WorkEmbedding#

直接使用原模型中的word_embeddings,構(gòu)建成獨立網(wǎng)絡(luò),導(dǎo)出即可

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
class Embedding(torch.nn.Module):

    def __init__(self):
        super().__init__()

    def forward(self, input_ids):
        return transformer.embedding.word_embeddings(input_ids)

def convert_embedding():
    model = Embedding()
    torch.onnx.export(model, (torch.tensor([0, 1, 2, 3])),
                      f'./tmp/embedding.onnx',
                      verbose=False,
                      input_names=['input_ids'],
                      output_names=['input_embed'],
                      dynamic_axes={"input_ids": {0: "length"}},
                      do_constant_folding=True,
                      opset_version=15)

GlmBlock#

需要將transformer.rotary_pos_emb和transformer.encoder.layers組合構(gòu)建獨立網(wǎng)路,導(dǎo)出。因為有28個block,所以需要導(dǎo)出28個ONNX模型。這里的position_ids和attention_mask作為外部輸入,前面有介紹。其實這28個Block是可以組合成一個模型,但是這樣導(dǎo)致onnx權(quán)重過大(F16約12GB),導(dǎo)出麻煩,部署也麻煩,所以單個導(dǎo)出。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
class GlmBlock(torch.nn.Module):

    def __init__(self, layer_id):
        super().__init__()
        self.layer = layers[layer_id]

    def forward(self, hidden_states, position_ids, attention_mask):
        rotary_pos_emb = transformer.rotary_pos_emb(MAX_LEN)[position_ids]
        rotary_pos_emb = rotary_pos_emb.transpose(0, 1).contiguous()
        hidden_states, past_kv = self.layer(hidden_states, attention_mask,
                                            rotary_pos_emb=rotary_pos_emb)
        return hidden_states, past_kv

def convert_glm_block(layer_id):
    model = GlmBlock(layer_id)
    torch.onnx.export(
        model, (hidden_states, position_ids, attention_mask),
        f'./tmp/glm_block_{layer_id}.onnx',
        verbose=False,
        input_names=['input_states', 'position_ids', 'attention_mask'],
        output_names=['hidden_states', 'past_k', 'past_v'],
        do_constant_folding=True,
        opset_version=15)

GlmBlockCache#

與`GlmBlock是類似的,但是需要額外的kv cache參數(shù)。注意這里 最后會把頭部1個單位去除掉。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
class GlmBlockCache(torch.nn.Module):
    def __init__(self, layer_id):
        super().__init__()
        self.layer = layers[layer_id]

    def forward(self, hidden_states, position_ids, attention_mask, past_k, past_v):
        rotary_pos_emb = transformer.rotary_pos_emb(MAX_LEN)[position_ids]
        rotary_pos_emb = rotary_pos_emb.transpose(0, 1).contiguous()
        hidden_states, past_kv = self.layer(hidden_states, attention_mask,
                                            kv_cache=(past_k, past_v),
                                            rotary_pos_emb=rotary_pos_emb)
        past_k, past_v = past_kv
        return hidden_states, past_k[1:], past_v[1:]

def convert_glm_block_cache(layer_id):
    model = GlmBlockCache(layer_id)
    torch.onnx.export(
        model, (hidden_states, position_ids, attention_mask, past_k, past_v),
        f'./tmp/glm_block_cache_{layer_id}.onnx',
        verbose=False,
        input_names=['input_states', 'position_ids', 'attention_mask', 'history_k', 'history_v'],
        output_names=['hidden_states', 'past_k', 'past_v'],
        do_constant_folding=True,
        opset_version=15)

LmHead#

這里取m_logits后使用topk,其實也是可以用argmax,看芯片實現(xiàn)哪一種效率高。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
class LmHead(torch.nn.Module):
    def __init__(self):
        super().__init__()
    def forward(self, hidden_states):
        hidden_states = transformer.encoder.final_layernorm(hidden_states)
        m_logits = transformer.output_layer(hidden_states)
        _, token = torch.topk(m_logits, 1)
        return token
def convert_lm_head():
    model = LmHead()
    input = torch.randn(1, 4096)
    torch.onnx.export(model, (input), f'./tmp/lm_head.onnx', verbose=False,
                      input_names=['hidden_states'],
                      output_names=['token'],
                      do_constant_folding=True,
                      opset_version=15)

部署#

上述轉(zhuǎn)完ONNX模型后都已經(jīng)是靜態(tài)網(wǎng)絡(luò),通過TPU-MLIR,可以很容易的轉(zhuǎn)換成F16的模型。但是特別要注意的是RmsNorm需要用F32。之后就可以按照執(zhí)行邏輯編寫C++代碼。演示效果如下:

wKgZomTeyZmAfYNvAAyggAMVdCw548.png

審核編輯:湯梓紅
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    456

    文章

    51260

    瀏覽量

    427715
  • 源碼
    +關(guān)注

    關(guān)注

    8

    文章

    653

    瀏覽量

    29496
  • C++
    C++
    +關(guān)注

    關(guān)注

    22

    文章

    2114

    瀏覽量

    73882
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    145

    瀏覽量

    20789
收藏 人收藏

    評論

    相關(guān)推薦

    【算能RADXA微服務(wù)器試用體驗】Radxa Fogwise 1684X Mini 規(guī)格

    ChatGLM2-6B、AIGC、Llama2、SAM、Whisper等超大參數(shù)模型 還有一份詳細(xì)的英文的規(guī)格表: 另外,算能RADXA微服務(wù)器服務(wù)器,還是大學(xué)生集成電路創(chuàng)新創(chuàng)業(yè)大賽之# 第八屆集創(chuàng)賽杯賽題目
    發(fā)表于 02-28 11:21

    CORAL-EDGE-TPU:珊瑚開發(fā)板TPU

    :1 GB LPDDR4閃存:8 GB eMMC無線:Wi-Fi 2x2 MIMO(802.11b / g / n / ac 2.4 / 5GHz)藍(lán)牙4.1尺寸:48mm x 40mm x 5mm
    發(fā)表于 05-29 10:43

    TPU透明副牌.TPU副牌料.TPU抽粒廠.TPU塑膠副牌.TPU再生料.TPU低溫料

    ,透明.白色.黑色. 改性料. 2.TPU擠出.留延.氣動管TPU料、管材TPU料、條TPU料、封邊條TPU料、裝飾條
    發(fā)表于 11-21 17:21

    TPU副牌低溫料.TPU熱熔料.TPU中溫料.TPU低溫塑膠.TPU低溫抽粒.TPU中溫塑料

    清源塑膠公司.供應(yīng)TPU塑膠原料.副牌.再生顆粒料.TPU塑膠.TPU透明副牌. 再生粒子.白色.黑色.透明. 注塑料.擠出料. 壓延等等..聚醚. 脂肪料. 聚酯料.硬度70A--98A. 高硬度
    發(fā)表于 11-21 17:33

    供應(yīng)TPU抽粒工廠.TPU再生工廠.TPU聚醚料.TPU聚酯料.TPU副牌透明.TPU副牌.TPU中低溫料

    清源塑膠經(jīng)營.進口.國內(nèi).供應(yīng)TPU原料.副牌TPU塑膠.TPU透明副牌. 再生粒子.白色.黑色.透明. 注塑料.擠出料. 壓延等等..聚醚. 脂肪料. 聚酯料.硬度70A--98A. 高硬度
    發(fā)表于 11-21 17:47

    清華系千億基座對話模型ChatGLM開啟內(nèi)測

    ChatGLM-6B 使用了和 ChatGLM 相同的技術(shù),針對中文問答和對話進行了優(yōu)化。經(jīng)過約 1T 標(biāo)識符的中英雙語訓(xùn)練,輔以監(jiān)督微調(diào)、反饋自助、人類反饋強化學(xué)習(xí)等技術(shù)的加持,62 億參數(shù)的 ChatGLM-6B 雖然規(guī)模不
    的頭像 發(fā)表于 03-17 13:47 ?2150次閱讀

    ChatGLM-6B的局限和不足

    基于ChatGLM-6B 部署本地私有化ChatGPT 一、開源模型 1、ChatGLM-6B介紹 清華大學(xué)知識工程 (KEG) 實驗室和智譜AI公司與于2023年共同訓(xùn)練的語言模型
    的頭像 發(fā)表于 06-25 11:50 ?5536次閱讀
    <b class='flag-5'>ChatGLM-6B</b>的局限和不足

    ChatGLM2-6B:性能大幅提升,8-32k上下文,推理提速42%,在中文榜單位列榜首

    在主要評估LLM模型中文能力的 C-Eval 榜單中,截至6月25日 ChatGLM2 模型以 71.1 的分?jǐn)?shù)位居 Rank 0 ,ChatGLM2-6B 模型以 51.7 的分?jǐn)?shù)位居 Rank
    的頭像 發(fā)表于 06-26 14:30 ?1058次閱讀
    <b class='flag-5'>ChatGLM2-6B</b>:性能大幅提升,8-32k上下文,推理提速42%,在中文榜單位列榜首

    下載量超300w的ChatGLM-6B再升級:8-32k上下文,推理提速42%

    ,允許更多輪次的對話。但當(dāng)前版本的 ChatGLM2-6B 對單輪超長文檔的理解能力有限,我們會在后續(xù)迭代升級中著重進行優(yōu)化。
    的頭像 發(fā)表于 06-29 16:15 ?1401次閱讀
    下載量超300w的<b class='flag-5'>ChatGLM-6B</b>再升級:8-32k上下文,推理提速42%

    適用于各種NLP任務(wù)的開源LLM的finetune教程~

    ChatGLM2-6b是清華開源的小尺寸LLM,只需要一塊普通的顯卡(32G較穩(wěn)妥)即可推理和微調(diào),是目前社區(qū)非?;钴S的一個開源LLM。
    的頭像 發(fā)表于 07-24 09:04 ?1772次閱讀
    適用于各種NLP任務(wù)的開源LLM的finetune教程~

    基于ChatGLM2和OpenVINO?打造中文聊天助手

    ChatGLM 是由清華大學(xué)團隊開發(fā)的是一個開源的、支持中英雙語的類 ChatGPT 大語言模型,它能生成相當(dāng)符合人類偏好的回答, ChatGLM2 是開源中英雙語對話模型 ChatGLM 的第二代版本,在保留了初代模型對話流
    的頭像 發(fā)表于 08-24 17:13 ?1387次閱讀
    基于<b class='flag-5'>ChatGLM2</b>和OpenVINO?打造中文聊天助手

    探索ChatGLM2在算能BM1684X上INT8量化部署,加速大模型商業(yè)落地

    |探索ChatGLM2-6B模型與TPU部署》。為了進一步提升模型的推理效率與降低存儲空間,我們對模型進行了INT8量化部署,整體性能提升70%以上,模型大小降低到
    的頭像 發(fā)表于 10-10 10:18 ?3900次閱讀
    探索<b class='flag-5'>ChatGLM2</b>在算能BM1684X上INT8量化<b class='flag-5'>部署</b>,加速大模型商業(yè)落地

    ChatGLM3-6B在CPU上的INT4量化和部署

    ChatGLM3 是智譜 AI 和清華大學(xué) KEG 實驗室聯(lián)合發(fā)布的新一代對話預(yù)訓(xùn)練模型。ChatGLM3-6BChatGLM3 系列中的開源模型,在填寫問卷進行登記后亦允許免費商業(yè)使用。
    的頭像 發(fā)表于 01-05 09:36 ?981次閱讀
    <b class='flag-5'>ChatGLM3-6B</b>在CPU上的INT4量化和<b class='flag-5'>部署</b>

    三步完成在英特爾獨立顯卡上量化和部署ChatGLM3-6B模型

    ChatGLM3 是智譜 AI 和清華大學(xué) KEG 實驗室聯(lián)合發(fā)布的新一代對話預(yù)訓(xùn)練模型。ChatGLM3-6BChatGLM3 系列中的開源模型,在填寫問卷進行登記后亦允許免費商業(yè)使用。
    的頭像 發(fā)表于 01-11 18:04 ?1724次閱讀
    三步完成在英特爾獨立顯卡上量化和<b class='flag-5'>部署</b><b class='flag-5'>ChatGLM3-6B</b>模型

    chatglm2-6b在P40上做LORA微調(diào)

    背景: 目前,大模型的技術(shù)應(yīng)用已經(jīng)遍地開花。最快的應(yīng)用方式無非是利用自有垂直領(lǐng)域的數(shù)據(jù)進行模型微調(diào)。chatglm2-6b在國內(nèi)開源的大模型上,效果比較突出。本文章分享的內(nèi)容是用
    的頭像 發(fā)表于 08-13 17:12 ?566次閱讀
    <b class='flag-5'>chatglm2-6b</b>在P40上做LORA微調(diào)