欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

完善資料讓更多小伙伴認(rèn)識(shí)你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

8x7B MoE與Flash Attention 2結(jié)合，不到10行代碼實(shí)現(xiàn)快速推理

前段時(shí)間，Mistral AI 公布的 Mixtral 8x7B 模型爆火整個(gè)開源社區(qū)，其架構(gòu)與 GPT-4 非常相似，很多人將其形容為 GPT-4 的「縮小版」。

我們都知道，OpenAI 團(tuán)隊(duì)一直對(duì) GPT-4 的參數(shù)量和訓(xùn)練細(xì)節(jié)守口如瓶。Mistral 8x7B 的放出，無疑給廣大開發(fā)者提供了一種「非常接近 GPT-4」的開源選項(xiàng)。

在基準(zhǔn)測試中，Mistral 8x7B 的表現(xiàn)優(yōu)于 Llama 2 70B，在大多數(shù)標(biāo)準(zhǔn)基準(zhǔn)測試上與 GPT-3.5 不相上下，甚至略勝一籌。

▲圖源 https://mistral.ai/news/mixtral-of-experts/

隨著這項(xiàng)研究的出現(xiàn)，很多人表示：「閉源大模型已經(jīng)走到了結(jié)局?！?/span>

短短幾周的時(shí)間，機(jī)器學(xué)習(xí)愛好者 Vaibhav (VB) Srivastav 表示：隨著 AutoAWQ（支持 Mixtral、LLaVa 等模型的量化）最新版本的發(fā)布，現(xiàn)在用戶可以將 Mixtral 8x7B Instruct 與 Flash Attention 2 結(jié)合使用，達(dá)到快速推理的目的，實(shí)現(xiàn)這一功能大約只需 24GB GPU VRAM、不到十行代碼。

▲圖源 https://twitter.com/reach_vb/status/1741175347821883502

AutoAWQ地址：

https://github.com/casper-hansen/AutoAWQ 操作過程是這樣的： 首先是安裝 AutoAWQ 以及 transformers：

pipinstallautoawqgit+https://github.com/huggingface/transformers.git

第二步是初始化 tokenizer 和模型：

?第三步是初始化 TextStreamer：

?第四步對(duì)輸入進(jìn)行 Token 化：

?第五步生成：

?當(dāng)你配置好項(xiàng)目后，就可以與 Mixtral 進(jìn)行對(duì)話，例如對(duì)于用戶要求「如何做出最好的美式咖啡？通過簡單的步驟完成」，Mixtral 會(huì)按照 1、2、3 等步驟進(jìn)行回答。

項(xiàng)目中使用的代碼：

Srivastav 表示上述實(shí)現(xiàn)也意味著用戶可以使用 AWQ 運(yùn)行所有的 Mixtral 微調(diào)，并使用 Flash Attention 2 來提升它們。看到這項(xiàng)研究后，網(wǎng)友不禁表示：真的很酷。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

代碼

代碼

+關(guān)注

關(guān)注
30

文章
4837

瀏覽量
69128
GPT

GPT

+關(guān)注

關(guān)注
0

文章
360

瀏覽量
15536
OpenAI

OpenAI

+關(guān)注

關(guān)注
9

文章
1158

瀏覽量
6748

原文標(biāo)題：8x7B MoE與Flash Attention 2結(jié)合，不到10行代碼實(shí)現(xiàn)快速推理

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

Flexus X 實(shí)例 C#/.Net Core 結(jié)合（git 代碼管理、docker 自定義鏡像）快速發(fā)布部署 - 讓你的項(xiàng)目飛起來~

前言 ???云端部署新體驗(yàn)，C# Web API 遇上 Git Docker，828 B2B 企業(yè)節(jié)特惠來襲！Flexus X 實(shí)例，為您的 C#應(yīng)用提供強(qiáng)大支撐，結(jié)合 Git 版本控制

發(fā)表于 12-25 21:15 ?220次閱讀

Flexus <b class='flag-5'>X</b> 實(shí)例 C#/.Net Core <b class='flag-5'>結(jié)合</b>（git <b class='flag-5'>代碼</b>管理、docker 自定義鏡像）<b class='flag-5'>快速</b>發(fā)布部署 - 讓你的項(xiàng)目飛起來~

獵戶星空發(fā)布Orion-MoE 8×7B大模型及AI數(shù)據(jù)寶AirDS

近日，獵戶星空攜手聚云科技在北京共同舉辦了一場發(fā)布會(huì)。會(huì)上，獵戶星空正式揭曉了其自主研發(fā)的Orion-MoE 8×7B大模型，并與聚云科技聯(lián)合推出了基于該大模型的數(shù)據(jù)服務(wù)——AI數(shù)據(jù)寶AirDS

發(fā)表于 11-29 13:57 ?321次閱讀

CC13x2x7和CC26x2x7 SimpleLink無線MCU技術(shù)參考手冊

電子發(fā)燒友網(wǎng)站提供《CC13x2x7和CC26x2x7 SimpleLink無線MCU技術(shù)參考手冊.pdf》資料免費(fèi)下載

發(fā)表于 11-14 14:16 ?0次下載

CC13<b class='flag-5'>x2x7</b>和CC26<b class='flag-5'>x2x7</b> SimpleLink無線MCU技術(shù)參考手冊

阿里Qwen2-Math系列震撼發(fā)布，數(shù)學(xué)推理能力領(lǐng)跑全球

阿里巴巴近期震撼發(fā)布了Qwen2-Math系列模型，這一系列模型基于其強(qiáng)大的Qwen2 LLM構(gòu)建，專為數(shù)學(xué)解題而生，展現(xiàn)了前所未有的數(shù)學(xué)推理能力。Qwen2-Math家族包括1.5

發(fā)表于 08-12 15:19 ?818次閱讀

PerfXCloud順利接入MOE大模型DeepSeek-V2

今日，在 PerfXCloud 重磅更新支持 llama 3.1 之后，其平臺(tái)再度實(shí)現(xiàn)重大升級(jí)！目前，已順利接入被譽(yù)為全球最強(qiáng)的 MOE 大模型 DeepSeek-V2 ，已在 PerfXCloud（澎峰云）官網(wǎng)的體驗(yàn)中心對(duì)平臺(tái)

發(fā)表于 07-27 10:08 ?847次閱讀

PerfXCloud順利接入<b class='flag-5'>MOE</b>大模型DeepSeek-V<b class='flag-5'>2</b>

Verilog：【8】基于FPGA實(shí)現(xiàn)SD NAND FLASH的SPI協(xié)議讀寫

校驗(yàn) 2Bytes **　　6 模塊代碼** 　　本代碼所實(shí)現(xiàn)的功能，是基于黑金AX301B，實(shí)現(xiàn)

發(fā)表于 06-21 17:58

ESP32-S2能否支持8位串行RGB？

看ESP32-S2手冊上寫的是支持8位串口RGB的。但是在編譯esp-idf master代碼時(shí)出錯(cuò)。我有一片LCD是8位串行RGB接口（

發(fā)表于 06-17 06:17

多線程操作flash導(dǎo)致lld_adv.c 3023斷言失敗怎么解決？

: 0x00060b20A7: 0x00000001A8: 0x00000001A9: 0x3fcef9e4 A10: 0

發(fā)表于 06-11 06:12

昆侖萬維開源2千億稀疏大模型Skywork-MoE

近日，昆侖萬維公司宣布開源一款名為Skywork-MoE的稀疏大模型，該模型擁有高達(dá)2千億參數(shù)，不僅性能強(qiáng)勁，而且推理成本更低，為人工智能領(lǐng)域帶來了新的突破。

發(fā)表于 06-04 14:44 ?627次閱讀

CYT2B7 SFlash被異常修改的原因？

最近遇到一例CYT2B75CAS芯片的SFlash被異常修改的案例；芯片異常表現(xiàn)為上電無法啟動(dòng)，通過編譯器Attachto running targe模式連接到芯片，然后讀取芯片SFlash區(qū)數(shù)據(jù)

發(fā)表于 05-28 08:11

STM32G0B1無法操作FLASH,解鎖FLASH失敗的原因？

使用STM32G0B1寫內(nèi)部的Flash時(shí)出現(xiàn)問題，代碼： #pragma arm section code = \"RAMCODE\" uint32_t

發(fā)表于 04-02 07:45

8b10b編碼verilog實(shí)現(xiàn)

8b/10b編碼是一種用于減少數(shù)據(jù)線上的低效能時(shí)鐘信號(hào)傳輸?shù)募夹g(shù)，通過在數(shù)據(jù)流中插入特殊的控制字符，來同步數(shù)據(jù)和時(shí)鐘。在Verilog中實(shí)現(xiàn)8b/1

發(fā)表于 03-26 07:55

基于NVIDIA Megatron Core的MOE LLM實(shí)現(xiàn)和訓(xùn)練優(yōu)化

本文將分享阿里云人工智能平臺(tái) PAI 團(tuán)隊(duì)與 NVIDIA Megatron-Core 團(tuán)隊(duì)在 MoE (Mixture of Experts) 大語言模型（LLM）實(shí)現(xiàn)與訓(xùn)練優(yōu)化上的創(chuàng)新工作。

發(fā)表于 03-22 09:50 ?898次閱讀

基于OpenCV DNN實(shí)現(xiàn)YOLOv8的模型部署與推理演示

基于OpenCV DNN實(shí)現(xiàn)YOLOv8推理的好處就是一套代碼就可以部署在Windows10系統(tǒng)、烏班圖系統(tǒng)、Jetson的Jetpack系

發(fā)表于 03-01 15:52 ?1901次閱讀

大模型系列：Flash Attention V2整體運(yùn)作流程

基于1.1中的思想，我們在V2中將原本的內(nèi)外循環(huán)置換了位置（示意圖就不畫了，基本可以對(duì)比V1示意圖想象出來）。我們直接來看V2的偽代碼（如果對(duì)以下偽代碼符號(hào)表示或解讀有疑惑的朋友，最好

發(fā)表于 02-21 11:38 ?2188次閱讀

深度學(xué)習(xí)自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁

Hot 一個(gè)給NLP領(lǐng)域帶來革新的預(yù)訓(xùn)練語言大模型Bert
Hot 推薦一些翻譯英文文獻(xiàn)比較準(zhǔn)確的軟件

New 高效大模型的推理綜述
New 什么是RAG，RAG學(xué)習(xí)和實(shí)踐經(jīng)驗(yàn)

精選推薦
更多

文章

資料

帖子

基于FPGA的DVP協(xié)議實(shí)現(xiàn)標(biāo)準(zhǔn)圖像數(shù)據(jù)流轉(zhuǎn)換

FPGA設(shè)計(jì)論壇
10小時(shí)前

235 閱讀

通過采樣減緩信號(hào)的頻率

KiCad
11小時(shí)前

258 閱讀

開關(guān)電源MOS的8大損耗計(jì)算與選型原則

崔藝仙
14小時(shí)前

375 閱讀

在RF或信號(hào)鏈中VRM有何特別之處

Qorvo半導(dǎo)體
14小時(shí)前

342 閱讀

艾為電子汽車氛圍燈解決方案

艾為之家
15小時(shí)前

417 閱讀

MAX2667,MAX2669,pdf (超低噪聲系數(shù)放大器

話多顯蠢
2533

10積分

133下載

【ARM白皮書】ARM Cortex-M處理器入門

Hx
1946KB

3積分

39下載

ChmFox Firefox的CHM瀏覽器擴(kuò)展

王桂英
0.43 MB

2積分

9下載

AWTK-MVVM C語言MVVM框架

王輝
5.33 MB

2積分

2下載

Hoverboard轉(zhuǎn)換為Ai機(jī)器人平臺(tái)或RC-Vehikel

李鴻
0.00 MB

2積分

2下載

RK3588 EVB開發(fā)板原理圖講解【一】

瑞芯微方案開發(fā)老王
1天前

151 閱讀

VirtualLab Fusion應(yīng)用：光柵級(jí)次分析器

jf_37601689
1天前

234 閱讀

【ELF 2學(xué)習(xí)板試用】命令行功能測試-shell腳本進(jìn)行IO控制-紅綠燈項(xiàng)目-實(shí)現(xiàn)開機(jī)起動(dòng)

lustao
1天前

318 閱讀

嵌入式學(xué)習(xí)-飛凌嵌入式ElfBoard ELF 1板卡-開發(fā)板適配之I2C-溫濕度傳感器

jf_13411809
1天前

394 閱讀

CS32L010的相關(guān)資料(數(shù)據(jù)手冊、用戶手冊、Pack包和例程等)

jf_54347278
1天前

369 閱讀

推薦專欄
更多

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

8x7B MoE與Flash Attention 2結(jié)合，不到10行代碼實(shí)現(xiàn)快速推理

評(píng)論

Flexus X 實(shí)例 C#/.Net Core 結(jié)合（git 代碼管理、docker 自定義鏡像）快速發(fā)布部署 - 讓你的項(xiàng)目飛起來~

獵戶星空發(fā)布Orion-MoE 8×7B大模型及AI數(shù)據(jù)寶AirDS

CC13x2x7和CC26x2x7 SimpleLink無線MCU技術(shù)參考手冊

阿里Qwen2-Math系列震撼發(fā)布，數(shù)學(xué)推理能力領(lǐng)跑全球

PerfXCloud順利接入MOE大模型DeepSeek-V2

Verilog：【8】基于FPGA實(shí)現(xiàn)SD NAND FLASH的SPI協(xié)議讀寫

ESP32-S2能否支持8位串行RGB？

多線程操作flash導(dǎo)致lld_adv.c 3023斷言失敗怎么解決？

昆侖萬維開源2千億稀疏大模型Skywork-MoE

CYT2B7 SFlash被異常修改的原因？

STM32G0B1無法操作FLASH,解鎖FLASH失敗的原因？

8b10b編碼verilog實(shí)現(xiàn)

基于NVIDIA Megatron Core的MOE LLM實(shí)現(xiàn)和訓(xùn)練優(yōu)化

基于OpenCV DNN實(shí)現(xiàn)YOLOv8的模型部署與推理演示

大模型系列：Flash Attention V2整體運(yùn)作流程

搜索歷史

8x7B MoE與Flash Attention 2結(jié)合，不到10行代碼實(shí)現(xiàn)快速推理

評(píng)論

8x7B MoE與Flash Attention 2結(jié)合，不到10行代碼實(shí)現(xiàn)快速推理