PyTorch高效編程實戰(zhàn)指南

　　1. 能用_all_gather_base的，不用all_gather

　　output = torch.empty（input.numel（） * world_size， dtype=input.dtype， device=input.device）

　　torch.distributed._all_gather_base（output， input， group=xxx）

　　vs.

　　output_list = ［

　　torch.empty（input.numel（）， dtype=input.dtype， device=input.device）

　　for _ in range（world_size）

　?。?/p>

　　torch.distributed.all_gather（output_list， input， group=xxx）

　　output = torch.cat（output_list， dim=0）

　　內(nèi)存碎片更少，操作更少，性能/內(nèi)存均有收益！

　　2. 能用專有算子的，不用通用算子

　　如 F.embedding vs. Index-select

　　Megatron-LM master實現(xiàn)使用的Index-select算子，Index-select會涉及索引展開、內(nèi)存復(fù)用等HostCPU邏輯，效率較低

　　3. 對于生命周期較長的Tensors，可以共用contiguous buffer

　　data = torch.zeros（global_size， dtype=xx， device=xx）

　　start_idx = 0

　　for i in range（len（item_list））：

　　item_list［i］ = data［start_idx:start_idx+item_list［i］.numel（）］.view（item_list［i］.shape）

　　torch.cuda.empty_cache（） # 清空原始已釋放的item list數(shù)據(jù)

　　CUDA內(nèi)存池是對齊分配的，使用分散的block會帶來內(nèi)存碎片，同時對于相同操作，可以直接對contiguous buffer進(jìn)行操作，減少了更多的算子下發(fā)，大塊計算效率也會更高。

　　4. 盡可能使用異步通信，提高計算/通信overlap

　　comm_handle = torch.distributed.all_reduce（data， group=xxx， async_op=True）

　　。.. # 省略若干計算代碼

　　comm_handle.wait（）

　　對應(yīng)中間的計算就能夠跟通信進(jìn)行overlap，只要我們提前梳理好網(wǎng)絡(luò)拓?fù)?，完全是沒問題的。

　　5. 對于輸入數(shù)據(jù)size頻繁變化的場景，使用Expandable Segments

　　PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True

　　跟cudaMalloc直接分配Kernel可訪問的內(nèi)存地址不同，該機(jī)制操作的是虛擬內(nèi)存空間（對應(yīng)的物理內(nèi)存地址不具備訪問權(quán)限），可以通過驅(qū)動map更多的物理內(nèi)存在已分配的block的后面，從而使得segments可向上擴(kuò)展，一定程度上提高了cache match的效率，減少內(nèi)存碎片。

　　6. 在適當(dāng)時機(jī)清空緩存可以大幅降低內(nèi)存占用

　　torch.cuda.empty_cache（）

　　在訓(xùn)練任務(wù)初始化時，經(jīng)常會創(chuàng)建一些臨時的設(shè)備Tensors，如果在訓(xùn)練任務(wù)開始時不及時清理，會造成內(nèi)存池碎片化，最終導(dǎo)致內(nèi)存占用增加。

　　訓(xùn)練過程中，禁止使用torch.cuda.empty_cache（），除非切換不同任務(wù)（如train/eval切換），因為cache blocks釋放會觸發(fā)Stream Synchronize，開銷較大。

　　7. non-blocking H2D拷貝是安全的，可以無腦使用

　　data = data.cuda（non_blocking=True）

　　在后續(xù)對當(dāng)前數(shù)據(jù)有依賴的地方會主動插入sync point，保證數(shù)據(jù)安全；在沒有立即對數(shù)據(jù)產(chǎn)生依賴的場景，可以使得數(shù)據(jù)H2D拷貝和計算并行。

　　8. 在CPU負(fù)載比較空的時候，還是要充分利用的

　　如數(shù)據(jù)加載的時候可以盡量將部分操作放在CPU負(fù)載。當(dāng)前Megatron master主干在這一塊還是很有優(yōu)化空間的。

　　https://zhuanlan.zhihu.com/p/670569490

　　但是盡量不要在網(wǎng)絡(luò)中間插入to cpu操作，會觸發(fā)同步，反而弄巧成拙。

　　9. 加速通信算子內(nèi)存釋放，可以無腦使用

　　10. 訓(xùn)練/推理過程中不要觸及內(nèi)存上限

　　如果內(nèi)存觀測是在持續(xù)上下跳動，那就是觸及了內(nèi)存上限，雖然整體程序能正常run起來，這時候已經(jīng)頻繁觸發(fā)了內(nèi)存池回收，每一次block回收都會觸發(fā)一次Stream Synchronize，雖然平均利用率看起來可能超過90%，但是整體性能會降低的非常多。

　　11. 對于連續(xù)的ElementWise算子，可以使用NvFuser加速

　　@torch.jit.script

　　def bias_dropout_add（x_with_bias， residual， prob， training）：

　　x， bias = x_with_bias # unpack

　　x = x + bias

　　out = torch.nn.functional.dropout（x， p=prob， training=training）

　　out = residual + out

　　return out

　　torch._C._jit_set_nvfuser_enabled（True）

　　前反向過程可以通過NvFuser實時生成高效的融合Kernel，但是注意torch.jit.script裝飾器下的所有操作必須能被TorchScript語法解釋，不然還是不能work的（具體可以去看PyTorch官方文檔的TorchScript語法介紹）。

　　12. 模型運(yùn)行過程中不要流同步阻塞算子下發(fā)

　　D2H操作、內(nèi)存回收、以及主動調(diào)用流同步（torch.cuda.synchronize（））等都會阻塞算子下發(fā)（保證對應(yīng)Stream清空），那么后續(xù)算子如果執(zhí)行過快（比下發(fā)快），那就會造成GPU間隙，所以說這個下發(fā)越快越好、越多越好，上圖這個曲線是越緩越好，下發(fā)即執(zhí)行那就是性能隨時都可能坑。

　　13. 盡量使用TensorCore，避免使用CUDACore

　　# 直接使用cumsum

　　b = a.cumsum（dim=-1）

　　# 使用矩陣計算替代

　　a = torch.matmul（a.view（x， b， s）， triu_matrix）

　　c = a［：，：-1， -1］.cumsum（-1）

　　a［：， 1：，：］.add_（c.unsqueeze（-1））

　　a = a.view（x， b*s）

　　上圖的計算如果替換成矩陣計算，加速數(shù)十倍，在cumsum維度過高的情況下，開銷是異常大的。所以在遇到類似場景，都盡量轉(zhuǎn)換成矩陣計算，即使計算量增加很多，速度還是有巨大收益的。

　　14. 集群通信需要尋找合適的bucket size

　　對于分桶通信，最優(yōu)bucket size往往跟集群規(guī)模相關(guān)，需要自適應(yīng)修改，并不一定是越小越好，不然訓(xùn)練性能損失慘重。

　　審核編輯：黃飛

閱讀全文

異步通信(10043) 異步通信(10043)
集群通信(7705) 集群通信(7705)
虛擬內(nèi)存(8015) 虛擬內(nèi)存(8015)
pytorch(12789) pytorch(12789)

100+個實戰(zhàn)案例（硬件+源碼），樹莓派就這么玩

樹莓派方案集錦：樹莓派實戰(zhàn)指南：由淺入深、圖文并茂地介紹了樹莓派（Raspberry Pi）的架構(gòu)、編程、開發(fā)與項目實踐。通過100多個專題案例的設(shè)計與實現(xiàn)，手把手地教會讀者掌握樹莓派開發(fā)的方法

2020-05-19 15:26:58

PyTorch10的基礎(chǔ)教程

PyTorch 10 基礎(chǔ)教程（4）：訓(xùn)練分類器

2020-06-05 17:42:25

PyTorch如何入門

PyTorch 入門實戰(zhàn)（一）——Tensor

2020-06-01 09:58:17

Pytorch AI語音助手

想做一個Pytorch AI語音助手，有沒有好的思路呀？

2022-03-06 13:00:12

Pytorch模型訓(xùn)練實用PDF教程【中文】

？模型部分？還是優(yōu)化器？只有這樣不斷的通過可視化診斷你的模型，不斷的對癥下藥，才能訓(xùn)練出一個較滿意的模型。本教程內(nèi)容及結(jié)構(gòu)：本教程內(nèi)容主要為在 PyTorch 中訓(xùn)練一個模型所可能涉及到的方法及函數(shù)，并且

2018-12-21 09:18:02

pytorch模型轉(zhuǎn)換需要注意的事項有哪些？

什么是JIT（torch.jit）？答：JIT（Just-In-Time）是一組編譯工具，用于彌合PyTorch研究與生產(chǎn)之間的差距。它允許創(chuàng)建可以在不依賴Python解釋器的情況下運(yùn)行的模型

2023-09-18 08:05:13

實戰(zhàn)Linux Socket編程

實戰(zhàn)Linux Socket編程

2021-03-03 10:17:25

編程指南

請?zhí)峁┮幌隆禖SU C編程指南》、《CSU ASM編程指南》，找了很多地方都沒下載的。[email protected]

2023-01-03 15:49:30

ARDUINO開發(fā)實戰(zhàn)指南

ARDUINO開發(fā)實戰(zhàn)指南

2013-09-21 05:40:22

Android編程權(quán)威指南

Android編程權(quán)威指南pdf版

2019-07-07 15:26:18

Arduino開發(fā)實戰(zhàn)指南 AVR篇

Arduino開發(fā)實戰(zhàn)指南AVR篇

2020-04-04 12:20:59

FreeRTOS內(nèi)核實現(xiàn)與應(yīng)用開發(fā)實戰(zhàn)指南

本書是野火嵌入式教學(xué)叢書“RTOS 內(nèi)核實現(xiàn)與應(yīng)用開發(fā)實戰(zhàn)指南的”FreeRTOS 版本，其中機(jī)械工業(yè)出版社出版的《RT-Thread 內(nèi)核實現(xiàn)與應(yīng)用開發(fā)實戰(zhàn)指南—基于 STM32》是該書的姐妹篇

2023-09-28 08:05:46

Mini2440 Linux移植開發(fā)實戰(zhàn)指南

Mini2440 Linux移植開發(fā)實戰(zhàn)指南

2012-08-20 19:26:52

RT-Thread 內(nèi)核實現(xiàn)與應(yīng)用開發(fā)實戰(zhàn)指南

RT-Thread 內(nèi)核實現(xiàn)與應(yīng)用開發(fā)實戰(zhàn)指南

2020-04-03 11:43:21

STM32 HAL 庫開發(fā)實戰(zhàn)指南—基于F7

STM32 HAL 庫開發(fā)實戰(zhàn)指南—基于F7

2020-04-06 20:36:38

STM32 HAL 庫開發(fā)實戰(zhàn)指南—基于F7

STM32 HAL 庫開發(fā)實戰(zhàn)指南—基于F7

2020-05-09 09:20:32

STM32嵌入式系統(tǒng)開發(fā)實戰(zhàn)指南

STM32嵌入式系統(tǒng)開發(fā)實戰(zhàn)指南

2018-04-03 09:51:34

STM32庫開發(fā)實戰(zhàn)指南

Day3 由于視頻學(xué)習(xí)太碎片化，而且容易跟不上思路，今天的學(xué)習(xí)先從讀《STM32庫開發(fā)實戰(zhàn)指南》開始讀書隨記1.GPIO被分為GPIOA、GPIOB等不同的組2.每個端口16個引腳，每個引腳的模式由

2022-02-24 06:03:27

STM32庫開發(fā)實戰(zhàn)指南

STM32庫開發(fā)實戰(zhàn)指南，一共5個部分，供大家參考

2017-03-09 08:20:35

STM32庫開發(fā)實戰(zhàn)指南：基于STM32F103

STM32庫開發(fā)實戰(zhàn)指南：基于STM32F103，一書中的第3章，第3.4節(jié)ISP一鍵下載原理分析，作者劉火良　楊森，更多章節(jié)內(nèi)容可以訪問云棲社區(qū)“華章社區(qū)”公眾號查看3.4　ISP一鍵下載原理分析

2021-08-09 07:14:27

stm32庫開發(fā)實戰(zhàn)指南對應(yīng)哪款開發(fā)板

stm32庫開發(fā)實戰(zhàn)指南對應(yīng)哪款開發(fā)板

2017-04-13 11:35:26

stm32開發(fā)實戰(zhàn)指南pdf

stm32開發(fā)實戰(zhàn)指南pdf，Cortex-M3采用ARM V7架構(gòu)，不僅支持Thumb-2指令集，而且有很多新特性，有更強(qiáng)勁的性能、更高的代碼密度、位帶操作、可嵌套中斷、低成本、低功耗眾多優(yōu)勢

2021-08-05 06:52:33

stm32開發(fā)實戰(zhàn)指南pdf

stm32開發(fā)實戰(zhàn)指南pdf，STM32學(xué)習(xí)筆記該文章是我歷時一個月整理總結(jié)而成，喜歡的煩請打個賞如需下載其中圖片鏈接可進(jìn)入我博客下載頁完整版筆記可進(jìn)入我博客下載頁

2021-07-20 06:42:09

stm32的庫開發(fā)實戰(zhàn)指南

有誰有stm32的庫開發(fā)實戰(zhàn)指南,給我來一份，謝了！1211639441

2015-10-18 21:07:17

《STM32 HAL 庫開發(fā)實戰(zhàn)指南—基于H750》

受限于單個文件不能超過5M，所以分成10個壓縮包分別上傳。野火STM32系列叢書《STM32 HAL 庫開發(fā)實戰(zhàn)指南—基于H750》，內(nèi)容殷實，講解詳細(xì)，適合入門和提高，非常不錯

2021-01-14 10:09:04

【圖書分享】《STM32庫開發(fā)實戰(zhàn)指南》

《STM32庫開發(fā)實戰(zhàn)指南》，由于內(nèi)容實在太龐大！本人只好上傳到群共享里面156763768，或者加Q1470111256作者：劉火良，網(wǎng)名野火，嵌入式開發(fā)工程師，野火嵌入式開發(fā)工作室的創(chuàng)始人

2014-03-13 17:01:04

【資料共享】SRIO編程及調(diào)測指南

附件是與之前發(fā)布的SRIO例程對應(yīng)的編程指南手冊，請參考。 ?

2018-06-21 17:33:58

如何高效學(xué)習(xí)編程

編者按：很多技術(shù)新人對編程充滿興趣，卻不得要領(lǐng)，有的甚至半年尚未入門，所以本期創(chuàng)作人生的話題是：如何高效學(xué)習(xí)編程?！凹夹g(shù)成長”往往離不開“持續(xù)學(xué)習(xí)”，他是一位大學(xué)生，在學(xué)業(yè)之余一直豐富自己。一年

2021-07-20 07:30:31

如何安裝TensorFlow2 Pytorch？

如何安裝TensorFlow2 Pytorch？

2022-03-07 07:32:03

如何將PyTorch模型與OpenVINO trade結(jié)合使用？

無法確定如何轉(zhuǎn)換 PyTorch 掩碼 R-CNN 模型以配合OpenVINO?使用。

2023-08-15 07:04:51

如何往星光2板子里裝pytorch？

如題,想先gpu版本的pytorch只安裝cpu版本的pytorch,pytorch官網(wǎng)提供了基于conda和pip兩種安裝方式。因為咱是risc架構(gòu)沒對應(yīng)的conda，而使用pip安裝提示也沒有

2023-09-12 06:30:20

將Pytorch模型轉(zhuǎn)換為DeepViewRT模型時出錯怎么解決？

我最終可以在 i.MX 8M Plus 處理器上部署 .rtm 模型。我遵循了本指南，我將 Pytorch 模型轉(zhuǎn)換為 ONNX 模型，然后按照指南中的描述，我嘗試將 ONNX 模型轉(zhuǎn)換為量化

2023-06-09 06:42:58

將pytorch模型轉(zhuǎn)化為onxx模型的步驟有哪些

首先pytorch模型要先轉(zhuǎn)化為onxx模型，然后從onxx模型轉(zhuǎn)化為rknn模型直接轉(zhuǎn)化會出現(xiàn)如下問題，環(huán)境都是正確的，論壇詢問后也沒給出準(zhǔn)確答案說是版本問題--&gt

2022-05-09 16:36:55

開發(fā)實戰(zhàn)+編程指南，教你快速學(xué)習(xí)FreeRTOS系統(tǒng)

實現(xiàn)與應(yīng)用開發(fā)實戰(zhàn)：為了幫大家理清 RTOS 編程的套路，我們會在“裸機(jī)系統(tǒng)與多任務(wù)系統(tǒng)”章節(jié)簡單的分析下這兩種編程方式的區(qū)別，這個區(qū)別我稱它為學(xué)習(xí) RTOS 的命門，只要打通這個任督二脈，以后的 RTOS

2020-04-17 15:10:37

樹莓派學(xué)習(xí)指南三部曲，從編程到實戰(zhàn)一應(yīng)俱全

本資料介紹的是樹莓派系列教程資料匯總，包括了：樹莓派python編程指南，實戰(zhàn)指南與樹莓派系列教程，其中教程資料為 1：人生若只如初見，樹莓派系列教程 2：樹莓派燒寫鏡像，樹莓派系列教程 3：訪問

2019-09-10 18:23:53

樹莓派（Raspberry+Pi）實戰(zhàn)指南+手把手教你掌握100個精彩案例

樹莓派（Raspberry+Pi）實戰(zhàn)指南+手把手教你掌握100個精彩案例

2020-04-02 14:18:49

正點(diǎn)原子stm32f1庫開發(fā)實戰(zhàn)指南,mpu6050中的溫度傳感器temperature=36.53+regval/340

stm32f1庫開發(fā)實戰(zhàn)指南,庫函數(shù)版本,505面這個公式怎么來的mpu6050中的溫度傳感器temperature=36.53+regval/340

2018-06-08 19:20:58

求STM32庫開發(fā)實戰(zhàn)指南.........

跪求STM32庫開發(fā)實戰(zhàn)指南...............................................

2015-11-29 13:54:26

求《STM32庫開發(fā)實戰(zhàn)指南》PDF版本

求《STM32庫開發(fā)實戰(zhàn)指南》PDF版本，郵箱：[email protected]，在此謝謝了！

2014-04-18 19:41:19

我是學(xué)生啊T T太悲劇了學(xué)校覺得我們專業(yè)的人數(shù)太少，所以就沒有統(tǒng)一買這本書，現(xiàn)在上課老師又是跟著這本書教的，單買的話要50塊大洋啊好貴的說………………（哭），求《stm32庫開發(fā)實戰(zhàn)指南》嚶嚶嚶看了發(fā)燒友以前有關(guān)于這本書的帖子，里面的鏈接都失效了啊，誰有誰有，求發(fā) QAQ！感激不盡?。?！

2014-09-16 00:35:43

求分享CTN730編程指南的相關(guān)資料

我們的客戶要求 CTN730進(jìn)行編程。我們正在搜索CTN730系列的編程指南，我們將開發(fā)編程算法到我們的編程器平臺。你能幫忙提供編程指南給我們開發(fā)嗎？

2023-04-25 09:31:23

求電子版《STM32庫開發(fā)實戰(zhàn)指南》

求電子版《STM32庫開發(fā)實戰(zhàn)指南》[劉火良，楊森編著][機(jī)械工業(yè)出版社]謝謝！

2018-10-17 18:07:47

求飛思卡爾單片機(jī)高效c語言編程參考？

求飛思卡爾單片機(jī)高效c語言編程(中文)新，高效C語言編程實驗參考看看？

2021-10-13 09:13:44

物聯(lián)網(wǎng)實戰(zhàn)指南

物聯(lián)網(wǎng)實戰(zhàn)指南

2020-02-23 10:50:32

萌新求助關(guān)于基礎(chǔ)編程的指南

萌新求助關(guān)于基礎(chǔ)編程的指南硬件復(fù)位和設(shè)置全局?jǐn)?shù)據(jù)格式

2021-05-12 06:41:14

資料推薦：LwIP編程指南

《LwIP編程指南》

2016-06-12 13:49:05

跪求LWIP的sequential API編程指南

誰有LWIP的sequential API編程指南，求網(wǎng)址，最好中文版的

2015-12-09 19:02:55

通過Cortex來非常方便的部署PyTorch模型

PyTorch 模型所需的大部分基礎(chǔ)設(shè)施工作，這是一個將模型作為 api 部署到 AWS 上的開源工具。這篇文章并不是一個完整的 Cortex 使用指南，只是一個高層次的 Cortex 使用方法，你

2022-11-01 15:25:02

C語言SOCKET編程指南

這個文檔是一個指南，而不是參考書。如果你剛開始socket 編程并想找一本入門書，那么你是我的讀者。但這不是一本完全的socket 編程書。

2011-12-09 14:58:26

高質(zhì)量C++C編程指南

高質(zhì)量C++C編程指南高質(zhì)量C++C編程指南

2016-01-15 16:26:16

FPGA設(shè)計實戰(zhàn)

《FPGA設(shè)計實戰(zhàn)》是為FPGA工程師量身定制的設(shè)計參考指南，不僅介紹了FPGA基本概念，還介紹了設(shè)計邏輯和技巧，使讀者能夠開發(fā)出實際高效的代碼?！禙PGA設(shè)計實戰(zhàn)》適用于電子工程師閱讀，也可作為高等院校相關(guān)專業(yè)師生的參考指南。

2016-04-20 09:31:53

TwinCAT_倍福編程指南

TwinCAT_倍福編程指南,用于倍福的控制器編程，操作說明。

2016-04-28 11:19:53

ARDUINO開發(fā)實戰(zhàn)指南_part1

ARDUINO開發(fā)實戰(zhàn)指南資料過大，分為2部分上傳，有想法的小伙伴們需要全部下載解壓打開~其他部分可以去我上傳的資料頁面查看。

2016-07-13 16:12:57

ARDUINO開發(fā)實戰(zhàn)指南_part2

ARDUINO開發(fā)實戰(zhàn)指南資料過大，分為2部分上傳，有想法的小伙伴們需要全部下載解壓打開~其他部分可以去我上傳的資料頁面查看。

2016-07-13 16:12:57

ARDUINO開發(fā)實戰(zhàn)指南_AVR篇.part1

講了遙控履帶車和仿生機(jī)器人和arduino基礎(chǔ)，ARDUINO開發(fā)實戰(zhàn)指南_AVR篇資料過大，分為2部分上傳，有想法的小伙伴們需要全部下載解壓打開~其他部分可以去我上傳的資料頁面查看。

2016-07-14 17:34:13

ARDUINO開發(fā)實戰(zhàn)指南_AVR篇.part2

2016-07-14 17:34:13

NOR FLASH編程指南

NOR FLASH編程指南,可以下來看看。

2016-12-11 21:31:55

高質(zhì)量C、C++編程指南

c 語言編程指南

2017-03-19 19:49:39

Java并發(fā)編程實戰(zhàn)

Java并發(fā)編程實戰(zhàn)

2017-03-19 11:24:33

Java編程指南

2017-03-19 11:26:35

萬用編程座適配板焊接指南

2017-10-12 14:19:17

FM1702編程指南

2017-10-23 11:03:24

高級Bash 腳本編程指南

2017-10-26 08:33:37

高質(zhì)量的c編程指南

2017-10-26 16:00:29

CC++編程指南

2017-10-27 14:45:22

高質(zhì)量C 編程指南

2017-10-30 10:10:35

C#上位機(jī)實戰(zhàn)開發(fā)指南

C#上位機(jī)實戰(zhàn)開發(fā)指南

2017-11-22 19:25:36

樹莓派(Raspberry Pi)實戰(zhàn)指南.pdf

樹莓派實戰(zhàn)指南

2018-05-07 15:17:05

120

嵌入式系統(tǒng)C語言編程實戰(zhàn)教程合集

本文檔的主要內(nèi)容詳細(xì)介紹的是嵌入式系統(tǒng)C語言編程實戰(zhàn)教程合集

2019-02-19 10:34:00

9020

如何讓PyTorch模型訓(xùn)練變得飛快？

有了），使用這個清單，一步一步確保你能榨干你模型的所有性能。本指南從最簡單的結(jié)構(gòu)到最復(fù)雜的改動都有，可以使你的網(wǎng)絡(luò)得到最大的好處。我會給你展示示例Pytorch代碼以及可以在Pytorch- lightning Trainer中使用的相關(guān)flags，這樣你可以不用自己編寫這些代碼！這篇

2020-11-27 10:43:52

1487

基于PyTorch的深度學(xué)習(xí)入門教程之PyTorch簡單知識

本文參考PyTorch官網(wǎng)的教程，分為五個基本模塊來介紹PyTorch。為了避免文章過長，這五個模塊分別在五篇博文中介紹。 Part1：PyTorch簡單知識 Part2：PyTorch的自動梯度

2021-02-16 15:20:00

1966

已全部加載完成

搜索歷史

PyTorch高效編程實戰(zhàn)指南

評論