騰訊一直積極地推動強(qiáng)化學(xué)習(xí)在游戲AI領(lǐng)域的發(fā)展,并在2019年推出了“開悟”AI開放研究平臺,提供不同游戲的訓(xùn)練場景、支撐AI進(jìn)行強(qiáng)化訓(xùn)練的大規(guī)模算力、統(tǒng)一的強(qiáng)化學(xué)習(xí)框架以加速研發(fā)速度、通用的訓(xùn)練與推理服務(wù),加快AI訓(xùn)練速度。
游戲AI對自對弈推理速度提出新要求
和圖像以及語音的訓(xùn)練方式不同,目前在游戲AI訓(xùn)練上表現(xiàn)最好的方式是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)除了需要大量的算力來訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)之外,還需要一個自對弈的模塊用來產(chǎn)生訓(xùn)練數(shù)據(jù)。在自對弈模塊當(dāng)中,會模擬游戲環(huán)境,并且選擇不同時期的模型來操控游戲內(nèi)的角色,AI對游戲內(nèi)角色的每一操控都需要對模型進(jìn)行一次前向推理。由于更新模型的訓(xùn)練數(shù)據(jù)來自于自對弈模塊,因此自對弈的推理速度會對整個模型的訓(xùn)練速度和效果造成非常大的影響。
而自對弈推理每一次前向推理對延時的要求比實際的線上服務(wù)小,因此常見的方式是通過CPU來進(jìn)行自對弈中的推理,但CPU成本太高。為了提高自對弈的速度與吞吐,減少推理成本,騰訊希望在“開悟”AI開放研究平臺里面充分利用GPU去進(jìn)行自對弈中的模型前向推理。
為了解決在自對弈推理當(dāng)中GPU利用率不高的問題, 騰訊“開悟”AI開放研究平臺選擇使用NVIDIA V100 GPU和NVIDIA TensorRT推理引擎來加速推理。
為了自動化地將模型從TensorFlow轉(zhuǎn)換到TensorRT, 騰訊“開悟”AI開放研究平臺一開始通過自行開發(fā)parser,將TensorFlow的算子映射到TensorRT的算子。同時,為了支持更廣泛的模型與算子,減少維護(hù)和開發(fā)的成本, 騰訊“開悟”AI開放研究平臺也積極地與NVIDIA合作,推動從TensorFlow轉(zhuǎn)換成ONNX模型,再通過TensorRT ONNX parser轉(zhuǎn)換到TensorRT的流程。
在自對弈的過程中,需要頻繁地更新模型的權(quán)重,讓自對弈模型始終能保持在較新的狀態(tài)。這個更新的頻率大概幾分鐘一次,每次必須限制在幾百個毫秒。如果通過重新build engine 的方式來更新模型的話,無法滿足上述要求。因此 騰訊“開悟”AI開放研究平臺采用 TensorRT refit engine的功能來更新權(quán)重。同時,為了對更新權(quán)重有更好的支持、以及支持更多的算子, 騰訊“開悟”AI開放研究平臺從原本的TensorRT 5 升級到TensorRT 7。
TensorRT 7雖然在部分算子上支持權(quán)重更新,但并不支持LSTM這個在游戲AI當(dāng)中很重要的算子。為了解決這個問題, 騰訊“開悟”AI開放研究平臺通過開發(fā)TensorRT插件的方式封裝LSTM算子,并在插件當(dāng)中更新權(quán)重。
為了充分利用NVIDIA V100 GPU的Tensor core, 騰訊“開悟”AI開放研究平臺希望能夠使用TensorRT FP16精度來加速推理。由于TensorRT對FP16的支持非常成熟和簡便,整個推理流程很快被切換到FP16,并取得了2倍左右的加速。
尋找模型推理時的性能瓶頸,通過開發(fā)TensorRT插件進(jìn)行算子融合,進(jìn)一步地提升推理的速度。
在完成以上的工作之后,對比TensorFlow的基礎(chǔ)版本,TensorRT 7 能提供5倍以上的加速效果。
通過NVIDIA V100 GPU以及TensorRT推理引擎加速自對弈訓(xùn)練的推理部分,騰訊“開悟”AI開放研究平臺極大地提升了自對弈推理的吞吐量與速度,進(jìn)一步地提升了整個模型訓(xùn)練的速度與降低訓(xùn)練成本,加快模型迭代的周期。
責(zé)任編輯:haq
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5080瀏覽量
103829 -
gpu
+關(guān)注
關(guān)注
28文章
4788瀏覽量
129431 -
AI
+關(guān)注
關(guān)注
87文章
31711瀏覽量
270511
原文標(biāo)題:NVIDIA TensorRT助力騰訊加速“開悟”AI開放研究平臺
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
生成式AI推理技術(shù)、市場與未來
![生成式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>技術(shù)、市場與未來](https://file1.elecfans.com/web3/M00/06/96/wKgZPGeNwMCAK2swAAAMwweA25k672.jpg)
中國電提出大模型推理加速新范式Falcon
![中國電<b class='flag-5'>提出</b>大模型<b class='flag-5'>推理</b>加速新范式Falcon](https://file1.elecfans.com/web3/M00/06/0E/wKgZPGeHTuiAbxooAAAU7iLP_IA514.png)
高效大模型的推理綜述
![高效大模型的<b class='flag-5'>推理</b>綜述](https://file1.elecfans.com/web1/M00/F5/1C/wKgZoWc2xI2AKaYzAAAlYXaG7es830.png)
AI推理CPU當(dāng)?shù)?,Arm驅(qū)動高效引擎
![<b class='flag-5'>AI</b><b class='flag-5'>推理</b>CPU當(dāng)?shù)?,Arm驅(qū)動高效引擎](https://file1.elecfans.com/web1/M00/F4/F3/wKgZoWc0SKeAXZrNAAChYI9hOdg816.jpg)
蜂窩式移動通信設(shè)備CCC標(biāo)準(zhǔn)換版新要求
![蜂窩式移動通信設(shè)備CCC標(biāo)準(zhǔn)換版<b class='flag-5'>新要求</b>](https://file1.elecfans.com/web2/M00/0A/B4/wKgaomcTE0WAZOnaAABFerHy1Nw669.png)
當(dāng)前主流的大模型對于底層推理芯片提出了哪些挑戰(zhàn)
AMD助力HyperAccel開發(fā)全新AI推理服務(wù)器
![AMD助力HyperAccel開發(fā)全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務(wù)器](https://file1.elecfans.com/web2/M00/07/9F/wKgaombqLxCAdBaIAAGAxEvslZA335.png)
如何基于OrangePi?AIpro開發(fā)AI推理應(yīng)用
![如何基于OrangePi?AIpro開發(fā)<b class='flag-5'>AI</b><b class='flag-5'>推理</b>應(yīng)用](https://file1.elecfans.com/web2/M00/E6/EC/wKgaomZF0pGAEqvYAAC10ezl7cU777.png)
開發(fā)者手機(jī) AI - 目標(biāo)識別 demo
AI時代下PMIC需求暴增,設(shè)計提出新要求
![<b class='flag-5'>AI</b>時代下PMIC需求暴增,設(shè)計<b class='flag-5'>提出新要求</b>](https://file1.elecfans.com/web2/M00/D0/DA/wKgaomYiN1aAd6-KAARy_d23rQs064.png)
評論