欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

游戲AI對自對弈推理速度提出新要求

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá) ? 2021-10-22 09:23 ? 次閱讀

騰訊一直積極地推動強(qiáng)化學(xué)習(xí)在游戲AI領(lǐng)域的發(fā)展,并在2019年推出了“開悟”AI開放研究平臺,提供不同游戲的訓(xùn)練場景、支撐AI進(jìn)行強(qiáng)化訓(xùn)練的大規(guī)模算力、統(tǒng)一的強(qiáng)化學(xué)習(xí)框架以加速研發(fā)速度、通用的訓(xùn)練與推理服務(wù),加快AI訓(xùn)練速度。

游戲AI對自對弈推理速度提出新要求

和圖像以及語音的訓(xùn)練方式不同,目前在游戲AI訓(xùn)練上表現(xiàn)最好的方式是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)除了需要大量的算力來訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)之外,還需要一個自對弈的模塊用來產(chǎn)生訓(xùn)練數(shù)據(jù)。在自對弈模塊當(dāng)中,會模擬游戲環(huán)境,并且選擇不同時期的模型來操控游戲內(nèi)的角色,AI對游戲內(nèi)角色的每一操控都需要對模型進(jìn)行一次前向推理。由于更新模型的訓(xùn)練數(shù)據(jù)來自于自對弈模塊,因此自對弈的推理速度會對整個模型的訓(xùn)練速度和效果造成非常大的影響。

而自對弈推理每一次前向推理對延時的要求比實際的線上服務(wù)小,因此常見的方式是通過CPU來進(jìn)行自對弈中的推理,但CPU成本太高。為了提高自對弈的速度與吞吐,減少推理成本,騰訊希望在“開悟”AI開放研究平臺里面充分利用GPU去進(jìn)行自對弈中的模型前向推理。

TensorRT 助力“開悟”AI加速自對弈推理

為了解決在自對弈推理當(dāng)中GPU利用率不高的問題, 騰訊“開悟”AI開放研究平臺選擇使用NVIDIA V100 GPU和NVIDIA TensorRT推理引擎來加速推理。

為了自動化地將模型從TensorFlow轉(zhuǎn)換到TensorRT, 騰訊“開悟”AI開放研究平臺一開始通過自行開發(fā)parser,將TensorFlow的算子映射到TensorRT的算子。同時,為了支持更廣泛的模型與算子,減少維護(hù)和開發(fā)的成本, 騰訊“開悟”AI開放研究平臺也積極地與NVIDIA合作,推動從TensorFlow轉(zhuǎn)換成ONNX模型,再通過TensorRT ONNX parser轉(zhuǎn)換到TensorRT的流程。

在自對弈的過程中,需要頻繁地更新模型的權(quán)重,讓自對弈模型始終能保持在較新的狀態(tài)。這個更新的頻率大概幾分鐘一次,每次必須限制在幾百個毫秒。如果通過重新build engine 的方式來更新模型的話,無法滿足上述要求。因此 騰訊“開悟”AI開放研究平臺采用 TensorRT refit engine的功能來更新權(quán)重。同時,為了對更新權(quán)重有更好的支持、以及支持更多的算子, 騰訊“開悟”AI開放研究平臺從原本的TensorRT 5 升級到TensorRT 7。

TensorRT 7雖然在部分算子上支持權(quán)重更新,但并不支持LSTM這個在游戲AI當(dāng)中很重要的算子。為了解決這個問題, 騰訊“開悟”AI開放研究平臺通過開發(fā)TensorRT插件的方式封裝LSTM算子,并在插件當(dāng)中更新權(quán)重。

為了充分利用NVIDIA V100 GPU的Tensor core, 騰訊“開悟”AI開放研究平臺希望能夠使用TensorRT FP16精度來加速推理。由于TensorRT對FP16的支持非常成熟和簡便,整個推理流程很快被切換到FP16,并取得了2倍左右的加速。

尋找模型推理時的性能瓶頸,通過開發(fā)TensorRT插件進(jìn)行算子融合,進(jìn)一步地提升推理的速度。

在完成以上的工作之后,對比TensorFlow的基礎(chǔ)版本,TensorRT 7 能提供5倍以上的加速效果。

通過NVIDIA V100 GPU以及TensorRT推理引擎加速自對弈訓(xùn)練的推理部分,騰訊“開悟”AI開放研究平臺極大地提升了自對弈推理的吞吐量與速度,進(jìn)一步地提升了整個模型訓(xùn)練的速度與降低訓(xùn)練成本,加快模型迭代的周期。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5080

    瀏覽量

    103829
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4788

    瀏覽量

    129431
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31711

    瀏覽量

    270511

原文標(biāo)題:NVIDIA TensorRT助力騰訊加速“開悟”AI開放研究平臺

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。
    的頭像 發(fā)表于 02-08 09:59 ?204次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺提高<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

    生成式AI推理技術(shù)、市場與未來

    OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相繼發(fā)布,預(yù)示著生成式AI研究正從預(yù)訓(xùn)練轉(zhuǎn)向推理(Inference),以提升AI邏輯推理
    的頭像 發(fā)表于 01-20 11:16 ?452次閱讀
    生成式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>技術(shù)、市場與未來

    中國電提出大模型推理加速新范式Falcon

    的 Falcon 方法是一種 增強(qiáng)半回歸投機(jī)解碼框架 ,旨在增強(qiáng) draft model 的并行性和輸出質(zhì)量,以有效提升大模型的推理速度。Falcon 可以實現(xiàn)約 2.91-3.51 倍的加速比,在多種數(shù)據(jù)集上獲得了很好的結(jié)果
    的頭像 發(fā)表于 01-15 13:49 ?138次閱讀
    中國電<b class='flag-5'>提出</b>大模型<b class='flag-5'>推理</b>加速新范式Falcon

    高效大模型的推理綜述

    大模型由于其在各種任務(wù)中的出色表現(xiàn)而引起了廣泛的關(guān)注。然而,大模型推理的大量計算和內(nèi)存需求對其在資源受限場景的部署提出了挑戰(zhàn)。業(yè)內(nèi)一直在努力開發(fā)旨在提高大模型推理效率的技術(shù)。本文對現(xiàn)有的關(guān)于高效
    的頭像 發(fā)表于 11-15 11:45 ?606次閱讀
    高效大模型的<b class='flag-5'>推理</b>綜述

    AI推理CPU當(dāng)?shù)?,Arm驅(qū)動高效引擎

    AI的訓(xùn)練和推理共同鑄就了其無與倫比的處理能力。在AI訓(xùn)練方面,GPU因其出色的并行計算能力贏得了業(yè)界的青睞,成為了當(dāng)前AI大模型最熱門的芯片;而在
    的頭像 發(fā)表于 11-13 14:34 ?2662次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>CPU當(dāng)?shù)?,Arm驅(qū)動高效引擎

    蜂窩式移動通信設(shè)備CCC標(biāo)準(zhǔn)換版新要求

    蜂窩式移動通信設(shè)備的CCC標(biāo)準(zhǔn)(即中國強(qiáng)制性產(chǎn)品認(rèn)證標(biāo)準(zhǔn))換版確實提出新要求,主要涉及YD/T 2583.18-2024《蜂窩式移動通信設(shè)備電磁兼容性能要求和測量方法 第18部分:5G用戶設(shè)備和輔助設(shè)備》(以下簡稱“新版標(biāo)準(zhǔn)”
    的頭像 發(fā)表于 10-19 10:02 ?408次閱讀
    蜂窩式移動通信設(shè)備CCC標(biāo)準(zhǔn)換版<b class='flag-5'>新要求</b>

    當(dāng)前主流的大模型對于底層推理芯片提出了哪些挑戰(zhàn)

    隨著大模型時代的到來,AI算力逐漸變成重要的戰(zhàn)略資源,對現(xiàn)有AI芯片也提出了前所未有的挑戰(zhàn):大算力的需求、高吞吐量與低延時、高效內(nèi)存管理、能耗等等。
    的頭像 發(fā)表于 09-24 16:57 ?789次閱讀

    AMD助力HyperAccel開發(fā)全新AI推理服務(wù)器

    HyperAccel 是一家成立于 2023 年 1 月的韓國初創(chuàng)企業(yè),致力于開發(fā) AI 推理專用型半導(dǎo)體器件和硬件,最大限度提升推理工作負(fù)載的存儲器帶寬使用,并通過將此解決方案應(yīng)用于大型語言模型來
    的頭像 發(fā)表于 09-18 09:37 ?508次閱讀
    AMD助力HyperAccel開發(fā)全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務(wù)器

    如何基于OrangePi?AIpro開發(fā)AI推理應(yīng)用

    。通過昇騰CANN軟件棧的AI編程接口,可滿足大多數(shù)AI算法原型驗證、推理應(yīng)用開發(fā)的需求。AscendCL(AscendComputingLanguage,昇騰計算
    的頭像 發(fā)表于 06-04 14:23 ?617次閱讀
    如何基于OrangePi?AIpro開發(fā)<b class='flag-5'>AI</b><b class='flag-5'>推理</b>應(yīng)用

    開發(fā)者手機(jī) AI - 目標(biāo)識別 demo

    識別demo: JS實現(xiàn)UI界面的功能; Native接口及實現(xiàn)主要為JS提供接口進(jìn)行AI推理。通過Native方式完成推理的前處理、推理以及后處理,這里通過調(diào)用opencv、Mind
    發(fā)表于 04-11 16:14

    AI時代下PMIC需求暴增,設(shè)計提出新要求

    ? 電子發(fā)燒友網(wǎng)報道(文/黃山明)隨著AI技術(shù)的快速發(fā)展,AI芯片的功耗和性能也在不斷提升,這對電源系統(tǒng)提出了更高的要求。為了滿足AI芯片對
    的頭像 發(fā)表于 03-26 00:22 ?5182次閱讀
    <b class='flag-5'>AI</b>時代下PMIC需求暴增,設(shè)計<b class='flag-5'>提出新要求</b>

    AMD EPYC處理器:AI推理能力究竟有多強(qiáng)?

    如今,AMD EPYC處理器已經(jīng)成為最常被選擇用于AI推理的服務(wù)器平臺,尤其是第四代Genoa EPYC 9004系列,執(zhí)行AI推理的能力又得到了巨大的飛躍。
    發(fā)表于 03-15 09:47 ?574次閱讀

    AI推理框架軟件ONNX Runtime正式支持龍架構(gòu)

    近日,知名AI推理框架開源社區(qū)ONNX Runtime正式發(fā)布支持龍架構(gòu)的版本1.17.0。
    的頭像 發(fā)表于 03-12 12:23 ?642次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>框架軟件ONNX Runtime正式支持龍架構(gòu)

    Groq LPU崛起,AI芯片主戰(zhàn)場從訓(xùn)練轉(zhuǎn)向推理

    人工智能推理的重要性日益凸顯,高效運行端側(cè)大模型及AI軟件背后的核心技術(shù)正是推理。不久的未來,全球芯片制造商的主要市場將全面轉(zhuǎn)向人工智能推理領(lǐng)域。
    的頭像 發(fā)表于 02-29 16:46 ?1851次閱讀

    使用NVIDIA Triton推理服務(wù)器來加速AI預(yù)測

    這家云計算巨頭的計算機(jī)視覺和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來加速 AI 預(yù)測。
    的頭像 發(fā)表于 02-29 14:04 ?639次閱讀