欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Xavier的硬件架構(gòu)特性!Xavier推理性能評(píng)測(cè)

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:lp ? 2019-04-17 16:55 ? 次閱讀

01

背景

如果把信息科技產(chǎn)業(yè)劃分為三個(gè)時(shí)代:PC 時(shí)代、移動(dòng)互聯(lián)網(wǎng)時(shí)代和人工智能AI)時(shí)代。目前,我們處于移動(dòng)互聯(lián)網(wǎng)時(shí)代的末期和下一個(gè)時(shí)代的早期,即以深度神經(jīng)網(wǎng)絡(luò)算法為核心的AI 時(shí)代。

深度神經(jīng)網(wǎng)絡(luò)模擬人類大腦的工作原理,是近年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域最令人矚目的方向。2006年深度學(xué)習(xí)泰斗Geoffrey Hinton提出了基于“逐層訓(xùn)練”和“精調(diào)”的兩階段策略,解決了深度神經(jīng)網(wǎng)絡(luò)中參數(shù)訓(xùn)練的難題后,學(xué)術(shù)界和工業(yè)界對(duì)深度神經(jīng)網(wǎng)絡(luò)的研究熱情高漲,并逐漸在語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理等領(lǐng)域取得突破性進(jìn)展。2012年深度卷積神經(jīng)網(wǎng)絡(luò)在ImageNet圖像分類競(jìng)賽中取得了世界第一,標(biāo)志著端到端的方法取得了超越手工設(shè)計(jì)特征的傳統(tǒng)方法。此后深度神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了快車道。2016年基于深度學(xué)習(xí)的AlphaGo打敗了圍棋世界冠軍李世石,同度舉辦的人工智能知名學(xué)術(shù)會(huì)議CVPR、NIPS、AAAI和ICLR上深度神經(jīng)網(wǎng)絡(luò)的主題占主導(dǎo)地位。2017年以深度神經(jīng)網(wǎng)絡(luò)為核心的DeepStack算法在德州撲克游戲中擊敗了人類職業(yè)玩家。2018年,人工智能的芯片已經(jīng)應(yīng)用于云計(jì)算和移動(dòng)終端中。目前,深度神經(jīng)網(wǎng)絡(luò)的研究向著更深更廣的方向前進(jìn),一方面深度神經(jīng)網(wǎng)絡(luò)的理論研究越來(lái)越深入,另外一方面如何開(kāi)發(fā)基于深度神經(jīng)網(wǎng)絡(luò)的智能系統(tǒng)成為關(guān)鍵,特別是如何將人工智能技術(shù)與邊緣計(jì)算結(jié)合起來(lái)。

云計(jì)算作為一種計(jì)算模式已經(jīng)滲透進(jìn)我們?nèi)粘I钪?,但是有很多很多?yīng)用場(chǎng)合,由于網(wǎng)絡(luò)不可用、網(wǎng)絡(luò)帶寬不足和網(wǎng)絡(luò)延遲大等原因使得基于云計(jì)算的模式不能滿足需求,這就是邊緣計(jì)算覆蓋的領(lǐng)域。中國(guó)邊緣計(jì)算產(chǎn)業(yè)聯(lián)盟(Edge Computing Consortium,ECC)定義的邊緣計(jì)算是指在靠近物或數(shù)據(jù)源頭的網(wǎng)絡(luò)邊緣側(cè),融合網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)、應(yīng)用核心能力的開(kāi)放平臺(tái),就近提供邊緣智能服務(wù),滿足業(yè)務(wù)在敏捷聯(lián)接、實(shí)時(shí)業(yè)務(wù)、數(shù)據(jù)優(yōu)化和應(yīng)用智能等方面的關(guān)鍵需求。由此可見(jiàn)要想在邊緣計(jì)算中部署人工智能應(yīng)用,必須要有高性能低功耗的超級(jí)計(jì)算平臺(tái)。NVIDIA最近發(fā)布的Jetson AGX Xavier就是在邊緣計(jì)算場(chǎng)景中部署人工智能應(yīng)用的一個(gè)利器。

嵌入式超級(jí)計(jì)算機(jī)Jetson AGX Xavier可以用于自主物流車、機(jī)器人、無(wú)人機(jī)和其他智能機(jī)器,從而加速制造、物流、零售、服務(wù)、農(nóng)業(yè)、醫(yī)療等產(chǎn)業(yè)的智能化發(fā)展,為智能城市的發(fā)展做出貢獻(xiàn)。

02

Xavier的硬件架構(gòu)特性

Xavier是最新一代NVIDIA業(yè)界領(lǐng)先的嵌入式Linux高性能計(jì)算機(jī),主要包括一個(gè)8核NVIDIA Carmel ARMv8.2 64位CPU,由8個(gè)流多處理器組成的512核Volta架構(gòu)的GPU,支持并行計(jì)算語(yǔ)言CUDA 10,支持多精度計(jì)算,F(xiàn)P16計(jì)算能力為11 TFLOPS(每秒浮點(diǎn)運(yùn)算次數(shù)),INT8為22 TOPS。64個(gè)Tensor核心, 16GB 256位LPDDR4x,雙深度學(xué)習(xí)加速器 (DLA)引擎,NVIDIA視覺(jué)加速器引擎,高清視頻編解碼器,Xavier集成的Volta GPU,具體參數(shù)如表1所示,GPU架構(gòu)如圖1所示。

用戶可根據(jù)應(yīng)用需要配置Xavier工作在10W、15W和30W的模式,憑借多種工作模式,Jetson AGX Xavier的能效比其前身Jetson TX2高出10倍以上,性能超過(guò)20倍。

表1 Xavier主要參數(shù)

圖1 Xavier Volta GPU架構(gòu)

Xavier內(nèi)置的 Tensor Core支持混合精度計(jì)算。可以完成以下的融合乘法加法:執(zhí)行兩個(gè)4*4 FP16矩陣相乘,將結(jié)果添加到4*4 FP16或FP32矩陣中,最終輸出新的4*4 FP16或FP32矩陣。深度神經(jīng)網(wǎng)絡(luò)最耗時(shí)的卷積操作在訓(xùn)練和推理時(shí)都可以轉(zhuǎn)成上述的矩陣乘法,Tensor Core極大的提高了計(jì)算效率。

Xavier具有兩個(gè)NVIDIA 深度學(xué)習(xí)加速器(DLA)引擎,可以進(jìn)行高性能的深度神經(jīng)網(wǎng)絡(luò)推理計(jì)算,其結(jié)構(gòu)如圖2所示。這每個(gè)DLA具有高達(dá)5 TOPS INT8或2.5 TFLOPS FP16計(jì)算性能,功耗僅為0.5-1.5W。DLA支持加速CNN層,例如卷積、反卷積、激活函數(shù)、最小/最大/平均池化、局部響應(yīng)歸一化和全連接層。

圖2 深度學(xué)習(xí)加速器(DLA)架構(gòu)

03

Xavier的軟件平臺(tái)

Xavier主要用于邊緣計(jì)算的深度神經(jīng)網(wǎng)絡(luò)推理,其支持Caffe、Tensorflow、PyTorch等多種深度學(xué)習(xí)框架導(dǎo)出的模型。為進(jìn)一步提高計(jì)算效率,還可以使用TensorRT對(duì)訓(xùn)練好的模型利用計(jì)算圖優(yōu)化、算子融合、量化等方法精簡(jiǎn)進(jìn)行優(yōu)化。Xavier通過(guò)TensorRT使開(kāi)發(fā)者能充分的利用GPU中的Tensor core和DLA單元等計(jì)算模塊。

04

Xavier推理性能評(píng)測(cè)

4.1 測(cè)試平臺(tái)參數(shù)

為了測(cè)試Xavier的推理性能,我們使用目標(biāo)檢測(cè)算法分別在GeForce 840M、Jetson TX2和Xavier三個(gè)計(jì)算平臺(tái)上進(jìn)行測(cè)試。Jetson TX2工作在默認(rèn)的MAXP_CORE_ARM模式,Xavier工作在默認(rèn)的MODE_15W模式。三個(gè)計(jì)算平臺(tái)的關(guān)鍵技術(shù)參數(shù)如表2所述,測(cè)試實(shí)驗(yàn)場(chǎng)景如圖3所示。

表2 三個(gè)測(cè)試平臺(tái)參數(shù)

圖3 測(cè)試環(huán)境實(shí)景

(作者朱虎明實(shí)景拍攝,授權(quán)NVIDIA發(fā)布)

4.2 Faster R-CNN目標(biāo)檢測(cè)算法介紹

我們利用Faster R-CNN目標(biāo)檢測(cè)算法測(cè)試Xavier的推理性能。Faster R-CNN是Fast R-CNN和RPN(區(qū)域候選網(wǎng)絡(luò))的融合。RPN使用全卷積網(wǎng)絡(luò)(FCN,fully-convolutional network)可以針對(duì)生成檢測(cè)候選框的任務(wù)端到端地訓(xùn)練,能夠同時(shí)預(yù)測(cè)出目標(biāo)的邊界和分?jǐn)?shù)。這里使用基于VGG16的Faster R-CNN網(wǎng)絡(luò),其算法主要流程如4所示。Faster R-CNN卷積網(wǎng)絡(luò)的結(jié)構(gòu)主要包括:①13個(gè)conv層:kernel_size=3,pad=1,stride=1;②13個(gè)relu層:激活函數(shù),不改變圖片大?。虎?個(gè)pooling層:kernel_size=2,stride=2;pooling層會(huì)讓輸出圖片是輸入圖片的1/2;

4.3 測(cè)試結(jié)果介紹

測(cè)試時(shí)在TensorRT給出的示例代碼sampleFasterR-CNN.cpp上找到推理函數(shù),在其前后添加時(shí)間函數(shù)gettimeofday(),計(jì)算其推理時(shí)間。在不同的硬件平臺(tái)上重復(fù)實(shí)驗(yàn)五次取時(shí)間平均值,結(jié)果如表3所示。

從實(shí)驗(yàn)結(jié)果表可以看出來(lái),Xavier在使用TensorRT進(jìn)行推理時(shí),性能相比Jetson TX2提升了不少。需要注意的是Xavier使用的TensorRT版本相比TX2版本在軟件架構(gòu)上有很大的變化,特別是結(jié)構(gòu)性更好。另外,由于時(shí)間的原因,我們沒(méi)有測(cè)試DLA加速的效果。

表3 不同平臺(tái)目標(biāo)檢測(cè)計(jì)算性能對(duì)比

05

總結(jié)

Xavier平臺(tái)配備了完整的 AI 開(kāi)發(fā)軟件包NVIDIA JetPack SDK,包括最新版本的 CUDA、cuDNN 和 TensorRT等軟件。這些開(kāi)發(fā)軟件使用起來(lái)非常方便,再加上Xavier 平臺(tái)強(qiáng)大的推理計(jì)算能力,Xavier必將在制造、物流、零售、服務(wù)等邊緣計(jì)算人工智能應(yīng)用場(chǎng)景大放異彩。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4781

    瀏覽量

    101214
  • 人工智能
    +關(guān)注

    關(guān)注

    1796

    文章

    47734

    瀏覽量

    240445
  • 硬件架構(gòu)
    +關(guān)注

    關(guān)注

    0

    文章

    29

    瀏覽量

    9125

原文標(biāo)題:開(kāi)發(fā)者實(shí)測(cè):NVIDIA Jetson AGX Xavier開(kāi)發(fā)套件使用初體驗(yàn)

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    英特爾FPGA 助力Microsoft Azure機(jī)器學(xué)習(xí)提供AI推理性能

    Machine Learning SDK 相集成以供預(yù)覽。客戶可以使用 Azure 大規(guī)模部署的英特爾? FPGA(現(xiàn)場(chǎng)可編程邏輯門陣列)技術(shù),為其模型提供行業(yè)領(lǐng)先的人工智能 (AI) 推理性能。
    的頭像 發(fā)表于 05-16 17:25 ?6429次閱讀

    NVIDIA擴(kuò)大AI推理性能領(lǐng)先優(yōu)勢(shì),首次在Arm服務(wù)器上取得佳績(jī)

    最新MLPerf基準(zhǔn)測(cè)試表明,NVIDIA已將其在AI推理性能和能效方面的高標(biāo)準(zhǔn)擴(kuò)展到Arm以及x86計(jì)算機(jī)。
    發(fā)表于 09-23 14:18 ?2644次閱讀
    NVIDIA擴(kuò)大AI<b class='flag-5'>推理性能</b>領(lǐng)先優(yōu)勢(shì),首次在Arm服務(wù)器上取得佳績(jī)

    NVIDIA打破AI推理性能記錄

     NVIDIA憑借A100進(jìn)一步擴(kuò)大了在MLPerf基準(zhǔn)測(cè)試中的領(lǐng)先優(yōu)勢(shì),實(shí)現(xiàn)了比CPU快237倍的AI推理性能,助力企業(yè)將AI研究轉(zhuǎn)化為生產(chǎn)力。
    發(fā)表于 10-22 14:07 ?829次閱讀

    NVIDIA 在首個(gè)AI推理基準(zhǔn)測(cè)試中大放異彩

    首個(gè)獨(dú)立AI推理基準(zhǔn)測(cè)試 ——MLPerf Inference 0.5中取得第一名。由于推理一直是AI市場(chǎng)中最大、同時(shí)也是最具競(jìng)爭(zhēng)力的領(lǐng)域,業(yè)內(nèi)此前一直希望能夠有一套客觀的推理性能測(cè)試指標(biāo)。在參與
    發(fā)表于 11-08 19:44

    JETSON AGX Xavier的相關(guān)資料下載

    嵌入式AI 開(kāi)發(fā)板 JETSON AGX Xavier使用刷機(jī)+環(huán)境搭建嵌入式大牛刷機(jī)指南pytorch-craft項(xiàng)目工程測(cè)試嵌入式大牛測(cè)試指南yolov3上板測(cè)試嵌入式大牛測(cè)試指南
    發(fā)表于 12-14 07:04

    Xavier入門踩坑PWM問(wèn)題解決方法

    Xavier入門踩坑PWM問(wèn)題解決方法GPIO問(wèn)題解決方法PWM問(wèn)題由于需要做外部傳感器的觸發(fā)同步,所以需要一個(gè)方波,考慮用Xavier的PWM,結(jié)果折騰了好久發(fā)現(xiàn)需要配置內(nèi)部硬件,折騰了好久也沒(méi)
    發(fā)表于 01-10 08:11

    怎么做才能通過(guò)Jetson Xavier AGX構(gòu)建android圖像呢?

    我正在使用 Nvidia 的 Jetson Xavier AGX 按照“android 用戶指南”為 imx8 qm Mek 套件構(gòu)建 android 圖像(android 13)。當(dāng)我運(yùn)行命令
    發(fā)表于 06-07 08:58

    求助,為什么將不同的權(quán)重應(yīng)用于模型會(huì)影響推理性能?

    生成兩個(gè) IR文件(相同的 .xml 文件,但不同的 .bin 文件) 具有不同重量的類似模型,以不同的 fps (27fps 和 6fps) 運(yùn)行 更多樣化的權(quán)重是否會(huì)影響 Myriad X 上的推理性能?
    發(fā)表于 08-15 07:00

    如何提高YOLOv4模型的推理性能?

    使用 PyTorch 對(duì)具有非方形圖像的 YOLOv4 模型進(jìn)行了訓(xùn)練。 將 權(quán)重轉(zhuǎn)換為 ONNX 文件,然后轉(zhuǎn)換為中間表示 (IR)。 無(wú)法確定如何獲得更好的推理性能。
    發(fā)表于 08-15 06:58

    英特爾FPGA為人工智能(AI)提供推理性能

    Azure Machine Learning SDK 相集成以供預(yù)覽??蛻艨梢允褂?Azure 大規(guī)模部署的英特爾 FPGA(現(xiàn)場(chǎng)可編程邏輯門陣列)技術(shù),為其模型提供行業(yè)領(lǐng)先的人工智能 (AI) 推理性能。 “作為一家整體技術(shù)提供商,我們通過(guò)與 Microsoft 密切合作為人工智能提供支持。
    發(fā)表于 05-20 00:10 ?3092次閱讀

    基于Xavier SoC的AI計(jì)算平臺(tái)的自動(dòng)駕駛處理器芯片

    而且,Xavier性能極具強(qiáng)悍,運(yùn)行速度比前代產(chǎn)品快得多。Xavier 采用 NVLink 互聯(lián)技術(shù),可與專用 GPU 搭配使用(速度高達(dá)每秒 20GB,比之前 PCI Express 連接的速度快 10 倍)。
    的頭像 發(fā)表于 12-04 16:15 ?4919次閱讀

    NVIDIA Jetson AGX Xavier應(yīng)用在AI和

    Jetson AGX Xavier 為機(jī)器人和邊緣設(shè)備帶來(lái)了改變游戲規(guī)則的計(jì)算水平,為針對(duì)尺寸、重量和功率進(jìn)行了優(yōu)化的嵌入式平臺(tái)帶來(lái)了高端工作站性能。
    的頭像 發(fā)表于 04-18 10:26 ?6149次閱讀
    NVIDIA Jetson AGX <b class='flag-5'>Xavier</b>應(yīng)用在AI和

    Nvidia 通過(guò)開(kāi)源庫(kù)提升 LLM 推理性能

    加利福尼亞州圣克拉拉——Nvidia通過(guò)一個(gè)名為TensorRT LLM的新開(kāi)源軟件庫(kù),將其H100、A100和L4 GPU的大型語(yǔ)言模型(LLM)推理性能提高了一倍。 正如對(duì)相同硬件一輪又一輪改進(jìn)
    的頭像 發(fā)表于 10-23 16:10 ?722次閱讀

    開(kāi)箱即用,AISBench測(cè)試展示英特爾至強(qiáng)處理器的卓越推理性能

    近期,第五代英特爾?至強(qiáng)?可擴(kuò)展處理器通過(guò)了中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院組織的人工智能服務(wù)器系統(tǒng)性能測(cè)試(AISBench)。英特爾成為首批通過(guò)AISBench大語(yǔ)言模型(LLM)推理性能測(cè)試的企業(yè)
    的頭像 發(fā)表于 09-06 15:33 ?436次閱讀
    開(kāi)箱即用,AISBench測(cè)試展示英特爾至強(qiáng)處理器的卓越<b class='flag-5'>推理性能</b>

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?175次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺(tái)提高AI<b class='flag-5'>推理性能</b>