(文/程文智)不久前,AI性能基準(zhǔn)評(píng)測(cè)平臺(tái)MLPerf公布了2022年首次推理(Inference v2.0)測(cè)試成績(jī),NVIDIA的AI平臺(tái)表現(xiàn)依然搶眼。
據(jù)MLPerf官方介紹,它是由來(lái)自學(xué)術(shù)界、研究實(shí)驗(yàn)室和相關(guān)行業(yè)的 AI 領(lǐng)導(dǎo)者組成的聯(lián)盟,旨在“構(gòu)建公平和有用的基準(zhǔn)測(cè)試”,在規(guī)定的條件下,針對(duì)硬件、軟件和服務(wù)的訓(xùn)練和推理性能提供公平的評(píng)估。每年組織AI推理和AI訓(xùn)練測(cè)試各兩次,以對(duì)迅速增長(zhǎng)的AI計(jì)算需求與性能進(jìn)行及時(shí)的跟蹤測(cè)評(píng)。MLPerf比賽通常分為固定任務(wù)(Closed)和開(kāi)放優(yōu)化(Open)兩類任務(wù),開(kāi)放優(yōu)化能力著重考察參測(cè)廠商的AI技術(shù)創(chuàng)新力,固定任務(wù)則因更公平地考察參測(cè)廠商的硬件系統(tǒng)和軟件優(yōu)化的能力,成為更具參考價(jià)值的AI性能基準(zhǔn)測(cè)試。因此,目前MLPerf被看作是AI領(lǐng)域的風(fēng)向標(biāo),誰(shuí)能夠在這個(gè)測(cè)試中取得更多的領(lǐng)先,誰(shuí)的AI能力就越突出。
在最新一期的榜單中,浪潮、NVIDIA、英特爾、高通、阿里巴巴、戴爾、Deci.ai、Azure、富士通、技嘉、聯(lián)想、寧暢、美超微、華碩、浙江實(shí)驗(yàn)室、及新華三等廠商參與了競(jìng)賽。評(píng)測(cè)以最新MLPerf Inference V2.0為基準(zhǔn),涵蓋了圖像分類、目標(biāo)檢測(cè)、醫(yī)療圖像分割、自然語(yǔ)言處理、語(yǔ)音轉(zhuǎn)文字和推薦系統(tǒng)6類AI應(yīng)用場(chǎng)景,分為數(shù)據(jù)中心和邊緣兩類處理場(chǎng)景,每類場(chǎng)景都包含固定任務(wù)(Closed)和開(kāi)放優(yōu)化(Open)兩類性能競(jìng)賽。其中,在最新的V2.0規(guī)范中,在邊緣運(yùn)算環(huán)境導(dǎo)入多資料流(Multi Stream)測(cè)試項(xiàng)目,測(cè)量邊緣運(yùn)算設(shè)備在多攝影機(jī)、多傳感器場(chǎng)景的性能表現(xiàn),以得到更貼近真實(shí)使用情況的數(shù)據(jù)。
據(jù)統(tǒng)計(jì),本輪測(cè)試一共展示了超過(guò)3900 次性能測(cè)試和 2200 次功耗測(cè)試,分別是上一輪的2倍和6倍。根據(jù)公開(kāi)的數(shù)據(jù)顯示,本次測(cè)試中除了戴爾科技、富士通、技嘉、浪潮、聯(lián)想、寧暢和美超微等外,華碩和新華三本次測(cè)試中首次使用了NVIDIA AI平臺(tái)提交MLPerf結(jié)果。
Jetson AGX Orin提升邊緣AI性能,取得不俗成績(jī)
值得一提的是基于NVIDIA Ampere架構(gòu)的低功耗系統(tǒng)級(jí)芯片NVIDIA Orin首次參加MLPerf基準(zhǔn)測(cè)試,就取得了不俗的成績(jī)。在邊緣AI領(lǐng)域,NVIDIA Orin預(yù)生產(chǎn)版本在六項(xiàng)性能測(cè)試中的五項(xiàng)處于領(lǐng)先地位,其運(yùn)行速度比上一代Jetson AGX Xavier快了5倍,能效平均提高了2倍。
根據(jù)NVIDIA官網(wǎng)的介紹,Jetson AGX Orin 系列有32GB和64GB兩個(gè)版本,該系列具有高達(dá)275TOPS的AI性能,由 Ampere GPU和深度學(xué)習(xí)加速器 (DLA) 提供支持。CPU配備了多達(dá)12個(gè)Arm Cortex A78AE內(nèi)核。
Orin配備了其第三代Tensor Cores,可提高性能并支持稀疏矩陣?;贜VIDIA為 Xavier 所做的多處理器構(gòu)建,它不僅具有 GPU 和CPU,還具有其他處理器,可以幫助從GPU和CPU卸載應(yīng)用程序的某些部分。它包括一個(gè)專用于 AI 應(yīng)用的深度學(xué)習(xí)加速器、一個(gè)用于計(jì)算機(jī)視覺(jué)應(yīng)用和ISP的視覺(jué)加速器,以及一個(gè)視頻解碼和視頻編碼引擎。與 Xavier 相比,NVIDIA還為 Orin 帶來(lái)了 LPDDR5 以提高帶寬,傳輸速度可達(dá)204.8GB/s。 Orin 還具備豐富的IO連接,比如其具有多達(dá)22個(gè)PCIe4.0通道、4個(gè)千兆以太網(wǎng)、16個(gè)MIPI CSI通道,以及各種其他傳感器接口等。
根據(jù)測(cè)試,Jetson AGX Orin提供了8倍于Jetson AGX Xavier的性能,Jetson AGX Orin是能夠運(yùn)行所有六項(xiàng)MLPerf基準(zhǔn)測(cè)試的邊緣加速器。憑借JetPack SDK,Orin可以運(yùn)行整個(gè)NVIDIA AI平臺(tái),這個(gè)軟件堆棧已經(jīng)在數(shù)據(jù)中心和云端得到了驗(yàn)證,并且獲得了NVIDIA Jetson平臺(tái)100萬(wàn)名開(kāi)發(fā)者的支持。
在應(yīng)用方面,目前,Orin主要關(guān)注三大領(lǐng)域,分別為:工業(yè)、自動(dòng)駕駛和醫(yī)療。Orin現(xiàn)已加入到用于機(jī)器人和自動(dòng)化系統(tǒng)的NVIDIA Jetson AGX Orin開(kāi)發(fā)者套件。包括亞馬遜網(wǎng)絡(luò)服務(wù)、約翰迪爾、小松、美敦力和微軟Azure在內(nèi)的6000多家客戶使用NVIDIA Jetson平臺(tái)進(jìn)行AI推理或其他任務(wù)。
Orin也是NVIDIA Hyperion自動(dòng)駕駛汽車平臺(tái)的關(guān)鍵組成部分。據(jù)NVIDIA介紹,Orin可處理在自動(dòng)駕駛汽車和機(jī)器人中同時(shí)運(yùn)行的大量應(yīng)用和深度神經(jīng)網(wǎng)絡(luò),并且達(dá)到了ISO 26262 ASIL-D 等系統(tǒng)安全標(biāo)準(zhǔn)。而且,比亞迪近期已經(jīng)宣布,他們將在其新一代自動(dòng)駕駛電動(dòng)汽車中使用內(nèi)置Orin的DRIVE Hyperion架構(gòu)。
Orin同樣也是NVIDIA Clara Holoscan醫(yī)療設(shè)備平臺(tái)的關(guān)鍵組成部分,且該平臺(tái)可供系統(tǒng)制造商和研究人員用來(lái)開(kāi)發(fā)新一代AI儀器。
NVIDIA其他AI成果
除了Orin之外,本輪MLPerf,驗(yàn)證了NVIDIA的多項(xiàng)成果,包括多實(shí)例GPU(MIG)、TensorRT等。比如MIG可提升每個(gè) NVIDIA A100 Tensor 核心 GPU 的性能和價(jià)值。MIG可將 A100 GPU 劃分為多達(dá)七個(gè)實(shí)例,每個(gè)實(shí)例均與各自的高帶寬顯存、緩存和計(jì)算核心完全隔離。管理員可以支持從大到小的各項(xiàng)工作負(fù)載,為每項(xiàng)工作提供規(guī)模適當(dāng)?shù)?GPU,而且服務(wù)質(zhì)量 (QoS) 穩(wěn)定可靠,從而優(yōu)化利用率,讓每位用戶都能享用加速計(jì)算資源。
而根據(jù)實(shí)際測(cè)試結(jié)果,在使用7個(gè)實(shí)例時(shí)的性能為僅用一個(gè)實(shí)例的98%,這也意味著MIG可以充分利用GPU,避免了算力的浪費(fèi)。
軟件是性能提升的關(guān)鍵驅(qū)動(dòng)因素,NVIDIA在AI推理方面的軟件包括了用于優(yōu)化 AI 模型的 NVIDIA TensorRT 和用于有效部署它們的 NVIDIA Triton開(kāi)源推理服務(wù)軟件。NVIDIA AI 推理和云高級(jí)產(chǎn)品經(jīng)理David Salvator在媒體發(fā)布會(huì)上介紹了NVIDIA的Triton開(kāi)源推理服務(wù)軟件。
目前TensorRT廣泛的優(yōu)化GPU內(nèi)核庫(kù)已支持Jetson Orin,MLPerf中使用的插件已全部移植到Orin并添加到 TensorRT 8.4。Triton則Kubernetes緊密集成,可以管理GPU以及x86和Arm CPU上的AI推理工作,NVIDIA宣布,Triton現(xiàn)在可以只在CPU上運(yùn)行,而無(wú)需GPU。
而也正是因?yàn)镹VIDIA的跨平臺(tái)管理能力,使A100在Arm和x86-64平臺(tái)上的性能幾乎相同。并且,通過(guò)NVIDIA的軟件優(yōu)化,AI性能在過(guò)去一年中就增長(zhǎng)了高達(dá)50%。
結(jié)語(yǔ)
這幾年,NVIDIA在AI領(lǐng)域一路狂奔,不僅僅在數(shù)據(jù)中心方面優(yōu)勢(shì)明顯,在汽車、邊緣計(jì)算方面也正推出優(yōu)勢(shì)產(chǎn)品,另外在他們還在準(zhǔn)備推出工業(yè)級(jí)的AI產(chǎn)品,進(jìn)入傳統(tǒng)工業(yè)領(lǐng)域。AI正在不斷滲透到人們生活的各個(gè)方面。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5080瀏覽量
103829 -
AI
+關(guān)注
關(guān)注
87文章
31711瀏覽量
270511 -
人工智能
+關(guān)注
關(guān)注
1796文章
47791瀏覽量
240578 -
推理
+關(guān)注
關(guān)注
0文章
8瀏覽量
7276 -
MLPerf
+關(guān)注
關(guān)注
0文章
35瀏覽量
650
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
k230如何將yolo分類視頻流推理后的視頻結(jié)果保存到本地?
WTS-100(V2.0 GNSS) 無(wú)線定位系統(tǒng)(GNSS) 彩頁(yè)
ANSVG-G-A混合動(dòng)態(tài)濾波補(bǔ)償裝置使用說(shuō)明書(shū) V2.0
從TMS320TCI648x DSP的EDMA v2.0遷移到EDMA v3.0
![從TMS320TCI648x DSP的EDMA <b class='flag-5'>v2.0</b>遷移到EDMA <b class='flag-5'>v</b>3.0](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
從EDMA v2.0遷移到TMS320DM644X DMSoC的EDMA v3.0
![從EDMA <b class='flag-5'>v2.0</b>遷移到TMS320DM644X DMSoC的EDMA <b class='flag-5'>v</b>3.0](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
從EDMA v2.0遷移到EDMA v3.0 TMS320C64X DSP
![從EDMA <b class='flag-5'>v2.0</b>遷移到EDMA <b class='flag-5'>v</b>3.0 TMS320C64X DSP](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
阿童木二代Atom XL數(shù)字模擬對(duì)講手機(jī)用戶手冊(cè)V2.0
浪潮信息AS13000G7榮獲MLPerf? AI存儲(chǔ)基準(zhǔn)測(cè)試五項(xiàng)性能全球第一
![浪潮信息AS13000G7榮獲<b class='flag-5'>MLPerf</b>? AI存儲(chǔ)基準(zhǔn)測(cè)試五項(xiàng)性能全球第一](https://file1.elecfans.com//web2/M00/09/5A/wKgaomb3wmGAImpdAACRqto4p7Q087.jpg)
評(píng)論