Nvidia公司人工智能超級(jí)計(jì)算機(jī)負(fù)責(zé)人Charlie Boyle日前闡述了人工智能硬件和數(shù)據(jù)中心的現(xiàn)狀和未來(lái)發(fā)展。
比以往任何時(shí)候都更重要的是,對(duì)于每個(gè)新的數(shù)據(jù)中心工作負(fù)載,IT組織必須回答的問題是在哪里運(yùn)行。如今,最新的企業(yè)計(jì)算工作負(fù)載是機(jī)器學(xué)習(xí)(或人工智能)的變體,無(wú)論是深度學(xué)習(xí)模型培訓(xùn)還是推理(使用經(jīng)過培訓(xùn)的模型),人工智能基礎(chǔ)設(shè)施已經(jīng)有太多的選擇,因此很難直接為企業(yè)找到最佳的解決方案。
市場(chǎng)上有各種各樣的人工智能硬件選項(xiàng),廣泛且快速增長(zhǎng)的人工智能云服務(wù)范圍,以及用于托管人工智能硬件的各種數(shù)據(jù)中心選項(xiàng)。Nvidia公司是機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施生態(tài)系統(tǒng)中最重要的一家公司,它不僅為全球的人工智能工作負(fù)載(Nvidia GPU)銷售和生產(chǎn)大多數(shù)處理器,它還構(gòu)建了大量運(yùn)行在這些芯片上的軟件,并銷售自己的人工智能超級(jí)計(jì)算機(jī)。
行業(yè)媒體Datacenter Knowledge(DCK)與Nvidia公司的DGX人工智能超級(jí)計(jì)算機(jī)高級(jí)營(yíng)銷總監(jiān)Charlie Boyle一起探討了人工智能硬件發(fā)展和人工智能基礎(chǔ)設(shè)施的發(fā)展趨勢(shì)。以下是采訪內(nèi)容:
DCK:企業(yè)如何決定是將云計(jì)算服務(wù)用于其機(jī)器學(xué)習(xí)還是購(gòu)買自己的人工智能硬件采用機(jī)器學(xué)習(xí)?
Charlie Boyle:我們的大多數(shù)客戶都使用內(nèi)部部署和云計(jì)算的組合。我們看到的最大動(dòng)態(tài)是數(shù)據(jù)所在位置決定處理它的位置。在人工智能環(huán)境中,需要處理大量數(shù)據(jù)才能得到結(jié)果。如果所有這些數(shù)據(jù)都已經(jīng)存在于企業(yè)數(shù)據(jù)中心中(企業(yè)可能收集了10~30年的歷史數(shù)據(jù)),那么希望將處理過程盡可能接近企業(yè)所在的位置。因此,它有利于內(nèi)部部署系統(tǒng)。如果是一家業(yè)務(wù)從云端起步的公司,并且其所有客戶數(shù)據(jù)都在云端,那么最好在云平臺(tái)中處理這些數(shù)據(jù)。
DCK:是因?yàn)楹茈y將大量數(shù)據(jù)移入和移出云端嗎?
Charlie Boyle:這還取決于企業(yè)如何生成數(shù)據(jù)。大多數(shù)企業(yè)的數(shù)據(jù)都是動(dòng)態(tài)的,因此總是會(huì)添加數(shù)據(jù),因此,如果他們?cè)谙到y(tǒng)中收集所有數(shù)據(jù),那么他們就更容易繼續(xù)在內(nèi)部處理它們。如果他們將大量數(shù)據(jù)聚合到云服務(wù)中,那么他們就會(huì)在云平臺(tái)上處理它。
這適用于生產(chǎn)用例。許多實(shí)驗(yàn)性用例可以從云端開始,企業(yè)只需啟動(dòng)瀏覽器即可訪問人工智能基礎(chǔ)設(shè)施,但隨著他們轉(zhuǎn)向生產(chǎn),企業(yè)就可以做出本地決策、財(cái)務(wù)決策、安全決策,以及是否更好地在內(nèi)部部署或在云平臺(tái)上處理它。
Nvidia公司的客戶通常在內(nèi)部進(jìn)行一些人工智能模型培訓(xùn),因?yàn)檫@是他們的歷史數(shù)據(jù)所在。他們構(gòu)建了一個(gè)很好的模型,但是該模型隨后由他們的在線服務(wù)提供服務(wù)——他們?cè)谠浦谢谒麄冊(cè)趦?nèi)部部署構(gòu)建的模型進(jìn)行的推理。
DCK:對(duì)于那些在自己的內(nèi)部部署或托管數(shù)據(jù)中心運(yùn)行人工智能工作負(fù)載的企業(yè),考慮到機(jī)架的功率密度越來(lái)越高,您認(rèn)為他們將采用哪種冷卻方法?
Charlie Boyle:數(shù)據(jù)中心采用液體冷卻還是空氣冷卻始終是一個(gè)熱門的爭(zhēng)論話題,我們一直在研究這個(gè)問題。一般來(lái)說,數(shù)據(jù)中心運(yùn)行大量服務(wù)器機(jī)架,有的多達(dá)50個(gè),采用傳統(tǒng)的空氣冷卻設(shè)施效果良好。當(dāng)運(yùn)行更高功率密度的機(jī)架時(shí),例如機(jī)架的功率為30千瓦~50千瓦,通常采用水冷式熱交換器進(jìn)行冷卻,這就是在數(shù)據(jù)中心實(shí)施的最新冷卻措施,因?yàn)檫@樣數(shù)據(jù)中心就不會(huì)改造冷卻系統(tǒng)本身的管道。
現(xiàn)在,我們的一些OEM合作伙伴也基于我們的GPU構(gòu)建可以直接冷卻芯片的水冷系統(tǒng),一些企業(yè)希望構(gòu)建一個(gè)超級(jí)密集的計(jì)算基礎(chǔ)設(shè)施,他們將會(huì)提前部署冷卻基礎(chǔ)設(shè)施。但是,通過我們與大多數(shù)托管服務(wù)提供商的合作,發(fā)現(xiàn)只有水冷系統(tǒng)才能更好地支持高功率密度的機(jī)架運(yùn)行。
直接冷卻芯片更像是一個(gè)運(yùn)營(yíng)問題。我們的技術(shù)現(xiàn)在可以做到,但如何為它提供服務(wù)呢?對(duì)于正常運(yùn)營(yíng)的企業(yè)來(lái)說,這將是一個(gè)學(xué)習(xí)曲線。
DCK:NVIDIA DGX系統(tǒng)和其他GPU驅(qū)動(dòng)的人工智能硬件如此密集,以至于無(wú)法采用空氣冷卻進(jìn)行冷卻嗎?
Charlie Boyle:我們所有系統(tǒng)都可以采用空氣冷卻和液體冷卻技術(shù)。主要是因?yàn)槲铱吹酱蠖鄶?shù)客戶都在采用這些方法。在我們對(duì)于功率密度的處理并不是固有的方法,因?yàn)樵诳深A(yù)見的將來(lái),我們不能實(shí)施空氣冷卻或混合冷卻技術(shù),這主要是因?yàn)榇蠖鄶?shù)客戶會(huì)受到機(jī)架功率的限制。
現(xiàn)在,我們正在運(yùn)行30~40kW的機(jī)架。當(dāng)然也可以運(yùn)行100kW和200kW的機(jī)架,但現(xiàn)在沒有人愿意部署這樣功率密度的機(jī)架。那么可以采用液體冷卻嗎?也許,但它確實(shí)是每個(gè)客戶最有效的選擇。我們看到客戶采用混合體冷卻方式,他們正在回收廢熱。我們將繼續(xù)關(guān)注這一點(diǎn),繼續(xù)與在這些公司合作,看看他們的方法是否具有意義。
我們的工作站產(chǎn)品DGX station采用的是一種內(nèi)部閉環(huán)水冷技術(shù)。但是在數(shù)據(jù)中心基礎(chǔ)設(shè)施的服務(wù)器端,大多數(shù)客戶還沒有采用。
DCK:大多數(shù)企業(yè)數(shù)據(jù)中心甚至不能冷卻30kW和40kW機(jī)架。這是DGX產(chǎn)品銷售的障礙嗎?
Charlie Boyle:這并沒有障礙,而是一個(gè)對(duì)話點(diǎn),這也是我們宣布DGX就緒計(jì)劃第二階段的原因。如果只是談?wù)摪惭b這樣的機(jī)架,任何數(shù)據(jù)中心都可以支持,但是當(dāng)數(shù)據(jù)中心安裝了50~100個(gè)這樣的機(jī)架時(shí),那么企業(yè)需要重新建設(shè)數(shù)據(jù)中心或者尋求托管數(shù)據(jù)中心服務(wù)商的幫助。
這就是為什么我們?cè)噲D消除DGX產(chǎn)品銷售阻礙的原因,通過與這些托管數(shù)據(jù)中心服務(wù)商合作,讓我們的數(shù)據(jù)中心團(tuán)隊(duì)對(duì)他們進(jìn)行盡職調(diào)查,以便他們擁有更高的功率密度,并且需要實(shí)施液體冷卻,所以客戶可能需要部署50個(gè)DGX-2超級(jí)計(jì)算機(jī)的空間,數(shù)據(jù)中心提供商已經(jīng)有了這些數(shù)據(jù),然后向我們訂購(gòu)。
當(dāng)我們?nèi)昵巴瞥鲞@些產(chǎn)品時(shí),有些客戶購(gòu)買幾套產(chǎn)品時(shí),他們會(huì)提出如何大規(guī)模購(gòu)買和安裝的問題,我們的一些客戶選擇建造新的數(shù)據(jù)中心基礎(chǔ)設(shè)施,而另一些客戶則向我們尋求有關(guān)托管數(shù)據(jù)中心服務(wù)商的建議。我們?yōu)榇藰?gòu)建了DGX就緒數(shù)據(jù)中心計(jì)劃,以便客戶不必為此等待。
即使對(duì)于擁有強(qiáng)大數(shù)據(jù)中心設(shè)施的客戶,他們也多次向我們公司購(gòu)買一些30kW的機(jī)架?;蛘呖蛻艨梢耘c我們的托管數(shù)據(jù)中心合作伙伴進(jìn)行合作,可以更快地獲得服務(wù)和產(chǎn)品。
DCK:您是否看到客戶選擇托管數(shù)據(jù)中心服務(wù)商,即使他們擁有自己的數(shù)據(jù)中心空間?
Charlie Boyle:由于人工智能設(shè)備對(duì)大多數(shù)客戶來(lái)說通常是一種新的工作負(fù)載,因此他們不會(huì)試圖采用現(xiàn)有的基礎(chǔ)設(shè)施,可以為此建設(shè)或購(gòu)買新的基礎(chǔ)設(shè)施,所以對(duì)于他們來(lái)說,部署在他們的數(shù)據(jù)中心或者托管數(shù)據(jù)中心,這并不重要——只要經(jīng)濟(jì)有效,并且可以很快完成工作。這是大多數(shù)人工智能項(xiàng)目中的一個(gè)重要組成部分:他們想快速展示成功。
即使是Nvidia公司,我們?cè)诳偛浚ㄎ挥诩永D醽喼菔タ死└浇捎枚鄠€(gè)數(shù)據(jù)中心供應(yīng)商提供的服務(wù),因?yàn)槲覀冇修k公空間,但沒有數(shù)據(jù)中心。幸運(yùn)的是,在硅谷,我們周圍有很多優(yōu)秀的供應(yīng)商。
DCK:Nvidia公司正在推廣DGX作為人工智能的超級(jí)計(jì)算機(jī)。其架構(gòu)與傳統(tǒng)高性能計(jì)算(HPC)工作負(fù)載的超級(jí)計(jì)算機(jī)有什么不同嗎?
Charlie Boyle:大約五年前,人們看到高性能計(jì)算(HPC)和人工智能系統(tǒng)之間存在非常明顯的差異,但是現(xiàn)在,這二者很多功能已經(jīng)合并。以前,每個(gè)人都認(rèn)為超級(jí)計(jì)算機(jī)是64位、雙精度。而人工智能工作負(fù)載主要是32位或16位混合。而這兩種技術(shù)應(yīng)用在兩個(gè)不同的場(chǎng)合。
人們現(xiàn)在看到的是一個(gè)典型的超級(jí)計(jì)算機(jī)會(huì)在很多節(jié)點(diǎn)上運(yùn)行一個(gè)問題,而在人工智能工作負(fù)載中正在做同樣的事情。MLPerf(人工智能硬件性能基準(zhǔn)測(cè)試版)剛剛發(fā)布,大量節(jié)點(diǎn)只完成一項(xiàng)工作。人工智能和高性能計(jì)算之間的工作量實(shí)際上非常相似。使用我們最新的GPU,可以提供傳統(tǒng)的高性能計(jì)算雙精度,人工智能為32位精度,并加速人工智能混合精度。
傳統(tǒng)的超級(jí)計(jì)算中心現(xiàn)在都在采用人工智能技,可能已經(jīng)建立了超級(jí)計(jì)算機(jī),但他們都在同一個(gè)系統(tǒng)上運(yùn)行超級(jí)計(jì)算機(jī)任務(wù)和人工智能工作負(fù)載。
這兩者的架構(gòu)相同。在過去,超級(jí)計(jì)算使用的網(wǎng)絡(luò)不同于傳統(tǒng)的人工智能?,F(xiàn)在一切都融合了。這就是客戶為什么要買Mellanox產(chǎn)品的部分原因。現(xiàn)在,超級(jí)計(jì)算基礎(chǔ)設(shè)施對(duì)于雙方都至關(guān)重要。人們認(rèn)為它只是一個(gè)深?yuàn)W的高性能計(jì)算機(jī),但它將會(huì)成為主流;而企業(yè)現(xiàn)在將它作為他們的人工智能系統(tǒng)的支柱。
DCK:人工智能硬件有著激烈的競(jìng)爭(zhēng),例如谷歌的TPU、FPGA,云計(jì)算提供商和創(chuàng)業(yè)公司設(shè)計(jì)的其他定制芯片,這是不是Nvidia公司的關(guān)注點(diǎn)?
Charlie Boyle:我們總是關(guān)注競(jìng)爭(zhēng),但我們的競(jìng)爭(zhēng)對(duì)手以我們?yōu)榛鶞?zhǔn)。我們?cè)谶@個(gè)行業(yè)如此多產(chǎn)的部分原因是我們無(wú)處不在。在谷歌云平臺(tái)中采用Nvidia GPU,而在亞馬遜云平臺(tái)中,也有Nvidia GPU。
如果筆記本電腦配有Nvidia GPU,可以對(duì)此進(jìn)行訓(xùn)練。我們的GPU運(yùn)行一切事務(wù),可以在筆記本電腦上進(jìn)行深度學(xué)習(xí)訓(xùn)練的軟件堆棧與在我們?cè)诔?jí)計(jì)算機(jī)上運(yùn)行的軟件堆棧相同。
當(dāng)所有這些創(chuàng)業(yè)公司和不同的人選擇一個(gè)基準(zhǔn)時(shí),這是一個(gè)巨大的問題。例如有的公司表示,“我們真的很擅長(zhǎng)ResNet 50?!比绻蛔鯮esNet 50,這只是企業(yè)整體人工智能工作量的一小部分,所以具有軟件靈活性和可編程性對(duì)我們來(lái)說是一筆巨大的財(cái)富。為此,我們?cè)谶^去十年中建立了一個(gè)生態(tài)系統(tǒng)。
這是我認(rèn)為這個(gè)領(lǐng)域的創(chuàng)業(yè)公司面臨的最大挑戰(zhàn):企業(yè)可以開發(fā)構(gòu)建一種芯片,但是當(dāng)筆記本電腦和每個(gè)云中都沒有采用這種芯片時(shí),讓數(shù)百萬(wàn)開發(fā)人員使用其開發(fā)的芯片是很困難的。當(dāng)查看TPU(谷歌的定制人工智能芯片),TPU僅在他們認(rèn)為適合的一些工作負(fù)載中提交。而我們提交最新的MLPerf結(jié)果時(shí),我們可以提交幾乎所有類別。
具有市場(chǎng)競(jìng)爭(zhēng)是一件好事,它可以讓企業(yè)變得更好。而憑借擁有的技術(shù)和生態(tài)系統(tǒng),我們才能擁有真正的優(yōu)勢(shì)。
DCK:傳統(tǒng)的HPC架構(gòu)與人工智能融合意味著傳統(tǒng)的HPC供應(yīng)商現(xiàn)在正在與DGX競(jìng)爭(zhēng)。這會(huì)對(duì)你的工作帶來(lái)困難嗎?
Charlie Boyle:我認(rèn)為它們根本不是競(jìng)爭(zhēng)對(duì)手,因?yàn)檫@些公司都使用Nvidia GPU。如果我們向客戶銷售系統(tǒng),或者HPE、Dell或Cray向客戶銷售系統(tǒng),只要客戶滿意,我們就沒有問題。
我們制造的軟件在我們自己的幾千個(gè)DGX系統(tǒng)上運(yùn)行,通過我們的NGC基礎(chǔ)設(shè)施在內(nèi)部提供(NGC是Nvidia公司的GPU優(yōu)化軟件在線分銷中心),因此我們所有的OEM客戶都可以下載相同的軟件。在容器中也使用相同的軟件,因?yàn)槲覀冎幌M總€(gè)客戶都擁有最佳的GPU體驗(yàn)。
因此,我不認(rèn)為這些公司是競(jìng)爭(zhēng)對(duì)手。作為產(chǎn)品線所有者,我們與我的OEM合作伙伴分享了很多東西。我們總是先構(gòu)建DGX系統(tǒng),因?yàn)槲覀冃枰C明它是有效的。然后吸取這些經(jīng)驗(yàn)教訓(xùn),并把它們提供給我們的合作伙伴,以縮短它們的開發(fā)周期。
我們會(huì)和任何一家OEM公司進(jìn)行溝通,如果他們正在考慮建立一個(gè)新的系統(tǒng),我們可以為他們提供幫助。
DCK:DGX中是否有獨(dú)特的Nvidia IP未與OEM廠商共享?
Charlie Boyle:獨(dú)特的IP是我們?cè)贜vidia內(nèi)部為我們自己的研發(fā)而建立的令人難以置信的基礎(chǔ)設(shè)施:我們所有的深度學(xué)習(xí)研究,這些都是在幾千個(gè)DGX系統(tǒng)上完成的,所以我們從這些系統(tǒng)中學(xué)習(xí),并將學(xué)習(xí)成果傳遞給我們的客戶。在HPE、戴爾或Cray系統(tǒng)中也可以找到同樣的技術(shù)。
我們從客戶那里聽到的一個(gè)常見問題是,“我想使用你們用的東西?!逼鋵?shí)那就是DGX系統(tǒng)。如果客戶喜歡使用HPE系統(tǒng),因?yàn)樗麄兿矚g采用其管理基礎(chǔ)設(shè)施。
但從銷售和市場(chǎng)的角度來(lái)看,只要人們購(gòu)買GPU,我們就會(huì)感到高興。
DCK:谷歌公司最近宣布了一種新的壓縮算法,使人工智能的工作負(fù)載能夠在智能手機(jī)上運(yùn)行。未來(lái)數(shù)據(jù)中心需要更少的GPU,因?yàn)?a target="_blank">手機(jī)可以完成所有的人工智能計(jì)算嗎?
Charlie Boyle:世界總是需要更多的計(jì)算。是的,手機(jī)的功能將會(huì)變得更強(qiáng)大,但世界對(duì)計(jì)算的渴望正在不斷增長(zhǎng)。如果我們?cè)谑謾C(jī)中加入更多計(jì)算機(jī)功能的話,這意味著什么?
如果人們經(jīng)常旅行,可能會(huì)熟悉美聯(lián)航或美國(guó)航空公司的語(yǔ)音應(yīng)答系統(tǒng):在過去的幾年中,其功能變得更好,因?yàn)槿斯ぶ悄苷诟纳普Z(yǔ)音響應(yīng)。隨著它變得越來(lái)越好,人們需要更多的服務(wù),更多服務(wù)意味著更多的計(jì)算能力。所以需要更多的GPU來(lái)完成這項(xiàng)任務(wù)。因此,在手機(jī)上使用的功能越好,對(duì)我們來(lái)說就越有利。我認(rèn)為所有消費(fèi)者服務(wù)都是如此。
DCK:您是否在移動(dòng)網(wǎng)絡(luò)邊緣看到了令人信服的機(jī)器學(xué)習(xí)用例?
Charlie Boyle:我們與很多電信公司開展合作,無(wú)論人們使用流媒體,還是使用個(gè)人定位服務(wù),電信公司總是試圖靠近客戶。大約十年前,我曾在電信公司工作,一直渴望把很多服務(wù)遷移到邊緣。我們看到一些機(jī)器學(xué)習(xí)應(yīng)用程序?qū)⒃谶吘夁\(yùn)行。隨著5G的推出,人們只會(huì)看到更多的東西在邊緣運(yùn)行。
DCK:電信公司在邊緣測(cè)試或部署什么樣的機(jī)器學(xué)習(xí)工作負(fù)載?
Charlie Boyle:這一切都是針對(duì)特定用戶的服務(wù)。如果人們?cè)谀硞€(gè)地區(qū),手機(jī)上的應(yīng)用程序已經(jīng)知道其在該區(qū)域,可以為其提供更好的建議或更好的處理方法。然后,隨著人們開始消耗越來(lái)越多的內(nèi)容,隨著帶寬的提高,更多的處理將轉(zhuǎn)移到更遠(yuǎn)的邊緣。
DCK:雖然電信公司是將計(jì)算推向邊緣的公司,但他們是否也會(huì)提供您所指的所有豐富服務(wù)?
Charlie Boyle:有時(shí)候他們正在構(gòu)建服務(wù),也會(huì)購(gòu)買服務(wù)。我認(rèn)為這就是當(dāng)今人工智能和機(jī)器學(xué)習(xí)應(yīng)用程序得到迅速應(yīng)用的地方。如今,有很多初創(chuàng)公司在構(gòu)建電信公司目前正在消費(fèi)的特定服務(wù)。他們提出了很好的想法,電信公司的分銷網(wǎng)絡(luò)是放置這些類型服務(wù)的理想場(chǎng)所。很多服務(wù)需要大量的計(jì)算能力,所以我認(rèn)為邊緣采用的GPU將是一個(gè)令人關(guān)注的產(chǎn)品。
-
硬件
+關(guān)注
關(guān)注
11文章
3403瀏覽量
66494 -
超級(jí)計(jì)算機(jī)
+關(guān)注
關(guān)注
2文章
464瀏覽量
42037 -
人工智能
+關(guān)注
關(guān)注
1796文章
47790瀏覽量
240549
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論