導(dǎo)語
1.GPU的價(jià)值不止體現(xiàn)在深度學(xué)習(xí),在高性能計(jì)算、人工智能、生物信息、分子模擬、計(jì)算化學(xué)、材料力學(xué)、系統(tǒng)仿真、流體力學(xué)、機(jī)械設(shè)計(jì)、生物制藥、航空動(dòng)力、地質(zhì)勘探、氣候模擬等領(lǐng)域,算法越來越復(fù)雜,需要處理的海量數(shù)據(jù)越來越巨大,高性能計(jì)算能力就顯得尤為重要。近日為滿足GPU服務(wù)器、高性能服務(wù)器、深度學(xué)習(xí)服務(wù)器、水冷工作站、水冷服務(wù)器、液冷工作站、液冷服務(wù)器等的高速運(yùn)轉(zhuǎn),英偉達(dá)發(fā)布產(chǎn)品——H100 GPU。
2.隨著信息技術(shù)的快速發(fā)展,高性能服務(wù)器的需求不斷增長。為保障服務(wù)器長期可靠穩(wěn)定運(yùn)行,合適的散熱技術(shù)顯得至關(guān)重要。
3.基于藍(lán)海大腦超融合平臺(tái)的水冷GPU服務(wù)器及水冷GPU工作站采用綠色冷卻技術(shù),Gluster 分布式架構(gòu)設(shè)計(jì),提供大存儲(chǔ)量,擁有開放融合的特性和超能運(yùn)算的能力。
1 藍(lán)海大腦服務(wù)器于 NVIDIA H100 GPU
藍(lán)海大腦宣布服務(wù)器產(chǎn)品線全力支持最新的 NVIDIA H100 GPU。藍(lán)海大腦服務(wù)器產(chǎn)品在單機(jī)上最多可支持4、8甚至9個(gè)H100 GPU,可為多種人工智能場(chǎng)景提供超強(qiáng)算力、靈活的資源調(diào)度和成熟的生態(tài)支持。
搭載NVIDIA H100 GPU的藍(lán)海大腦服務(wù)器具有更強(qiáng)計(jì)算性能、更高的GPU間通信帶寬和創(chuàng)新的計(jì)算架構(gòu),支持用戶對(duì)更大、更復(fù)雜的模型進(jìn)行訓(xùn)練和推理。同時(shí),搭配藍(lán)海大腦算力資源管理平臺(tái),用戶可以更加便捷高效地使用AI集群算力資源。
據(jù)官方數(shù)據(jù)顯示,全新的NVIDIA GH100 GPU不是基于之前傳聞的臺(tái)積電 N5工藝,而是使用更先進(jìn)的N4工藝。整個(gè)芯片面積814mm2,相比GA100要小,但集成800億晶體管,并采用更高頻率的設(shè)計(jì)。
完整規(guī)格的GH100 GPU規(guī)格,包含總計(jì)8個(gè)GPC圖形集群,72個(gè)TPC紋理集群,144個(gè)SM流式多處理器,共計(jì)18432個(gè)FP32 CUDA核心(與目前傳聞中AD102完整版完全吻合),專用于AI訓(xùn)練的第四代張量核心TensorCore為每組SM配備4個(gè),共計(jì)528個(gè)。顯存方面最大支持6個(gè)HBM3或HBM2e堆棧,6144bit顯存位寬,L2緩存提升到60MB,并支持第四代NVLink和PCIe Gen5。
不過,GH100是面向人工智能、數(shù)據(jù)分析等負(fù)載構(gòu)建的,不是圖形處理。SXM5版和PCIe H100所使用的GH100 GPU中,只有兩個(gè)TPC具有圖形處理能力。
GH100 GPU用于兩個(gè)款式的加速卡上,分別為SXM5版和PCIe5版,SXM協(xié)議更多用在密集計(jì)算的數(shù)據(jù)中心上,規(guī)格也更高一些。大概是受制于良率,即便是高規(guī)格的SXM5版也并不是滿血的GH100核心。
H100 SXM5使用的H100 GPU規(guī)格為66個(gè)TPC紋理集群,SM數(shù)量下降到132組,而CUDA數(shù)量也下降到16896個(gè)(但相比于目前的GA100豈止于翻倍),張量核心為528個(gè)。顯存方面,H100 SXM5啟用5個(gè)HBM3堆棧,共計(jì)80GB,顯存位寬為5120Bit。L2緩存也下降到50MB,對(duì)比A100依然有25%提升。
PCIe5版的H100 CNX,集成CX7芯片,可將網(wǎng)絡(luò)數(shù)據(jù)以50GB/s的速度直接傳輸給GH100 GPU處理
PCIe版雖然更多用于小型企業(yè),但是PCIe版的性能也是不容小覷。PCIe版采用進(jìn)一步縮減的GH100 GPU,SM數(shù)量下降到114組,CUDA數(shù)量下降到14592個(gè),張量核心則縮減到了456個(gè)。顯存方面,啟用的是5個(gè)HBM2e堆棧,容量與SXM5版相同,為80GB 5120Bit位寬,L2緩存大小一致。
白皮書揭露了新的H100兩款FP32算力(一般用戶可以關(guān)注的指標(biāo)),132組SM/16896CUDA的SXM5版本,F(xiàn)P32單精度算力為60TFlops。根據(jù)CSDN一篇文章提供的公式:?jiǎn)尉壤碚摲逯?FP32 cores*GPU頻率*2,可以推出工作頻率約為1775MHz。而A100加速卡的GA100核心工作頻率為1410MHz,頻率提升近26%。GeForce產(chǎn)品使用的GPU往往會(huì)給到更高的頻率,下一代RTX 40有望2G起步?
在算力方面,H100 SXM5對(duì)比現(xiàn)在的A100在多個(gè)項(xiàng)目中都超過200%的提升,最低的FP16半精度運(yùn)算也有50%的性能提升,可謂是碾壓級(jí)。
在演講上,老黃更是直接帶來H100在三種負(fù)載下對(duì)比A100的效率提升,訓(xùn)練Transformer模型從5天縮短到了19小時(shí),而在結(jié)合英偉達(dá)多項(xiàng)尖端軟硬件條件下,整個(gè)模型訓(xùn)練從7天縮短到了20小時(shí),效率足足提升9倍。
藍(lán)海大腦是全球領(lǐng)先的AI服務(wù)器廠商,擁有豐富的AI計(jì)算產(chǎn)品陣列,并和AI客戶緊密合作,幫助其在語音、語義、圖像、視頻、搜索等各方面取得數(shù)量級(jí)的AI應(yīng)用性能提升。
2 高性能機(jī)架式服務(wù)器散熱
隨著信息技術(shù)的快速發(fā)展,對(duì)高性能服務(wù)器的需求越來越大。為保證服務(wù)器長期可靠穩(wěn)定的運(yùn)行,合適的散熱技術(shù)非常重要。下面以高性能機(jī)架式服務(wù)器為研究對(duì)象,分析比較強(qiáng)制風(fēng)冷與間接液冷下服務(wù)器的散熱效果。結(jié)果表明,在低負(fù)荷下,強(qiáng)制風(fēng)冷與間接液冷差別不大。在高負(fù)荷下,間接液冷的散熱效果優(yōu)于強(qiáng)制風(fēng)冷。
一、研究背景
隨著信息技術(shù)的快速發(fā)展,尤其是 5G 通信技術(shù)的出現(xiàn),支撐大數(shù)據(jù)運(yùn)行的服務(wù)器需求不斷增長。為保障服務(wù)器穩(wěn)定運(yùn)行,合適的散熱技術(shù)顯得至關(guān)重要。機(jī)架式服務(wù)器是指按照工業(yè)標(biāo)準(zhǔn)可以直接安裝在 19 英寸寬機(jī)柜中的服務(wù)器。目前機(jī)架式服務(wù)器的主流散熱方式為強(qiáng)制風(fēng)冷和間接液冷。
二、基于強(qiáng)制風(fēng)冷的服務(wù)器散熱仿真研究
2.1 仿真邊界條件設(shè)置
一般情況下,當(dāng)流體速度小于 1/3 風(fēng)速時(shí),可將流體看作不可壓縮流體,因此可將服務(wù)器內(nèi)部空氣視作不可壓縮流體。服務(wù)器內(nèi)部一共有 6 顆軸流式風(fēng)扇,其中電源模塊單獨(dú)有一個(gè)軸流風(fēng)扇冷卻。軸流風(fēng)扇采用吹風(fēng)散熱方式冷卻 CPU 和內(nèi)存,硬盤最靠近進(jìn)風(fēng)口,出風(fēng)口壓力設(shè)為大氣壓力,環(huán)境溫度設(shè)為 25℃。
2.2 仿真結(jié)果分析
服務(wù)器散熱效果評(píng)價(jià)指標(biāo)有 CPU、內(nèi)存、硬盤的最高溫度。環(huán)境溫度 25℃,忽略服務(wù)器與外界環(huán)境的輻射換熱,分別對(duì)服務(wù)器低負(fù)荷和高負(fù)荷兩種狀態(tài)進(jìn)行仿真。
從圖可以看出,無論是低負(fù)荷還是高負(fù)荷,服務(wù)器內(nèi)部最高溫度出現(xiàn)在 CPU 上,其次是內(nèi)存的溫度較高,而硬盤最靠近進(jìn)風(fēng)口,其溫度最低。
下表為服務(wù)器主要發(fā)熱部件的溫度匯總表。在低負(fù)荷狀態(tài)下,服務(wù)器各部件的溫度均得到較好的控制,CPU 溫度低于長期運(yùn)行允許的溫度值;而在高負(fù)荷狀態(tài)下,CPU 的溫度急劇上升,超過峰值允許的溫度值。
三、基于間接液冷的服務(wù)器散熱仿真研究3.1 機(jī)架式服務(wù)器液冷仿真模型建立
間接液冷機(jī)架式服務(wù)器內(nèi)含電源模塊、CPU(兩個(gè))、內(nèi)存、硬盤、液冷板、水泵等部件。
液冷散熱板作為水冷系統(tǒng)的重要組成部分,主要是將發(fā)熱元器件產(chǎn)生的熱量與冷卻液充分交換。水冷系統(tǒng)部分如圖所示,由IGBT、水冷散熱板、鋁合金板以及鋁條安裝件組成。
一般情況下,當(dāng)流體速度小于 1/3 風(fēng)速時(shí),可將流體看作不可壓縮流體,因此可將服務(wù)器內(nèi)部空氣以及流道內(nèi)液體視作不可壓縮流體。服務(wù)器內(nèi)部一共有 4 顆軸流式風(fēng)扇,其中電源模塊單獨(dú)有一個(gè)軸流風(fēng)扇冷卻。軸流風(fēng)扇采用吹風(fēng)散熱方式冷卻CPU 和內(nèi)存,硬盤最靠近進(jìn)風(fēng)口,出風(fēng)口壓力設(shè)為大氣壓力,環(huán)境溫度設(shè)為 25℃,液冷板入口流體溫度為 25℃。
3.2 仿真結(jié)果分析
服務(wù)器散熱效果評(píng)價(jià)指標(biāo)有 CPU、內(nèi)存、硬盤的最高溫度。環(huán)境溫度 25℃,忽略服務(wù)器與外界環(huán)境的輻射換熱,分別對(duì)服務(wù)器低負(fù)荷和高負(fù)荷兩種狀態(tài)進(jìn)行仿真。
從圖可以看出,在低負(fù)荷狀態(tài)時(shí),最高溫度出現(xiàn)在內(nèi)存上,當(dāng)服務(wù)器處于高負(fù)荷時(shí),服務(wù)器內(nèi)部最高溫度出現(xiàn)在 CPU 上,其次是內(nèi)存的溫度較高,而硬盤最靠近進(jìn)風(fēng)口,其溫度最低。
下表為服務(wù)器主要發(fā)熱部件的溫度匯總表。在低負(fù)荷狀態(tài)下,服務(wù)器各部件的溫度均得到較好的控制,CPU 溫度低于長期運(yùn)行允許的溫度值;在高負(fù)荷狀態(tài)下,CPU 的溫度稍有上升,但沒超過峰值允許的溫度值。與強(qiáng)制風(fēng)冷相比,間接液冷方式下,內(nèi)存和硬盤的溫度稍有升高,這是因?yàn)闇p少風(fēng)扇的原因;而 CPU 的溫度降低,因?yàn)樗膶?dǎo)熱系數(shù)和比熱容等遠(yuǎn)大于空氣的導(dǎo)熱系數(shù)和比熱容。因此對(duì)于高負(fù)荷的服務(wù)器,建議采用間接液冷散熱方式。
3 藍(lán)海大腦液冷散熱服務(wù)器
基于藍(lán)海大腦超融合平臺(tái)的水冷GPU服務(wù)器及水冷GPU工作站采用綠色冷卻技術(shù),Gluster 分布式架構(gòu)設(shè)計(jì),提供大存儲(chǔ)量,擁有開放融合的特性和超能運(yùn)算的能力。支持多塊GPU顯卡,提供出色的靜音效果和完美的溫控系統(tǒng)。借助 NVIDIA GPU計(jì)算卡可加快神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理速度,更快地創(chuàng)作精準(zhǔn)的光照渲染效果,提供高速視頻、圖像、聲音等處理能力,加速AI 并帶來更流暢的交互體驗(yàn)。
審核編輯:湯梓紅
-
gpu
+關(guān)注
關(guān)注
28文章
4787瀏覽量
129414 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9334瀏覽量
86133 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3854瀏覽量
92071 -
H100
+關(guān)注
關(guān)注
0文章
32瀏覽量
310
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論