欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

揭秘智算中心的互聯(lián)技術(shù)決策

SDNLAB ? 來(lái)源:SDNLAB ? 2024-10-22 16:17 ? 次閱讀

作者:張景濤

英偉達(dá)設(shè)計(jì)的DGX H100 NVL256超級(jí)計(jì)算集群,原本計(jì)劃集成256個(gè)NVIDIA H100 GPU,但最終其在商業(yè)市場(chǎng)上卻難覓其蹤。這一現(xiàn)象引發(fā)了業(yè)界對(duì)其開(kāi)發(fā)中止原因的廣泛討論。普遍觀點(diǎn)認(rèn)為,主要障礙在于成本收益不成正比。該系統(tǒng)在連接GPU時(shí)大量使用光纖,導(dǎo)致BOM成本激增,超出了標(biāo)準(zhǔn)NVL8配置的經(jīng)濟(jì)合理性范圍。

DGX H100 NVL256 SuperPOD

盡管英偉達(dá)聲稱擴(kuò)展后的NVL256能夠?yàn)?00B MoE訓(xùn)練提供高達(dá)2倍的吞吐量。然而,大客戶經(jīng)過(guò)計(jì)算分析,對(duì)英偉達(dá)的這一聲明表示懷疑。盡管最新代的NDR InfiniBand即將達(dá)到400Gbit/s的速度,而NVLink4則達(dá)到450GB/s,理論上提供了約9倍的峰值帶寬速度提升。該系統(tǒng)設(shè)計(jì)中使用了128個(gè)L1 NVSwitch和36個(gè)L2外部NVSwitch,形成了2:1的阻塞比,意味著每個(gè)服務(wù)器只能有一半的帶寬連接至另一服務(wù)器。英偉達(dá)依賴NVlink SHARP技術(shù)來(lái)優(yōu)化網(wǎng)絡(luò),以實(shí)現(xiàn)allToall帶寬的等效性。

H100 NVL256 成本分析

在Hot Chips 34會(huì)議上對(duì)H100 NVL256 BoM的分析表明,擴(kuò)展NVLink256使得每個(gè)超級(jí)單元(SU)的BoM成本增加了約30%。當(dāng)擴(kuò)展到超過(guò)2048個(gè)H100 GPU時(shí),由于需要從兩層InfiniBand網(wǎng)絡(luò)拓?fù)滢D(zhuǎn)變?yōu)槿龑拥木W(wǎng)絡(luò)拓?fù)洌琁nfiniBand的成本百分比增加,這一比例略有降低。

wKgaoWcXX8uAdZWxAAIxOUKNrSc915.png

圖2 NVL256成本分析

大客戶和超大規(guī)模計(jì)算公司對(duì)他們當(dāng)前的工作負(fù)載進(jìn)行了性能/總擁有成本(perf/TCO)分析,并得出結(jié)論:相比支付NVL256擴(kuò)展NVLink的成本,額外花費(fèi)30%購(gòu)買更多的HGX H100服務(wù)器能獲得更好的性能/成本比。這一分析結(jié)果導(dǎo)致英偉達(dá)最終決定不推出DGX H100 NVL256產(chǎn)品。

GH200 NVL32 重新設(shè)計(jì)

隨后,英偉達(dá)對(duì)NVL256進(jìn)行了重新設(shè)計(jì),將其縮減至NVL32,并采用了銅背板spine,這與他們NVL36/NVL72 Blackwell設(shè)計(jì)相似。據(jù)悉,AWS已同意為其Project Ceiba項(xiàng)目購(gòu)買16k GH200 NVL32。據(jù)估計(jì),這種重新設(shè)計(jì)的NVL32的成本溢價(jià)將比標(biāo)準(zhǔn)高級(jí)HGX H100 BoM高出10%。隨著工作負(fù)載的持續(xù)增長(zhǎng),英偉達(dá)聲稱對(duì)于GPT-3 175B和16k GH200,NVL32的速度將比16k H100快1.7倍,在500B LLM推理上快2倍。這些性能/成本比對(duì)客戶來(lái)說(shuō)更具吸引力,也使得更多客戶傾向于采用英偉達(dá)的這種新設(shè)計(jì)。

wKgZoWcXX8uAAYWxAAXMEx9XKM8066.png

圖3 GH200 NVL32

GB200 NVL72的突破

關(guān)于GB200 NVL72的預(yù)期推出,英偉達(dá)據(jù)信已經(jīng)從H100 NVL256的失敗中吸取了教訓(xùn),轉(zhuǎn)而采用銅纜互連,稱為“NVLink spine”,以期解決成本問(wèn)題。這種設(shè)計(jì)變更預(yù)計(jì)將降低商品成本(COG cost of goods),并為GB200 NVL72鋪平成功之路。英偉達(dá)聲稱,采用銅設(shè)計(jì),NVL72的成本將節(jié)省約6倍,每個(gè)GB200 NVL72架可節(jié)省約20kW電力,每個(gè)GB200 NVL32架子節(jié)省約10kW。

與H100 NVL256不同,GB200 NVL72將不會(huì)在計(jì)算節(jié)點(diǎn)內(nèi)使用任何NVLink switch,而是采用平坦軌道優(yōu)化(flat rail-optimized)的網(wǎng)絡(luò)拓?fù)?。?duì)于每72個(gè)GB200 GPU,將有18個(gè)NVLink switch。由于所有連接都在同一機(jī)架內(nèi),最遠(yuǎn)的連接只需跨越19U(0.83米),這在有源銅纜的范圍內(nèi)是可行的。

wKgaoWcXX8uACsx-AAWd1dDp4dE095.png

圖4 GB200 NVL72架構(gòu)

據(jù)Semianalysis報(bào)道,英偉達(dá)聲稱其設(shè)計(jì)可以支持在單個(gè)NVLink域內(nèi)連接多達(dá)576個(gè)GB200 GPU。這可能通過(guò)增加額外的NVLink switch層來(lái)實(shí)現(xiàn)。預(yù)計(jì)英偉達(dá)將保持2:1的阻塞比,即在GB NVL576 SU內(nèi),將使用144個(gè)L1 NVLink switch加36個(gè)L2 NVLink switch?;蛘?,他們也可能采取更積極的1:4阻塞比,僅使用18個(gè)L2 NVLink switch。他們將繼續(xù)使用光學(xué)OSFP收發(fā)器來(lái)擴(kuò)展從機(jī)架內(nèi)的L1 NVLink switch到L2 NVLink switch的連接。

wKgaoWcXX8uAaUs6AAdGk6QeFcU122.png

圖5 GB200 NVL576架構(gòu)

有傳言稱NVL36和NVL72已經(jīng)占NVIDIA Blackwell交付量的20%以上。然而,對(duì)于大客戶是否會(huì)選擇成本更高的NVL576,這仍然是個(gè)問(wèn)題,因?yàn)閿U(kuò)展到NVL576需要額外的光學(xué)器件成本。英偉達(dá)似乎已經(jīng)吸取了教訓(xùn),認(rèn)識(shí)到銅纜的互聯(lián)成本遠(yuǎn)低于光纖器件。

專家觀點(diǎn)

其實(shí)對(duì)于到底該使用銅還是光,以及對(duì)NVL72的看法,半導(dǎo)體產(chǎn)業(yè)大神Doug O’Langhlin在其文章《The Data Center is the New Compute Unit:Nvidia's Vision for System-Level Scaling》也做了闡述:

銅纜互聯(lián)將在機(jī)架級(jí)取得統(tǒng)治地位,并且在用光之前要榨干銅的所有價(jià)值。

I conclude that Copper will reign supreme at the rack scale level and can push Moore’sLaw scaling further. AI networking aims to scale copper networking as hard as possible before we have to use Optics.

對(duì)于NVL72的前途,大神也相當(dāng)看好,認(rèn)為這是摩爾定律在機(jī)架級(jí)的體現(xiàn):

It all starts with Moore’s Law. There is a profound beauty in semiconductors, as thesame problem that is happening at the chip scale is the same problem that is happening at the data center level. Moore’s Law is a fractal, and the principles that apply tonanometers apply to racks.

基于無(wú)源銅纜的nvlink域?qū)⑹且粋€(gè)新的成功基準(zhǔn),并且具備更好的成本收益比。

The new Moore’s Law is about pushing the most compute into a rack. Also, looking at Nvidia’s networking moat as InfiniBand versus Ethernet is completely missing the entirepoint. I think the NVLink domain over passive copper is the new benchmark of success,and it will make a lot of sense to buy GB200 NV72 racks instead of just B200s.

業(yè)界視角

財(cái)通證券的研報(bào)《銅互聯(lián),數(shù)據(jù)中心通信網(wǎng)絡(luò)重要解決方案》也給出了自己的看法。研報(bào)中指出:

短距通信場(chǎng)景銅互聯(lián)相對(duì)優(yōu)勢(shì)還是很明顯的,銅連接產(chǎn)品在數(shù)據(jù)中心高速互聯(lián)中一直扮演著重要角色。在數(shù)據(jù)中心能耗攀升,以及建設(shè)成本高企的背景下,銅互聯(lián)在散熱效率、低功耗、低成本方面有著一定優(yōu)勢(shì)。伴隨Serdes 速率逐步從56G、112G 向224G升級(jí),單端口速率將基于8 通道達(dá)到1.6T,高速傳輸成本有望大幅下降,對(duì)應(yīng)銅纜速率也向著224Gbps 演進(jìn)。為解決高速銅纜的傳輸損耗問(wèn)題,AEC、ACC通過(guò)內(nèi)置信號(hào)增強(qiáng)芯片提升傳輸距離,銅纜模組生產(chǎn)工藝也在同步升級(jí)。

wKgZoWcXX8uAYXwDAAggN16EAXg090.png

圖7 銅互聯(lián)在數(shù)據(jù)中心短距互聯(lián)中的重要角色

根據(jù)Light Counting,全球無(wú)源直連電纜DAC 和有源電纜AEC 的市場(chǎng)規(guī)模將分別以25%和45%的年復(fù)合增長(zhǎng)率增長(zhǎng)。

wKgZoWcXX8uAfieeAAJcsie1L90546.png

圖8 銅纜高速?gòu)?fù)合增長(zhǎng)

2010 年至2022 年間,交換機(jī)芯片帶寬容量從640 Gbps 增長(zhǎng)到了51.2 Tbps,80倍的帶寬增長(zhǎng)帶來(lái)了22 倍的系統(tǒng)總功耗提升,其中光學(xué)元件功率(26 倍)的功耗提升尤為明顯。

wKgaoWcXX8uACtNlAAN_LRWCNtU117.png

圖9 光學(xué)器件功耗占比逐步提升

銅纜互聯(lián)由于不涉及光電轉(zhuǎn)化,因此具有低功耗特點(diǎn),相比于有源光纜(AOC),目前的銅直接連接電纜(DAC)的功耗小于0.1 W,可以忽略不計(jì),有源電纜(AEC)亦可將功耗控制在5w 以內(nèi),可在一定程度上降低算力集群整體功耗。

wKgaoWcXX8uAOUjYAAFObMKl-Ko919.png

圖10 功耗對(duì)比

在銅纜可觸達(dá)的高速信號(hào)傳輸距離內(nèi),相比光纖連接,銅連接方案的成本較低,此外,銅纜模組在短距離內(nèi)可以提供極低延遲的電信號(hào)傳輸并具有高可靠性,不會(huì)出現(xiàn)光纖在某些環(huán)境下可能出現(xiàn)的信號(hào)丟失或干擾風(fēng)險(xiǎn)。同時(shí),銅纜的物理特性使得它更易于處理和維護(hù),并且其具有高兼容度并不需要額外的轉(zhuǎn)換設(shè)備。

wKgZoWcXX8uAWeEyAAEdAzgKVjk946.png

圖11 成本對(duì)比

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4790

    瀏覽量

    129444
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    9338

    瀏覽量

    86156
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3854

    瀏覽量

    92082
  • 智算中心
    +關(guān)注

    關(guān)注

    0

    文章

    73

    瀏覽量

    1825

原文標(biāo)題:揭秘智算中心的互聯(lián)技術(shù)決策

文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    中心網(wǎng)絡(luò)架構(gòu)選型原則

    ? 通常,在在AI智系統(tǒng)中,一個(gè)模型從生產(chǎn)到應(yīng)用,一般包括離線訓(xùn)練和推理部署兩大階段;本文選自“ 智中心網(wǎng)絡(luò)架構(gòu)白皮書(2023) ”“ 智能計(jì)算中心規(guī)劃建設(shè)指南 ”,常用的對(duì)IB
    的頭像 發(fā)表于 08-07 09:13 ?2924次閱讀

    中心加速布局,上游計(jì)算、存儲(chǔ)、互聯(lián)都涉及哪些芯片技術(shù)

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)智中心是承載人工智能計(jì)算需求的基礎(chǔ)設(shè)施,專門用于處理AI算法和模型所需的大量計(jì)算任務(wù)。與傳統(tǒng)的數(shù)據(jù)中心和超中心
    的頭像 發(fā)表于 07-24 01:13 ?4536次閱讀

    國(guó)資委發(fā)文鼓勵(lì)、Sora開(kāi)年爆火…智中心的2024注定熱辣滾燙?

    中心Sora
    腦極體
    發(fā)布于 :2024年02月27日 16:11:19

    數(shù)據(jù)揭秘你不知道的阿里巴巴數(shù)據(jù)中心

    Alibaba Cluster Data 開(kāi)源:270GB 數(shù)據(jù)揭秘你不知道的阿里巴巴數(shù)據(jù)中心
    發(fā)表于 04-30 09:37

    中心,智慧時(shí)代的“發(fā)電站”

    如何讓計(jì)算力像電力一樣“普適普惠”,為整個(gè)社會(huì)所用?電廠是通過(guò)變電站解決最后一公里問(wèn)題,智慧計(jì)算則要依靠邊緣數(shù)據(jù)中心。所以,智中心解決之道里,力、數(shù)據(jù)、
    的頭像 發(fā)表于 05-13 10:17 ?3577次閱讀

    華中最火爆的中心-中億云礦 帶你揭秘Chia挖礦的致富之道!

    如果問(wèn),21世紀(jì)你最關(guān)注的是什么?相信九成九的人都會(huì)脫口而出:搞錢!搞錢!搞錢!致富道路千萬(wàn)條,而Chia幣就是近年來(lái)呼聲最高,被炒的最火的一條。今天,作為華中最火爆的中心——中億云礦就來(lái)為大家
    的頭像 發(fā)表于 06-17 15:03 ?3889次閱讀
    華中最火爆的<b class='flag-5'>算</b>力<b class='flag-5'>中心</b>-中億云礦 帶你<b class='flag-5'>揭秘</b>Chia挖礦的致富之道!

    北鯤云超與傳統(tǒng)超中心的區(qū)別

    隨著技術(shù)的進(jìn)步和社會(huì)經(jīng)濟(jì)的發(fā)展,高性能計(jì)算的基礎(chǔ)設(shè)施建設(shè)也在不斷擴(kuò)大,出現(xiàn)了許多超級(jí)計(jì)算中心、云計(jì)算數(shù)據(jù)中心以及公有云廠商所建立的各種公有云平臺(tái)等不同形態(tài)的力基礎(chǔ)設(shè)施。而北鯤云超
    發(fā)表于 07-16 11:24 ?2082次閱讀

    基于華為云打造的成都智中心正式上線

    5月10日,“東數(shù)西” 國(guó)家一體化大數(shù)據(jù)中心成渝樞紐節(jié)點(diǎn)的樣板工程、西南地區(qū)最大的人工智能計(jì)算中心——成都智中心正式上線。
    的頭像 發(fā)表于 05-11 11:45 ?2781次閱讀

    如何定義AI中心新實(shí)踐

    9月3日上午, “盡其用·AI中心建設(shè)新實(shí)踐”云端AI力產(chǎn)業(yè)論壇在2022世界人工智能大會(huì)上隆重召開(kāi),來(lái)自人工智能力領(lǐng)域院士專家、
    發(fā)表于 09-05 10:48 ?1248次閱讀

    天數(shù)智芯與互聯(lián)公司簽署互聯(lián)網(wǎng)合作框架協(xié)議

    近日,上海天數(shù)力電子科技有限公司(以下簡(jiǎn)稱“天數(shù)力”)與互聯(lián)(北京)科技有限公司(以下簡(jiǎn)稱“
    的頭像 發(fā)表于 08-30 11:47 ?1494次閱讀

    云數(shù)據(jù)中心、智中心、超中心,有何區(qū)別?

    云數(shù)據(jù)中心、智中心和超中心是當(dāng)前計(jì)算機(jī)領(lǐng)域中比較重要的研究方向,三者雖然都屬于數(shù)據(jù)中心的范疇
    的頭像 發(fā)表于 06-22 08:27 ?5763次閱讀
    云數(shù)據(jù)<b class='flag-5'>中心</b>、智<b class='flag-5'>算</b><b class='flag-5'>中心</b>、超<b class='flag-5'>算</b><b class='flag-5'>中心</b>,有何區(qū)別?

    壁仞科技為中國(guó)移動(dòng)呼和浩特智中心提供強(qiáng)大

    中心提供強(qiáng)大力。該項(xiàng)目成功上線運(yùn)營(yíng),標(biāo)志著雙方在智能計(jì)算領(lǐng)域的深度合作邁出了堅(jiān)實(shí)的步伐。 ? 中國(guó)移動(dòng)智中心(呼和浩特)屬于全國(guó)型N節(jié)點(diǎn)萬(wàn)卡訓(xùn)練場(chǎng),單體
    的頭像 發(fā)表于 07-05 17:16 ?1349次閱讀

    中心會(huì)取代通用中心嗎?

    隨著人工智能(AI)技術(shù)的飛速發(fā)展,計(jì)算需求不斷攀升,數(shù)據(jù)中心行業(yè)正經(jīng)歷著前所未有的變革。傳統(tǒng)的通用中心與新興的智
    的頭像 發(fā)表于 01-06 14:45 ?192次閱讀
    智<b class='flag-5'>算</b><b class='flag-5'>中心</b>會(huì)取代通用<b class='flag-5'>算</b>力<b class='flag-5'>中心</b>嗎?

    中心力如何衡量?

    作為當(dāng)下科技發(fā)展的重要基礎(chǔ)設(shè)施,其力的衡量關(guān)乎其能否高效支撐人工智能、大數(shù)據(jù)分析等智能應(yīng)用的運(yùn)行。以下是對(duì)智中心算力衡量的詳細(xì)闡述:一、力的基本定義與單位1、
    的頭像 發(fā)表于 01-16 14:03 ?561次閱讀
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b><b class='flag-5'>中心</b>的<b class='flag-5'>算</b>力如何衡量?

    中心的入門指南,技術(shù)小白也能懂

    在數(shù)字化時(shí)代,人工智能(AI)正深刻改變著我們的生活和工作。而智中心作為支撐人工智能發(fā)展的核心基礎(chǔ)設(shè)施,也逐漸走進(jìn)大眾視野。那么,智中心究竟是什么?它如何工作?又對(duì)我們有什么用呢?
    的頭像 發(fā)表于 02-08 14:27 ?348次閱讀
    智<b class='flag-5'>算</b><b class='flag-5'>中心</b>的入門指南,<b class='flag-5'>技術(shù)</b>小白也能懂