推進(jìn)下一代低延遲以太網(wǎng)
今天的人工智能應(yīng)用是由大型語(yǔ)言模型(llm)驅(qū)動(dòng)的,這些模型是在大量非結(jié)構(gòu)化數(shù)據(jù)上訓(xùn)練的。llm的有效性與訓(xùn)練中使用的參數(shù)數(shù)量成正比。例如,GPT-3擁有1750億個(gè)參數(shù),而GPT-4預(yù)計(jì)將超過(guò)1萬(wàn)億個(gè)參數(shù)。為了跟上人工智能性能的預(yù)期改進(jìn),預(yù)計(jì)LLM參數(shù)將每四個(gè)月翻一番。集群規(guī)模的計(jì)算是滿足下一代人工智能指數(shù)級(jí)計(jì)算需求的必要條件,而在這個(gè)時(shí)代,更快的互聯(lián)速率對(duì)于實(shí)現(xiàn)更高效的機(jī)架通信的重要性變得明顯,需要下一代低延遲以太網(wǎng)。
從集群規(guī)模面,云廠商公開的資料顯示目前亞馬遜基于以太網(wǎng)的集群超過(guò)6萬(wàn)臺(tái)服務(wù)器,Oracle超過(guò)3萬(wàn)臺(tái)服務(wù)器,Meta超過(guò)2萬(wàn)臺(tái),字節(jié)超過(guò)1萬(wàn)臺(tái)。這些超大集群網(wǎng)絡(luò)都有部署基于以太網(wǎng)的后端網(wǎng)絡(luò)。
從市場(chǎng)預(yù)測(cè)面,相關(guān)機(jī)構(gòu)預(yù)測(cè)以太網(wǎng)的在RDMA板塊的增速將逐步超越Infiniband,預(yù)計(jì)到2026年將獲得比Infiniband更高的市場(chǎng)收入。
(Source: 650 Group)
從成本面,舉個(gè)例子,Meta最新采用了基于InfiniBand網(wǎng)絡(luò)的2.4萬(wàn)卡數(shù)據(jù)中心,總投資可達(dá)9.1億美金,其中InfiniBand網(wǎng)絡(luò)部分的成本就占了20%以上;單個(gè)交換機(jī)成本超過(guò)35000美金,總體交換機(jī)開銷在接近7000萬(wàn)美金。
相比之下,采用了博通芯片的相關(guān)交換機(jī)售價(jià)僅為其一半不到。如果該數(shù)據(jù)中心采用以太網(wǎng),Meta可以節(jié)省超過(guò)9100萬(wàn)美金。從云廠商/下游廠商的長(zhǎng)期成本和性價(jià)比來(lái)看,隨著以太網(wǎng)性能的持續(xù)提升以及其具備的普遍性和經(jīng)濟(jì)性,在滿足整體算力需求及延遲性能的條件下,下游廠商未來(lái)使用以太網(wǎng)的意愿有望持續(xù)提升。
國(guó)內(nèi)外 all In 以太網(wǎng)進(jìn)階賽
超級(jí)以太網(wǎng)聯(lián)盟和SNIA主席J Metz表示:“在AI訓(xùn)練過(guò)程中,尾部延遲或者說(shuō)組件間的通信速度,直接影響GPU的利用率。尾部延遲越低,計(jì)算資源的工作效率就越高。然而,將尾部延遲降至200納秒以下——對(duì)這些應(yīng)用程序和工作負(fù)載來(lái)說(shuō)的理想水平并非PCIe和CXL等互連技術(shù)所能實(shí)現(xiàn)的。超級(jí)以太網(wǎng)的誕生將傳統(tǒng)以太網(wǎng)推向了一個(gè)新的高度,使其準(zhǔn)備好迎接需要超低延遲和高速度的新一代HPC和AI工作負(fù)載?!?/p>
2023年7月,超以太網(wǎng)聯(lián)盟(Ultra Ethernet Consortium,簡(jiǎn)稱UEC)成立,其中成員包括AMD、Arista、博通、思科、Meta和微軟等,旨在解決以太網(wǎng)實(shí)際應(yīng)用過(guò)程中的諸多不足。英偉達(dá)采取了以太網(wǎng)與IB并行的經(jīng)營(yíng)策略,其Spectrum-X解決方案同樣基于以太網(wǎng)設(shè)計(jì)。據(jù)外媒消息,英偉達(dá)在今年7月份也加入了UEC ,有望助力推進(jìn)其在以太網(wǎng)層面的產(chǎn)品及相關(guān)業(yè)務(wù)部署。
Nvidia is a member of the UEC because our strategy is to support networking specifications that can be beneficial to our customers. We may want to offer a UEC version of Ethernet in the future, alongside Spectrum-X and potentially other specifications in the future. (外媒原文)
超以太網(wǎng)聯(lián)盟(UEC)將專注于為高性能人工智能優(yōu)化和可擴(kuò)展的完整的經(jīng)濟(jì)高效的以太網(wǎng)架構(gòu)。為了實(shí)現(xiàn)其集成解決方案的使命,它成立了八個(gè)工作組:物理層、鏈路層、傳輸層、軟件層、存儲(chǔ)、管理、合規(guī)與測(cè)試、性能與調(diào)試。
下圖簡(jiǎn)約說(shuō)明了AI架構(gòu)拓?fù)涞囊环N類型,其中有幾個(gè)不同的網(wǎng)絡(luò),每個(gè)網(wǎng)絡(luò)都有不同的功能。前端是傳統(tǒng)的以太網(wǎng)網(wǎng)絡(luò)連接,而后端是向外擴(kuò)展(UEC)網(wǎng)絡(luò)。還有一個(gè)擴(kuò)展網(wǎng)絡(luò)連接cpu和xPU加速器。
Source: Ultra Ethernet Consortium
從上圖來(lái)看,Scale UP網(wǎng)絡(luò)層面主要是通過(guò)xPU加速芯片片內(nèi)及片間通信來(lái)完成,而Scale Out網(wǎng)絡(luò)層面則重點(diǎn)指出了智能網(wǎng)卡與xPU加速芯片以及UEC網(wǎng)絡(luò)間的通信。
國(guó)內(nèi)生態(tài)以太網(wǎng)超節(jié)點(diǎn)項(xiàng)目在行動(dòng)
近期,ODCC(開放數(shù)據(jù)中心委員會(huì))網(wǎng)絡(luò)工作組啟動(dòng)了ETH-X超節(jié)點(diǎn)系列項(xiàng)目。該項(xiàng)目由中國(guó)信通院、騰訊聯(lián)合服務(wù)器廠商,交換機(jī)廠商、ODM廠商、芯片等上下游合作伙伴共同推動(dòng),以產(chǎn)品化樣機(jī)以及相關(guān)技術(shù)規(guī)范為目標(biāo),打造大型多GPU互聯(lián)算力集群系統(tǒng)。
ETH-X超節(jié)點(diǎn)項(xiàng)目提供了一種新的探索方向,旨在基于以太網(wǎng)技術(shù),實(shí)現(xiàn)高帶寬容量,構(gòu)建一個(gè)開放且可擴(kuò)展的Scale Up超節(jié)點(diǎn)體系。據(jù)ODCC披露,ETH-X超節(jié)點(diǎn)在訓(xùn)練和推理側(cè)模型場(chǎng)景下,Scale up帶來(lái)的性能(從通信數(shù)據(jù)速度和計(jì)算效率兩大層面)提升遠(yuǎn)超過(guò)成本的增加并能夠?qū)崿F(xiàn)綜合收益的提升。
交換機(jī)基于以太網(wǎng)的不俗表現(xiàn)
Scale Out網(wǎng)絡(luò)從Tray to Tracy, Rack to Rack互聯(lián)層面上來(lái)說(shuō),Leaf Switch 和 智能網(wǎng)卡NIC都是非常關(guān)鍵的互聯(lián)組件。在 Datacenter 規(guī)模擴(kuò)大過(guò)程中,服務(wù)器數(shù)量的增加以及集群更高帶寬更低延遲的通信需求一定會(huì)帶來(lái)智能網(wǎng)卡和Leaf Switch 的需求增長(zhǎng)。
Leaf Switch是一種機(jī)架級(jí)交換機(jī),主要用于將同一機(jī)架內(nèi)的多臺(tái)服務(wù)器通過(guò)高速網(wǎng)絡(luò)互聯(lián)起來(lái)。它可以與服務(wù)器的網(wǎng)卡對(duì)接,從而組成機(jī)架內(nèi)部的高速網(wǎng)絡(luò)。在以太網(wǎng)層面,交換機(jī)領(lǐng)軍廠商Arista 以及數(shù)據(jù)中心多方案解決方案提供商Broadcom就是具有代表性的企業(yè)。
交換機(jī)行業(yè)巨頭Arista Network在一次財(cái)報(bào)電話會(huì)議上披露,該公司與Broadcom合作開發(fā)的AI集群,基于Arista以太網(wǎng)產(chǎn)品的運(yùn)行速度至少比英偉達(dá)的InfiniBand快了10%。而且Arista的以太網(wǎng)產(chǎn)品在Meta今年三月推出的兩個(gè)超大規(guī)模算力集群中,性能完全不遜色于Infiniband。此外,Arista預(yù)計(jì)到2025年能夠連接1萬(wàn)到10萬(wàn)個(gè)GPU。
博通在數(shù)據(jù)中心領(lǐng)域具有更強(qiáng)勢(shì)的地位,其產(chǎn)品線覆蓋交換機(jī)、Xpu加速芯片、高速光模塊等。博通也是最早首發(fā)光模塊CPO形態(tài)樣機(jī)的一家公司。該公司在24年6月舉行的FY24 Q2業(yè)績(jī)會(huì)上宣稱目前八個(gè)最大的GPU集群當(dāng)中,有七個(gè)使用以太網(wǎng),并且博通認(rèn)為25年所有的超大規(guī)模集群都將采用以太網(wǎng)組網(wǎng);
在產(chǎn)品方面,隨著集群網(wǎng)絡(luò)對(duì)于智能網(wǎng)卡速率要求往400G及以上不斷演進(jìn),博通在上半年發(fā)布了最新的高可擴(kuò)展,高性能,低功耗400G PCIe Gen 5.0以太網(wǎng)網(wǎng)卡產(chǎn)品組合。以解決人工智能數(shù)據(jù)中心中XPU帶寬和集群規(guī)模快速增長(zhǎng)時(shí)的連接瓶頸。
奇異摩爾:基于以太網(wǎng)RoCE v2 RDMA的全棧互聯(lián)架構(gòu)解決方案
在網(wǎng)絡(luò)互聯(lián)層面的互聯(lián)架構(gòu)產(chǎn)品解決方案均基于以太網(wǎng)RDMA RoCE V2,相比私有協(xié)議和網(wǎng)絡(luò),具有更開源的軟硬件兼容性。
我們的互聯(lián)架構(gòu)解決方案同時(shí)可覆蓋Scale Up & Scale Out網(wǎng)絡(luò)擴(kuò)展方案,全面加速服務(wù)器集群互聯(lián)通信。
目前800Gps以太網(wǎng)已經(jīng)實(shí)現(xiàn)商用部署,1.6Tbps以太網(wǎng)有望在2025年實(shí)現(xiàn)成熟商用。在服務(wù)器集群與GPU卡間互聯(lián)側(cè),奇異摩爾AI原生智能網(wǎng)卡SmartNIC(高達(dá)800G速率)與網(wǎng)絡(luò)互聯(lián)加速芯粒系列均基于以太網(wǎng)RDMA 技術(shù)構(gòu)建,更符合國(guó)內(nèi)智算中心主流的軟硬件系統(tǒng)搭建,滿足集群間/GPU卡間高速通信需求。
奇異摩爾的Die2Die IP 基于UCIeV 1.1國(guó)際標(biāo)準(zhǔn)協(xié)議,提供32 Gbp可作為第三方獨(dú)立IP,兼容各家產(chǎn)品的互聯(lián)互通。同時(shí)我們也是國(guó)內(nèi)為數(shù)不多布局Central I/O Die 互聯(lián)芯粒的廠商并已成功實(shí)現(xiàn)流片(如AMD基于CPU內(nèi)建 I/O die)。I/O Die 系列產(chǎn)品包括2.5D/3D 互聯(lián)芯粒,通過(guò)UCIe V 1.1 D2D形成片內(nèi)不同模塊的互聯(lián),支持各類互聯(lián)接口,皆在賦能國(guó)內(nèi)芯片企業(yè)制造出更高算力、更高性能的芯片。
寫在最后,未來(lái)的超大規(guī)模網(wǎng)絡(luò)是基于以太網(wǎng)還是Infiniband,又或是并存的一種網(wǎng)絡(luò)生態(tài)。正如AMD 蘇媽所堅(jiān)持的,“行業(yè)沒(méi)有一種萬(wàn)能的解決方案,因此模塊化和開放性將允許整個(gè)生態(tài)系統(tǒng)在他們想要?jiǎng)?chuàng)新的地方進(jìn)行創(chuàng)新?!睙o(wú)論是UEC,還是UCIe 標(biāo)準(zhǔn),未來(lái)可預(yù)見的是更多標(biāo)準(zhǔn)與生態(tài)的出現(xiàn)。半導(dǎo)體行業(yè)正是這樣一個(gè)引領(lǐng)科技創(chuàng)新的產(chǎn)業(yè),在不斷的技術(shù)應(yīng)用探索中,推動(dòng)現(xiàn)代科技的發(fā)展,為人類社會(huì)帶來(lái)變革。
評(píng)論
查看更多