芝能科技出品
隨著全球?qū)?a target="_blank">人工智能(AI)的需求不斷增長,數(shù)據(jù)中心作為AI計算的重要基礎設施,其網(wǎng)絡架構與連接技術的發(fā)展變得尤為關鍵。
本文將簡述數(shù)據(jù)中心網(wǎng)絡架構的演變及其在AI應用中的重要性,并探討兩種主流網(wǎng)絡架構——InfiniBand和RoCEv2。
AI生成內(nèi)容(AIGC)市場在2024年迎來了爆發(fā)式增長。OpenAI發(fā)布的Sora和國內(nèi)的Kimi大模型引領了這一潮流。
預計到2024年,全球?qū)IGC解決方案的投資將達到200億美元,并在2027年超過1400億美元。這種增長對AI網(wǎng)絡架構提出了更高的要求,因其需要支撐大規(guī)模AI模型的訓練和推理。
01 傳統(tǒng)云計算與AI智算中心網(wǎng)絡架構對比
●傳統(tǒng)云計算數(shù)據(jù)中心網(wǎng)絡架構
傳統(tǒng)云計算數(shù)據(jù)中心主要基于南北向流量模型設計,即對外提供服務的流量較大,而內(nèi)部東西向流量較小。
這種架構存在一些不足,例如高帶寬收斂比、較高的互訪時延和網(wǎng)卡帶寬低。這些問題導致傳統(tǒng)架構無法滿足AI計算對高帶寬和低時延的要求。
●AI智算中心網(wǎng)絡架構
AI智算中心通常采用Fat-Tree(胖樹)架構,通過1:1的無收斂配置,確保了高性能和無阻塞傳輸。此架構能夠有效降低時延,并支持大規(guī)模GPU集群。
此外,AI網(wǎng)絡架構中常用的RDMA技術,允許主機之間直接內(nèi)存訪問,顯著降低了同集群內(nèi)部的時延,提高了網(wǎng)絡性能。
02 AI智算網(wǎng)絡的兩大主流架構
●InfiniBand網(wǎng)絡架構
InfiniBand網(wǎng)絡通過子網(wǎng)管理器(SM)進行集中管理,使用信用令牌機制確保數(shù)據(jù)在有足夠緩沖區(qū)時才發(fā)送,從而避免數(shù)據(jù)丟包。其自適應路由技術能夠根據(jù)數(shù)據(jù)包情況動態(tài)選擇路徑,實現(xiàn)最佳負載均衡。
●RoCEv2網(wǎng)絡架構
RoCEv2(RDMA over Converged Ethernet)采用以太網(wǎng)和UDP傳輸層,具有更好的可擴展性和部署靈活性。其流控機制包括優(yōu)先流控制(PFC)和顯式擁塞通知(ECN),結合數(shù)據(jù)中心量化擁塞通知(DCQCN),能夠在保持網(wǎng)絡高效運行的同時避免數(shù)據(jù)丟失。
隨著AI計算需求的增加,800G和1.6T的主流傳輸方案逐漸成為市場熱點。
這些方案在實際應用中,尤其是單模傳輸和預端接技術方面,提供了創(chuàng)新的解決方案。
同時,為應對高能耗高熱量問題,液冷解決方案也在AI數(shù)據(jù)中心得到廣泛應用。
隨著光模塊技術向 400G 及更高速率邁進,挑戰(zhàn)不單是提升數(shù)據(jù)傳輸速度,還包括功耗和成本。
從 2007 年的 10G 光模塊僅需 1W 功率,到如今 400G 及 800G光模塊功耗接近 30W,隨著速率的每一次迭代,功耗也相應攀升。
在滿載狀態(tài)下,一個交換機可能搭載多達數(shù)十個光模塊,48 個光模塊的總功耗可達 1440W,而光模塊通常占整機功耗的 40%以上,導致整個智算中心的能耗可能超過 3000W。
液冷技術因其高導熱性能和高效散熱能力,已成為降低網(wǎng)絡系統(tǒng)能源功耗的廣泛認可解決方案,特別適用于高功率密度數(shù)據(jù)中心,但需解決冷卻液腐蝕性和壓強差等挑戰(zhàn)以確保系統(tǒng)安全。
小結
AI智算數(shù)據(jù)中心的網(wǎng)絡架構和連接技術正朝著更高效、更低時延和更高帶寬的方向發(fā)展。無論是InfiniBand還是RoCEv2,這些技術的進步都在為AI的發(fā)展提供堅實的基礎。
在未來,隨著技術的不斷創(chuàng)新,AI智算網(wǎng)絡架構將進一步優(yōu)化,推動AI應用的廣泛普及和深入發(fā)展。
-
數(shù)據(jù)中心
+關注
關注
16文章
4869瀏覽量
72413 -
AI
+關注
關注
87文章
31623瀏覽量
270445 -
網(wǎng)絡架構
+關注
關注
1文章
95瀏覽量
12648
原文標題:數(shù)據(jù)中心的網(wǎng)絡架構及連接技術
文章出處:【微信號:QCDZSJ,微信公眾號:汽車電子設計】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
銳捷網(wǎng)絡中標中國聯(lián)通數(shù)據(jù)中心集采項目
銳捷助互聯(lián)網(wǎng)數(shù)據(jù)中心網(wǎng)絡自動化、可視化運維
光模塊將如何演變以適應未來數(shù)據(jù)中心需求?
網(wǎng)絡發(fā)展怎么改變企業(yè)數(shù)據(jù)中心的面貌的
數(shù)據(jù)中心的建設也看重風水
40G數(shù)據(jù)中心之銅纜布線
數(shù)據(jù)中心太耗電怎么辦
數(shù)據(jù)中心是什么
什么是數(shù)據(jù)中心
數(shù)據(jù)中心網(wǎng)絡架構的HA測試[圖]
為什么5G網(wǎng)絡離不開數(shù)據(jù)中心網(wǎng)絡
數(shù)據(jù)中心與網(wǎng)絡架構
淺談數(shù)據(jù)中心網(wǎng)絡基礎技術
超融合數(shù)據(jù)中心網(wǎng)絡架構的典型特征與價值
現(xiàn)代數(shù)據(jù)中心SmartNIC/DPU的演變過程
![現(xiàn)代<b class='flag-5'>數(shù)據(jù)中心</b>SmartNIC/DPU的<b class='flag-5'>演變</b>過程](https://file1.elecfans.com/web2/M00/8D/30/wKgaomS3m7iAQVyZAAA7Gr5K2_Y470.png)
評論