欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

AIGC到底需要多大的算力?

鮮棗課堂 ? 來源:鮮棗課堂 ? 2023-04-21 10:07 ? 次閱讀

2023年,是AI人工智能技術全面爆紅的一年。

以ChatGPT、GPT-4、文心一言為代表的AIGC大模型,集文本撰寫、代碼開發(fā)、詩詞創(chuàng)作等功能于一體,展現(xiàn)出了超強的內(nèi)容生產(chǎn)能力,帶給人們極大震撼。

AIGC,AI-Generated Content(人工智能生產(chǎn)內(nèi)容) 作為一個通信老司機,除了AIGC大模型本身之外,小棗君更加關注的,是模型背后的通信技術。到底是一張怎樣的強大網(wǎng)絡,在支持著AIGC的運轉?此外,AI浪潮的全面來襲,將對傳統(tǒng)網(wǎng)絡帶來怎樣的變革?

AIGC,到底需要多大的算力?

眾所周知,數(shù)據(jù)、算法和算力,是人工智能發(fā)展的三大基本要素。

80624f92-dfb7-11ed-bfe3-dac502259ad0.png ?

前面提到的幾個AIGC大模型,之所以那么厲害,不僅是因為它們背后有海量的數(shù)據(jù)投喂,也因為算法在不斷進化升級。更重要的是,人類的算力規(guī)模,已經(jīng)發(fā)展到了一定程度。強大的算力基礎設施,完全能夠支撐AIGC的計算需求。 AIGC發(fā)展到現(xiàn)在,訓練模型參數(shù)從千億級飆升到了萬億級。為了完成這么大規(guī)模的訓練,底層支撐的GPU數(shù)量,也達到了萬卡級別規(guī)模。

以ChatGPT為例,他們使用了微軟的超算基礎設施進行訓練,據(jù)說動用了10000塊V100 GPU,組成了一個高帶寬集群。一次訓練,需要消耗算力約3640 PF-days(即每秒1千萬億次計算,運行3640天)。

一塊V100的FP32算力,是0.014 PFLOPS(算力單位,等于每秒1千萬億次的浮點運算)。一萬塊V100,那就是140 PFLOPS。

也就是說,如果GPU的利用率是100%,那么,完成一次訓練,就要3640÷140=26(天)。

GPU的利用率是不可能達到100%,如果按33%算(OpenAI提供的假設利用率),那就是26再翻三倍,等于78天。 可以看出,GPU的算力、GPU的利用率,對大模型的訓練有很大影響。

那么問題來了,影響GPU利用率的最大因素,是什么呢? 答案是:網(wǎng)絡。

一萬甚至幾萬塊的GPU,作為計算集群,與存儲集群進行數(shù)據(jù)交互,需要極大的帶寬。此外,GPU集群進行訓練計算時,都不是獨立的,而是混合并行。GPU之間,有大量的數(shù)據(jù)交換,也需要極大的帶寬。

如果網(wǎng)絡不給力,數(shù)據(jù)傳輸慢,GPU就要等待數(shù)據(jù),導致利用率下降。利用率下降,訓練時間就會增加,成本也會增加,用戶體驗會變差。

業(yè)界曾經(jīng)做過一個模型,計算出網(wǎng)絡帶寬吞吐能力、通信時延與GPU利用率之間的關系,如下圖所示:

807767f6-dfb7-11ed-bfe3-dac502259ad0.png ?

大家可以看到,網(wǎng)絡吞吐能力越強,GPU利用率越高;通信動態(tài)時延越大,GPU利用率越低。

一句話,沒有好網(wǎng)絡,別玩大模型。

怎樣的網(wǎng)絡,才能支撐AIGC的運行?

為了應對AI集群計算對網(wǎng)絡的調(diào)整,業(yè)界也是想了不少辦法的。 傳統(tǒng)的應對策略,主要是三種:Infiniband、RDMA、框式交換機。我們分別來簡單了解一下。

Infiniband組網(wǎng)

Infiniband(直譯為“無限帶寬”技術,縮寫為IB)組網(wǎng),搞數(shù)據(jù)通信的童鞋應該不會陌生。

這是目前組建高性能網(wǎng)絡的最佳途徑,帶寬極高,可以實現(xiàn)無擁塞和低時延。ChatGPT、GPT-4所使用的,據(jù)說就是Infiniband組網(wǎng)。

如果說Infiniband組網(wǎng)有什么缺點的話,那就是一個字——貴。相比傳統(tǒng)以太網(wǎng)的組網(wǎng),Infiniband組網(wǎng)的成本會貴好幾倍。這項技術比較封閉,業(yè)內(nèi)目前成熟的供應商只有1家,用戶沒什么選擇權。

RDMA網(wǎng)絡

RDMA的全稱是Remote Direct Memory Access(遠程直接數(shù)據(jù)存取)。它是一種新型的通信機制。在RDMA方案里,應用程序的數(shù)據(jù),不再經(jīng)過CPU和復雜的操作系統(tǒng),而是直接和網(wǎng)卡通信,不僅大幅提升了吞吐能力,也降低了時延。

80815a4a-dfb7-11ed-bfe3-dac502259ad0.png ?

RDMA最早提出時,是承載在InfiniBand網(wǎng)絡中的?,F(xiàn)在,RDMA逐漸移植到了以太網(wǎng)上。

目前,高性能網(wǎng)絡的主流組網(wǎng)方案,是基于RoCE v2(RDMA over Converged Ethernet,基于融合以太網(wǎng)的RDMA)協(xié)議來組建支持RDMA的網(wǎng)絡。

這種方案有兩個重要的搭配技術,分別是PFC(Priority Flow Control,基于優(yōu)先級的流量控制)和ECN(Explicit Congestion Notification,顯式擁塞通知)。它們是為了避免鏈路中的擁塞而產(chǎn)生的技術,但是,頻繁被觸發(fā),反而會導致發(fā)送端暫停發(fā)送,或降速發(fā)送,進而拉低通信帶寬。(下文還會提到它們)

框式交換機

國外有部分互聯(lián)網(wǎng)公司,寄希望于利用采用框式交換機(DNX芯片+VOQ技術),來滿足構建高性能網(wǎng)絡的需求。

DNX:broadcom(博通)的一個芯片系列 VOQ:Virtual Output Queue,虛擬輸出隊列 這種方案看似可行,但也面臨以下幾個挑戰(zhàn)。

首先,框式交換機的擴展能力一般。機框大小限制了最大端口數(shù),如想做更大規(guī)模的集群,需要橫向擴展多個機框。

其次,框式交換機的設備功耗大。機框內(nèi)線卡芯片、Fabric芯片、風扇等數(shù)量眾多,單設備的功耗超過2萬瓦,有的甚至3萬多瓦,對機柜供電能力要求太高。

第三,框式交換機的單設備端口數(shù)量多,故障域大。 基于以上原因,框式交換機設備只適合小規(guī)模部署AI計算集群。

到底什么是DDC

前面說的都是傳統(tǒng)方案。既然這些傳統(tǒng)方案不行,那當然就要想新辦法。

于是,一種名叫DDC的全新解決方案,閃亮登場了。

DDC,全名叫做Distributed Disaggregated Chassis(分布式分散式機箱)。

它是前面框式交換機的“分拆版”??蚴浇粨Q機的擴展能力不足,那么,我們干脆把它給拆開,將一個設備變成多個設備,不就OK了?

808c5d1e-dfb7-11ed-bfe3-dac502259ad0.png ?

框式設備,一般分為交換網(wǎng)板(背板)和業(yè)務線卡(板卡)兩部分,相互之間用連接器連接。

DDC方案,將交換網(wǎng)板變成了NCF設備,將業(yè)務線卡變成了NCP設備。連接器,則變成了光纖??蚴皆O備的管理功能,在DDC架構中,也變成了NCC。

NCF:Network Cloud Fabric(網(wǎng)絡云管理控制平面)

NCP:Network Cloud Packet Processing(網(wǎng)絡云數(shù)據(jù)包處理)

NCC:Network Cloud Controller(網(wǎng)絡云控制器

DDC從集中式變成分布式之后,擴展能力大大增強了。它可以根據(jù)AI集群的大小,靈活設計組網(wǎng)規(guī)模。

我們來舉兩個例子(單POD組網(wǎng)和多POD組網(wǎng))。

單POD組網(wǎng)中,采用96臺NCP作為接入,其中NCP下行共18個400G接口,負責連接AI計算集群的網(wǎng)卡。上行共40個200G接口,最大可以連接40臺NCF,NCF提供96個200G接口,該規(guī)模上下行帶寬為超速比1.1:1。整個POD可支撐1728個400G網(wǎng)絡接口,按照一臺服務器配8塊GPU來計算,可支撐216臺AI計算服務器。

8099d048-dfb7-11ed-bfe3-dac502259ad0.png

單POD組網(wǎng)

多級POD組網(wǎng),規(guī)??梢宰兊酶?。

在多級POD組網(wǎng)中,NCF設備要犧牲一半的SerDes,用于連接第二級的NCF。所以,此時單POD采用48臺NCP作為接入,下行共18個400G接口。

80a5f648-dfb7-11ed-bfe3-dac502259ad0.png

多POD組網(wǎng)

單個POD內(nèi),可以支撐864個400G接口(48×18)。通過橫向增加POD(8個),實現(xiàn)規(guī)模擴容,整體最大可支撐6912個400G網(wǎng)絡端口(864×8)。

NCP上行40個200G,接POD內(nèi)40臺NCF。POD內(nèi)NCF采用48個200G接口,48個200G接口分為12個一組上行到第二級的NCF。第二級NCF采用40個平面(Plane),每個平面4臺NCF-P,分別對應在POD內(nèi)的40臺NCF。

整個網(wǎng)絡的POD內(nèi)實現(xiàn)了1.1:1的超速比(北向帶寬大于南向帶寬),而在POD和二級NCF之間實現(xiàn)了1:1的收斂比(南向帶寬/北向帶寬)。

80b561a0-dfb7-11ed-bfe3-dac502259ad0.png ? ?

DDC的技術特點

站在規(guī)模和帶寬吞吐的角度,DDC已經(jīng)可以滿足AI大模型訓練對于網(wǎng)絡的需求。

然而,網(wǎng)絡的運作過程是復雜的,DDC還需要在時延對抗、負載均衡性、管理效率等方面有所提升。

基于VOQ+Cell的轉發(fā)機制,對抗丟包

網(wǎng)絡在工作的過程中,可能會出現(xiàn)突發(fā)流量,造成接收端來不及處理,引起擁塞和丟包。

為了應對這種情況,DDC采取了基于VOQ+Cell的轉發(fā)機制。

80c41024-dfb7-11ed-bfe3-dac502259ad0.png ?

發(fā)送端從網(wǎng)絡接收到數(shù)據(jù)包之后,會分類到VOQ(虛擬輸出隊列)中存儲。

在發(fā)送數(shù)據(jù)包前,NCP會先發(fā)送Credit報文,確定接收端是否有足夠的緩存空間處理這些報文。

如果接收端OK,則將數(shù)據(jù)包分片成Cells(數(shù)據(jù)包的小切片),并且動態(tài)負載均衡到中間的Fabric節(jié)點(NCF)。

如果接收端暫時沒能力處理報文,報文會在發(fā)送端的VOQ中暫存,并不會直接轉發(fā)到接收端。

在接收端,這些Cells會進行重組和存儲,進而轉發(fā)到網(wǎng)絡中。

切片后的Cells,將采用輪詢的機制發(fā)送。它能夠充分利用到每一條上行鏈路,確保所有上行鏈路的傳輸數(shù)據(jù)量近似相等。

80d122fa-dfb7-11ed-bfe3-dac502259ad0.png

輪詢機制

這樣的機制,充分利用了緩存,可以大幅度減少丟包,甚至不會產(chǎn)生丟包情況。數(shù)據(jù)重傳減少了,整體通信時延更穩(wěn)定更低,從而可以提高帶寬利用率,進而提升業(yè)務吞吐效率。

PFC單跳部署,避免死鎖

前面我們提到,RDMA無損網(wǎng)絡中引入了PFC(基于優(yōu)先級的流量控制)技術,進行流量控制。

簡單來說,PFC就是在一條以太網(wǎng)鏈路上創(chuàng)建 8 個虛擬通道,并為每條虛擬通道指定相應優(yōu)先級,允許單獨暫停和重啟其中任意一條虛擬通道,同時允許其它虛擬通道的流量無中斷通過。

80e5bbc0-dfb7-11ed-bfe3-dac502259ad0.png ?

PFC可以實現(xiàn)基于隊列的流量控制,但是,它也存在一個問題,那就是死鎖。

所謂死鎖,就是多個交換機之間,因為環(huán)路等原因,同時出現(xiàn)了擁塞(各自端口緩存消耗超過了閾值),又都在等待對方釋放資源,從而導致的“僵持狀態(tài)”(所有交換機的數(shù)據(jù)流永久堵塞)。

DDC的組網(wǎng)下,就不存在PFC的死鎖問題。因為,站在整個網(wǎng)絡的角度,所有NCP和NCF可以看成一臺設備。對于AI服務器來說,整個DDC,就是一個交換機,不存在多級交換機。所以,就不存在死鎖。

80edef7a-dfb7-11ed-bfe3-dac502259ad0.png

另外,根據(jù)DDC的數(shù)據(jù)轉發(fā)機制,可在接口處部署ECN(顯式擁塞通知)。

ECN機制下,網(wǎng)絡設備一旦檢測到RoCE v2流量出現(xiàn)了擁塞(內(nèi)部的Credit和緩存機制無法支撐突發(fā)流量),就會向服務器端發(fā)送CNP(Congestion Notification Packets,擁塞通知報文),要求降速。

分布式OS,提升可靠性

最后再看看管理控制平面。

前面我們提到,在DDC架構中,框式設備的管理功能變成了NCC(網(wǎng)絡云控制器)。NCC非常重要,如果采用單點式的方式,萬一出現(xiàn)問題,就會導致整網(wǎng)故障。

為了避免出現(xiàn)這樣的問題,DDC可以取消NCC的集中控制面,構建分布式OS(操作系統(tǒng))。

基于分布式OS,可以基于SDN運維控制器,通過標準接口(Netconf、GRPC等)配置管理設備。這樣的話,每臺NCP和NCF獨立管理,有獨立的控制面和管理面,大大提升了系統(tǒng)的可靠性,也更加便于部署。

DDC的商用進展

綜上所述,相對傳統(tǒng)組網(wǎng),DDC在組網(wǎng)規(guī)模、擴展能力、可靠性、成本、部署速度方面,擁有顯著優(yōu)勢。它是網(wǎng)絡技術升級的產(chǎn)物,提供了一種顛覆原有網(wǎng)絡架構的思路,可以實現(xiàn)網(wǎng)絡硬件的解耦、網(wǎng)絡架構的統(tǒng)一、轉發(fā)容量的擴展。

業(yè)界曾經(jīng)使用OpenMPI測試套件進行過框式設備和傳統(tǒng)組網(wǎng)設備的對比模擬測試。測試結論是:在All-to-All場景下,相較于傳統(tǒng)組網(wǎng),框式設備的帶寬利用率提升了約20%(對應GPU利用率提升8%左右)。

正是因為DDC的顯著能力優(yōu)勢,現(xiàn)在這項技術已經(jīng)成為行業(yè)的重點發(fā)展方向。例如銳捷網(wǎng)絡,他們就率先推出了兩款可交付的DDC產(chǎn)品,分別是400G NCP交換機——RG-S6930-18QC40F1,以及200G NCF交換機——RG-X56-96F1。

RG-S6930-18QC40F1交換機的高度為2U,提供18個400G的面板口,40個200G的Fabric內(nèi)聯(lián)口,4個風扇和2個電源。

RG-X56-96F1交換機的高度為4U,提供96個200G的Fabric內(nèi)聯(lián)口,8個風扇和4個電源。

據(jù)悉,銳捷網(wǎng)絡會繼續(xù)研發(fā),持續(xù)推出更多適合智算中心網(wǎng)絡場景的產(chǎn)品。

最后的話

AIGC的崛起,已經(jīng)掀起了互聯(lián)網(wǎng)行業(yè)的新一輪技術革命。

我們可以看到,越來越多的企業(yè),正在加入這個賽道,參與角逐。這意味著,網(wǎng)絡基礎設施的升級,迫在眉睫。

DDC的出現(xiàn),將大幅提升網(wǎng)絡基礎設施的能力,不僅可以有效應對AI革命對網(wǎng)絡基礎設施提出的挑戰(zhàn),更將助力整個社會的數(shù)字化轉型,加速人類數(shù)智時代的全面到來。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4789

    瀏覽量

    129439
  • 人工智能
    +關注

    關注

    1796

    文章

    47811

    瀏覽量

    240593
  • OpenAI
    +關注

    關注

    9

    文章

    1163

    瀏覽量

    6755
  • ChatGPT
    +關注

    關注

    29

    文章

    1571

    瀏覽量

    8118
  • AIGC
    +關注

    關注

    1

    文章

    368

    瀏覽量

    1621

原文標題:到底什么樣的網(wǎng)絡,才能帶得動AIGC?

文章出處:【微信號:鮮棗課堂,微信公眾號:鮮棗課堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    中心的如何衡量?

    作為當下科技發(fā)展的重要基礎設施,其的衡量關乎其能否高效支撐人工智能、大數(shù)據(jù)分析等智能應用的運行。以下是對智中心算衡量的詳細闡述:一、
    的頭像 發(fā)表于 01-16 14:03 ?555次閱讀
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    科技云報到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?

    科技云報到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?
    的頭像 發(fā)表于 01-16 10:24 ?129次閱讀

    AIGC入門及鴻蒙入門

    人工智能生成內(nèi)容(AIGC)和鴻蒙系統(tǒng)是當前科技領域的兩個熱門話題。以下是對它們的入門指南: AIGC入門 1. 基礎概念: AIGC,全稱Artificial Intelligence
    發(fā)表于 01-13 10:32

    調(diào)度的基礎知識

    的調(diào)度,調(diào)度的應該是上層的業(yè)務軟件。 經(jīng)過跟行業(yè)眾多朋友的交流和思考后,我逐漸能夠理解“調(diào)度”所表達的意思。從業(yè)務的視角,客戶關心的是業(yè)務本身,需要
    的頭像 發(fā)表于 11-27 17:13 ?332次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>調(diào)度的基礎知識

    【一文看懂】大白話解釋“GPU與GPU

    隨著大模型的興起,“GPU”這個詞正頻繁出現(xiàn)在人工智能、游戲、圖形設計等工作場景中,什么是GPU,它與CPU的區(qū)別是什么?以及到底什么是GPU
    的頭像 發(fā)表于 10-29 08:05 ?1041次閱讀
    【一文看懂】大白話解釋“GPU與GPU<b class='flag-5'>算</b><b class='flag-5'>力</b>”

    OCTC發(fā)布&quot;工廠&quot;!力促智中心高效規(guī)劃建設投運

    創(chuàng)新提出面向未來數(shù)據(jù)中心的"工廠"模式,核心是以規(guī)(劃)、建(設)、運(營)一體化的交鑰匙工程,實現(xiàn)智中心快速投運、綠色低碳,在當前AIGC
    的頭像 發(fā)表于 10-11 09:10 ?568次閱讀
    OCTC發(fā)布&quot;<b class='flag-5'>算</b><b class='flag-5'>力</b>工廠&quot;!力促智<b class='flag-5'>算</b>中心高效規(guī)劃建設投運

    中國大會召開,業(yè)界首個高質量評估體系發(fā)布

    首次完整地構建了人工智能時代高質量的理論體系,并探索性提出業(yè)界首個 "五位一體"的高質量評估體系。 發(fā)布現(xiàn)場 在當前由大模型和AIGC
    的頭像 發(fā)表于 09-28 16:50 ?302次閱讀
    中國<b class='flag-5'>算</b><b class='flag-5'>力</b>大會召開,業(yè)界首個<b class='flag-5'>算</b><b class='flag-5'>力</b>高質量評估體系發(fā)布

    大模型時代的需求

    現(xiàn)在AI已進入大模型時代,各企業(yè)都爭相部署大模型,但如何保證大模型的,以及相關的穩(wěn)定性和性能,是一個極為重要的問題,帶著這個極為重要的問題,我需要在此書中找到答案。
    發(fā)表于 08-20 09:04

    揭秘芯片:為何它如此關鍵?

    在數(shù)字化時代,芯片作為電子設備的核心組件,其性能直接關系到設備的運行速度和處理能力。而芯片的,即其計算能力,更是衡量芯片性能的重要指標。那么,芯片的
    的頭像 發(fā)表于 05-09 08:27 ?1313次閱讀
    揭秘芯片<b class='flag-5'>算</b><b class='flag-5'>力</b>:為何它如此關鍵?

    力系列基礎篇——101:從零開始了解

    相信大家已經(jīng)感受到,我們正處在一個人工智能時代。如果要問在人工智能時代最重要的是什么?那必須是:!
    的頭像 發(fā)表于 04-24 08:05 ?1002次閱讀
    <b class='flag-5'>算</b>力系列基礎篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>101:從零開始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    AIGC需求革命,邊緣計算將不再“邊緣”

    AI瓶頸下邊緣計算崛起
    的頭像 發(fā)表于 04-22 14:51 ?416次閱讀

    到底什么是?的價值在哪里?

    的字面意思,大家都懂,就是計算能力(ComputingPower)。所謂“計算”,我們可以有多種定義。狹義的定義,是對數(shù)學問題進行運算的過程,例如完成“1+1=?”的過程,或者對“哥德巴赫猜想
    的頭像 發(fā)表于 03-13 08:26 ?1940次閱讀
    <b class='flag-5'>到底</b>什么是<b class='flag-5'>算</b><b class='flag-5'>力</b>?<b class='flag-5'>算</b><b class='flag-5'>力</b>的價值在哪里?

    能RADXA微服務器試用體驗】Radxa Fogwise 1684X Mini 規(guī)格

    通過網(wǎng)絡可以了解到,能RADXA微服務器的具體規(guī)格: 處理器:BM1684X :高達32Tops INT8峰值 內(nèi)存:16GB L
    發(fā)表于 02-28 11:21

    芯片:未來科技的加速器?

    在數(shù)字化時代,芯片作為電子設備的核心組件,其性能直接關系到設備的運行速度和處理能力。而芯片的,即其計算能力,更是衡量芯片性能的重要指標。那么,芯片的
    的頭像 發(fā)表于 02-27 09:42 ?1009次閱讀
    高<b class='flag-5'>算</b><b class='flag-5'>力</b>芯片:未來科技的加速器?