欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

AI大模型時代需要什么樣的網(wǎng)絡?

jf_WZTOguxH ? 來源:AI前線 ? 2023-07-14 14:46 ? 次閱讀

ChatGPT 的爆火掀起了 AI 大模型狂飆熱潮,隨著國內(nèi)外原來越多的 AI 大模型應用落地,AI 算力需求快速增加。在算力的背后,網(wǎng)絡起到至關重要的作用——網(wǎng)絡性能決定 GPU 集群算力,網(wǎng)絡可用性決定 GPU 集群算力穩(wěn)定性。因此,高性能與高可用的網(wǎng)絡對 AI 大模型的構建尤為重要。

6 月 26 日,騰訊云舉辦《面向 AI 大模型的高性能網(wǎng)絡》溝通會,首次對外完整披露自研星脈高性能計算網(wǎng)絡,并梳理了騰訊的網(wǎng)絡架構演進歷程。會后,騰訊云副總裁王亞晨、騰訊云數(shù)據(jù)中心網(wǎng)絡總監(jiān)李翔接受了 InfoQ 在內(nèi)的媒體采訪,進一步分享面向 AI 大模型的高性能網(wǎng)絡是如何構建的。

據(jù)了解,星脈網(wǎng)絡具備業(yè)界最高的 3.2T 通信帶寬,可提升 40% 的 GPU 利用率、節(jié)省 30%~60% 的模型訓練成本,進而能為 AI 大模型帶來 10 倍通信性能提升?;隍v訊云新一代算力集群,可支持 10 萬卡的超大計算規(guī)模。

王亞晨表示:“星脈網(wǎng)絡是為大模型而生。它所提供的大帶寬、高利用率以及零丟包的高性能網(wǎng)絡服務,將助力算力瓶頸的突破,進一步釋放 AI 潛能,全面提升企業(yè)大模型的訓練效率,在云上加速大模型技術的迭代升級和落地應用?!?/p>

AI 大模型時代需要什么樣的網(wǎng)絡? 大帶寬、高利用率、無損

AI 大模型訓練需要海量算力的支撐,而這些算力無法由單臺服務器提供,需要由大量的服務器作為節(jié)點,通過高速網(wǎng)絡組成集群,服務器之間互聯(lián)互通,相互協(xié)作完成任務。有數(shù)據(jù)顯示,GPT-3.5 的訓練使用了微軟專門建設的 AI 計算系統(tǒng),由 1 萬個 V100 GPU 組成的高性能網(wǎng)絡集群,總算力消耗約 3640 PF-days (假如每秒計算一千萬億次,需要計算 3640 天)。

如此大規(guī)模、長時間的 GPU 集群訓練任務,僅僅是單次計算迭代內(nèi)梯度同步需要的通信量就達到了百 GB 量級,此外還有各種并行模式、加速框架引入的通信需求。如果網(wǎng)絡的帶寬不夠大、延時長,不僅會讓算力邊際遞減,還增加了大模型訓練的時間成本。因此,大帶寬、高利用率、無損的高性能網(wǎng)絡至關重要。

王亞晨表示,大模型運算實際上是一個通信過程,一部分 GPU 進行運算,運算完成后還需要與其他 GPU 之間交互數(shù)據(jù)。通信帶寬越大,數(shù)據(jù)傳輸越快,GPU 利用率越高,等待時間就會越少。此外,大模型訓練對時延和丟包要求也比較高?!凹僭O有很多 GPU 運算同一個任務,因為有木桶效應存在,一定要等花費時間最長的 GPU 運算完之后,才能完成一個運算任務。AI 對于時延的敏感度比 CPU 高很多,所以一定要把木桶效應消除,把時延控制在非常短的水平,讓 GPU 的效率更高。此外,和帶寬、時延相比,丟包對 GPU 效率的影響更加明顯,一旦丟包就需要重傳,重新進行 GPU 的訓練。”

王亞晨認為,大集群不等于大算力。集群訓練會引入額外的通信開銷,導致 N 個 GPU 算力達不到單個 GPU 算力的 N 倍。這也意味著,一味地增加 GPU 卡或計算節(jié)點,并不能線性地提升算力收益?!癎PU 利用率的合理水平大概是在 60% 左右?!蓖鮼喅空f道。

要想通過集群發(fā)揮出更強的算力,計算節(jié)點需協(xié)同工作并共享計算結果,需要優(yōu)化服務器之間的通信、拓撲、模型并行、流水并行等底層問題。高速、低延遲的網(wǎng)絡連接可以縮短兩個節(jié)點之間同步梯度信息的時間,使得整個訓練過程變得更快。同時,降低不必要的計算資源消耗,使計算節(jié)點能夠專注于運行訓練任務。

AI 大模型驅動 DCN 網(wǎng)絡代際演進

據(jù)介紹,騰訊網(wǎng)絡主要提供的功能是“連接”,一是連接用戶到機器的流量,二是連接機器到機器的流量。目前,騰訊的網(wǎng)絡架構主要分三大部分:

ECN 架構,表示不同類型的客戶通過多種網(wǎng)絡方式接入云上虛擬網(wǎng)絡,這一塊主要是外聯(lián)架構,主要包括終端用戶、企業(yè)用戶、物聯(lián)網(wǎng)用戶分別通過運營商專線、企業(yè)專線、邊緣網(wǎng)關接入騰訊數(shù)據(jù)中心。

DCI 網(wǎng)絡,主要是數(shù)據(jù)中心之間的互聯(lián),實現(xiàn)一個城市多數(shù)據(jù)中心或者多個城市的數(shù)據(jù)中心進行互聯(lián),底層會用到光纖傳輸。

DCN,主要是數(shù)據(jù)中心的網(wǎng)絡,這部分的任務是實現(xiàn)數(shù)據(jù)中心里面超過 10 萬或者幾十萬服務器進行無阻塞的連接。

騰訊通過 ECN、DCI、DCN 等網(wǎng)絡,把用戶和業(yè)務服務器連接起來,并且把數(shù)百萬臺服務器連接起來。

王亞晨表示,AI 大模型的發(fā)展驅動了 DCN 網(wǎng)絡代際演進。

在移動互聯(lián)網(wǎng)時代,騰訊的業(yè)務以 to C 為主,數(shù)據(jù)中心網(wǎng)絡服務器規(guī)模并不大,當時主要解決的是數(shù)據(jù)中心、服務器之間的互聯(lián),以及運營商之間的互聯(lián)。所以那時數(shù)據(jù)中心流量特征很明顯,基本都是外部訪問的流量,對網(wǎng)絡的時延和丟包要求也不高。

隨著移動互聯(lián)網(wǎng)以及云的快速發(fā)展,數(shù)據(jù)中心網(wǎng)絡流量模型發(fā)生了變化,除了有從運營商訪問過來的南北向流量,也有數(shù)據(jù)中心之間互訪的東西向流量,對網(wǎng)絡的時延要求也是從前的 10 倍。為了降低設備故障對網(wǎng)絡的影響,騰訊采用多平面設計,并引入了控制器的概念,把轉發(fā)面和控制面進行分離。用定制的設備、多平面以及 SDN 的路由器控制,將故障的解決時間控制在一分鐘之內(nèi)。

在 AI 大模型時代,數(shù)據(jù)中心網(wǎng)絡流量模型進一步發(fā)生變化?!暗搅?AI 大模型時代,我們發(fā)現(xiàn)東西向流量比以前大了很多,尤其是 AI 在訓練的時候,幾乎沒有什么南北向流量。我們預計如果大模型逐漸成熟,明年大模型數(shù)據(jù)中心流量南北向流量可能會有所增長,因為推理需求會上來。但就現(xiàn)在而言,東西向流量需求非常大,我們 DCN 網(wǎng)絡設計會把南北向流量和東西向流量分開,以前是耦合在一張網(wǎng)絡里,基礎網(wǎng)絡都是一套交換機,只是分不同層。但到了 GPU 時代,我們需要專門為 GPU 構建一層高性能網(wǎng)絡。”王亞晨說道。

基于此,騰訊打造出了高性能網(wǎng)絡星脈:具備業(yè)界最高的 3.2T 通信帶寬,能提升 40% 的 GPU 利用率,節(jié)省 30%~60% 的模型訓練成本,為 AI 大模型帶來 10 倍通信性能提升?;隍v訊云新一代算力集群 HCC,可支持 10 萬卡的超大計算規(guī)模。

高性能網(wǎng)絡星脈是如何設計的?

據(jù)李翔介紹,騰訊網(wǎng)絡大概由大大小小幾十個組件組成,數(shù)據(jù)中心網(wǎng)絡是其中最大、歷史最悠久的一個。在 PC 和移動互聯(lián)網(wǎng)時代,數(shù)據(jù)中心網(wǎng)絡主要解決的是規(guī)模問題。而進入算力時代,業(yè)務對算力網(wǎng)絡有了更高的要求。

“舉個例子,如果說過去兩個階段數(shù)據(jù)中心網(wǎng)絡是‘村村通’,解決大規(guī)模部署和廣覆蓋的問題,那么在算力時代,數(shù)據(jù)中心網(wǎng)絡就是全自動化、無擁塞的高速公路?!崩钕璞硎荆珹I 大模型對互聯(lián)有比較高的要求,幾千張 GPU 協(xié)同計算,如果出現(xiàn)任何一個丟包阻塞,那么全部都要降速,這種降速 1 分鐘就有幾十萬的損失。

基于此,騰訊云開始搭建算力集群。4 月 14 日,騰訊云正式發(fā)布面向大模型訓練的新一代 HCC(High-Performance Computing Cluster)高性能計算集群。網(wǎng)絡層面,計算節(jié)點間存在海量的數(shù)據(jù)交互需求,隨著集群規(guī)模擴大,通信性能會直接影響訓練效率。騰訊自研的星脈網(wǎng)絡,為新一代集群帶來了業(yè)界最高的 3.2T 的超高通信帶寬。

據(jù)介紹,騰訊對大模型集群網(wǎng)絡做了以下幾大優(yōu)化:

(1)采用高性能 RDMA 網(wǎng)絡

RDMA(GPU 之間直接通信),是一種高性能、低延遲的網(wǎng)絡通信技術,主要用于數(shù)據(jù)中心高性能計算,允許計算節(jié)點之間直接通過 GPU 進行數(shù)據(jù)傳輸,無需操作系統(tǒng)內(nèi)核和 CPU 的參與。這種數(shù)據(jù)傳輸方法可以顯著提高吞吐量并降低延遲,從而使計算節(jié)點之間的通信更加高效。

過往的數(shù)據(jù)中心 VPC 網(wǎng)絡,在源服務器與目標服務器之間傳輸時,需要經(jīng)過多層協(xié)議棧的處理,過往數(shù)據(jù)每一層都會產(chǎn)生延遲,而騰訊自研的星脈 RDMA 網(wǎng)絡,可以讓 GPU 之間直接進行數(shù)據(jù)通信。

打個比方,就像之前貨物在運輸途中需要多次分揀和打包,現(xiàn)在通過高速傳送帶、不經(jīng)過中間環(huán)節(jié),貨物直接送到目的地

同時,由于星脈 RDMA 直接在 GPU 中傳輸數(shù)據(jù),CPU 資源得以節(jié)省,從而提高計算節(jié)點的整體性能和效率。

(2)自研網(wǎng)絡協(xié)議(TiTa)

在網(wǎng)絡協(xié)議上,騰訊云通過自研 TiTa 協(xié)議,讓數(shù)據(jù)交換不擁塞、時延低,使星脈網(wǎng)絡可以實現(xiàn) 90% 負載 0 丟包。

網(wǎng)絡協(xié)議是在計算節(jié)點之間傳輸數(shù)據(jù)的規(guī)則和標準,主要關注數(shù)據(jù)傳輸?shù)目刂品绞?,能改善網(wǎng)絡連接性能、通信效率和延遲問題。

為了滿足大型模型訓練中的超低時延、無損和超大帶寬要求,傳統(tǒng)的網(wǎng)絡協(xié)議由于其固有的設計與性能限制,無法滿足這些需求,還需要對“交通規(guī)則”進行優(yōu)化。

星脈網(wǎng)絡采用的自研端網(wǎng)協(xié)同協(xié)議 TiTa,可提供更高的網(wǎng)絡通信性能,特別是在滿足大規(guī)模參數(shù)模型訓練的需求方面。TiTa 協(xié)議內(nèi)嵌擁塞控制算法,以實時監(jiān)控網(wǎng)絡狀態(tài)并進行通信優(yōu)化,使得數(shù)據(jù)傳輸更加流暢且延遲降低。

42297ab4-2208-11ee-962d-dac502259ad0.png

(3)定制化高性能集合通信庫 TCCL

通信庫在訓練過程中負責管理計算節(jié)點間的數(shù)據(jù)通信。面對定制設計的高性能組網(wǎng)架構,業(yè)界開源的 GPU 集合通信庫(比如 NCCL)并不能將網(wǎng)絡的通信性能發(fā)揮到極致,從而影響大模型訓練的集群效率。

為解決星脈網(wǎng)絡的適配問題,騰訊云還為星脈定制了高性能集合通信庫 TCCL(Tencent Collective Communication Library),相對業(yè)界開源集合通信庫,可以提升 40% 左右的通信性能。

并在網(wǎng)卡設備管理、全局網(wǎng)絡路由、拓撲感知親和性調(diào)度、網(wǎng)絡故障自動告警等方面融入了定制設計的解決方案。

(4)多軌道網(wǎng)絡架構

星脈網(wǎng)絡對通信流量做了基于多軌道的流量親和性規(guī)劃,使得集群通信效率達 80% 以上。

多軌道流量聚合架構將不同服務器上位于相同位置的網(wǎng)卡,都歸屬于同一 ToR switch;不同位置的網(wǎng)卡,歸屬于不同的 ToR switch。由于每個服務器有 8 張計算平面網(wǎng)卡,這樣整個計算網(wǎng)絡平面從物理上劃分為 8 個獨立并行的軌道平面。

在多軌道網(wǎng)絡架構中,AI 訓練產(chǎn)生的通信需求(AllReduce、All-to-All 等)可以用多個軌道并行傳輸加速,并且大部分流量都聚合在軌道內(nèi)傳輸(只經(jīng)過一級 ToR switch),小部分流量才會跨軌道傳輸(需要經(jīng)過二級 switch),大幅減輕了大規(guī)模下的網(wǎng)絡通信壓力。

(5)異構網(wǎng)絡自適應通信

大規(guī)模 AI 訓練集群架構中,GPU 之間的通信實際上由多種形式的網(wǎng)絡來承載的:機間網(wǎng)絡(網(wǎng)卡 + 交換機)與機內(nèi)網(wǎng)絡(NVLink/NVSwitch 網(wǎng)絡、PCIe 總線網(wǎng)絡)。

星脈網(wǎng)絡將機間、機內(nèi)兩種網(wǎng)絡同時利用起來,達成異構網(wǎng)絡之間的聯(lián)合通信優(yōu)化,使大規(guī)模 All-to-All 通信在業(yè)務典型 message size 下的傳輸性能提升達 30%。

4258957e-2208-11ee-962d-dac502259ad0.png

(6)自研全棧網(wǎng)絡運營系統(tǒng)

為確保星脈網(wǎng)絡的高可用性,騰訊云還自研了端到端全棧網(wǎng)絡運營系統(tǒng),先是實現(xiàn)了端網(wǎng)部署一體化以及一鍵故障定位,提升高性能網(wǎng)絡的易用性,進而通過精細化監(jiān)控與自愈手段,提升可用性,為極致性能的星脈網(wǎng)絡提供全方位運營保障。

具體應用成效方面,大模型訓練系統(tǒng)的整體部署時間可以從 19 天縮減至 4.5 天,保證基礎配置 100% 準確,并讓系統(tǒng)故障的排查時間由天級降低至每分鐘級,故障的自愈時間縮短到秒級。

寫在最后

AI 大模型時代給網(wǎng)絡帶來了新的機遇與挑戰(zhàn)。隨著 GPU 算力的持續(xù)提升,GPU 集群網(wǎng)絡架構也需要不斷迭代升級。

王亞晨表示,未來,星脈網(wǎng)絡將圍繞算力網(wǎng)卡、高效轉發(fā)、在網(wǎng)計算、高速互聯(lián)四大方向持續(xù)迭代?!斑@四個迭代方向也與我們面臨的痛點相關,目前我們重點發(fā)力算力網(wǎng)卡和高效轉發(fā)這兩大方向。其中,算力網(wǎng)卡需要與交換機做配合,實現(xiàn)更優(yōu)的、類似主動預測控制的機制,讓網(wǎng)絡更不容易擁塞;高效轉發(fā)方面,之后可能會變成定長包的轉發(fā)機制,這樣也能保證整體效率?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4787

    瀏覽量

    129415
  • 服務器
    +關注

    關注

    12

    文章

    9334

    瀏覽量

    86133
  • 大模型
    +關注

    關注

    2

    文章

    2602

    瀏覽量

    3214
  • AI大模型
    +關注

    關注

    0

    文章

    322

    瀏覽量

    355

原文標題:AI 大模型狂飆的背后:高性能計算網(wǎng)絡是如何“織”成的?

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    訓練AI模型需要什么樣的gpu

    訓練AI模型需要選擇具有強大計算能力、足夠顯存、高效帶寬、良好散熱和能效比以及良好兼容性和擴展性的GPU。在選擇時,需要根據(jù)具體需求進行權衡和選擇。
    的頭像 發(fā)表于 12-03 10:10 ?221次閱讀

    智算中心網(wǎng)絡交換機需要什么樣的緩存架構

    ?在交換機上,緩存就是數(shù)據(jù)交換的緩沖區(qū),被交換機用來協(xié)調(diào)不同網(wǎng)絡設備之間的速度匹配問題,突發(fā)數(shù)據(jù)可以存儲在緩沖區(qū)內(nèi),直到被慢速設備處理為止。數(shù)據(jù)中心交換機應用在HPC/AI模型訓練、分布式存儲等
    的頭像 發(fā)表于 11-14 16:53 ?563次閱讀
    智算中心<b class='flag-5'>網(wǎng)絡</b>交換機<b class='flag-5'>需要什么樣</b>的緩存架構

    名單公布!【書籍評測活動NO.49】大模型啟示錄:一本AI應用百科全書

    一次大模型變革中,完全不缺態(tài)度,只缺認知與落地的經(jīng)驗。 在過去的兩年中,我們看到了全球太多的巨頭和普通中小企業(yè),進入All in AI的投資周期。有的已經(jīng)開始落地到具體的生產(chǎn)流程,例如企業(yè)內(nèi)部客服、優(yōu)化
    發(fā)表于 10-28 15:34

    AI模型與深度學習的關系

    AI模型與深度學習之間存在著密不可分的關系,它們互為促進,相輔相成。以下是對兩者關系的介紹: 一、深度學習是AI模型的基礎 技術支撐 :深度學習是一種機器學習的方法,通過多層神經(jīng)
    的頭像 發(fā)表于 10-23 15:25 ?1386次閱讀

    ai模型訓練需要什么配置

    AI模型訓練是一個復雜且資源密集的過程,它依賴于高性能的硬件配置來確保訓練的效率和效果。 一、處理器(CPU) CPU是計算機的核心部件,負責處理各種計算任務。在AI模型訓練中,CPU
    的頭像 發(fā)表于 10-17 18:10 ?2065次閱讀

    【「大模型時代的基礎架構」閱讀體驗】+ 未知領域的感受

    國慶前就收到《大模型時代的基礎架構》一書,感謝電子發(fā)燒友論壇。歡度國慶之余,今天才靜下心來體驗此書,書不厚,200余頁,彩色圖例,印刷精美! 當初申請此書,主要是看到副標題“大模型算力中心建設指南
    發(fā)表于 10-08 10:40

    模型時代的算力需求

    現(xiàn)在AI已進入大模型時代,各企業(yè)都爭相部署大模型,但如何保證大模型的算力,以及相關的穩(wěn)定性和性能,是一個極為重要的問題,帶著這個極為重要的問
    發(fā)表于 08-20 09:04

    ai模型ai框架的關系是什么

    AI模型AI框架是人工智能領域中兩個重要的概念,它們之間的關系密切且復雜。 AI模型的定義和特點
    的頭像 發(fā)表于 07-16 10:07 ?5.1w次閱讀

    AI智能眼鏡都需要什么芯片

    國內(nèi)的廠家又該如何跟上這一潮流趨勢?那咱們國內(nèi)廠商的AI智能眼鏡究竟需要什么樣的芯片來支撐它的運行呢?如果你對以上問題感興趣的話就來聽我嘮嘮吧。接下來介紹設計AI
    的頭像 發(fā)表于 07-11 08:17 ?1627次閱讀
    <b class='flag-5'>AI</b>智能眼鏡都<b class='flag-5'>需要什么</b>芯片

    ai開發(fā)需要什么配置

    AI開發(fā)是一個復雜的過程,涉及到多個方面的配置。 硬件配置 AI開發(fā)需要高性能的硬件支持,主要包括以下幾個方面: 1.1 CPU AI開發(fā)需要
    的頭像 發(fā)表于 07-02 09:54 ?1582次閱讀

    科技云報道:“老三”不管用了,網(wǎng)絡安全要靠啥?

    時代需要新方法
    的頭像 發(fā)表于 04-18 16:01 ?315次閱讀
    科技云報道:“老三<b class='flag-5'>樣</b>”不管用了,<b class='flag-5'>網(wǎng)絡</b>安全要靠啥?

    生成式 AI 進入模型驅動時代

    人意識到,需要針對特定的應用對模型進行更廣泛的訓練。因此,只要說到“生成式AI”這個詞,我們很自然地就會聯(lián)想到要使用經(jīng)過訓練的模型。但是,生成式AI
    的頭像 發(fā)表于 04-13 08:12 ?590次閱讀
    生成式 <b class='flag-5'>AI</b> 進入<b class='flag-5'>模型</b>驅動<b class='flag-5'>時代</b>

    解鎖AI時代的利器——訊飛AI鼠標AM30助你在AI時代脫穎

    AI鼠標AM30就是你在AI時代的利器,它憑借其出色的功能和特點,助你在激烈的競爭中脫穎而出。 訊飛AI鼠標AM30搭載了星火認知大模型
    的頭像 發(fā)表于 03-25 13:37 ?639次閱讀
    解鎖<b class='flag-5'>AI</b><b class='flag-5'>時代</b>的利器——訊飛<b class='flag-5'>AI</b>鼠標AM30助你在<b class='flag-5'>AI</b><b class='flag-5'>時代</b>脫穎

    AI時代怎么不被淘汰?訊飛AI鼠標助力你在AI時代成長

    AI時代怎么不被淘汰?訊飛AI鼠標助力你在AI時代成長 隨著人工智能的發(fā)展,
    的頭像 發(fā)表于 03-23 11:41 ?771次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>時代</b>怎么<b class='flag-5'>樣</b>不被淘汰?訊飛<b class='flag-5'>AI</b>鼠標助力你在<b class='flag-5'>AI</b><b class='flag-5'>時代</b>成長

    防止AI模型被黑客病毒入侵控制(原創(chuàng))聆思大模型AI開發(fā)套件評測4

    在訓練一只聰明的AI小動物解決實際問題,通過構建神經(jīng)網(wǎng)絡模型并進行推理,讓電腦也能像人一根據(jù)輸入信息做出決策。 在上述示例中,我創(chuàng)建了一個簡單的深度學習
    發(fā)表于 03-19 11:18