亚洲精品成人一区二区,亚洲av成人一区二区三区高清

隨著大模型的興起，為了應對新的AI應用，AI或算力數(shù)據(jù)中心建設如火如荼。

無論是作為聊天機器人，推薦系統(tǒng)還是在各個領域中實現(xiàn)流程自動化，比如無人駕駛、人臉識別；AI技術都有望提升并加速眾多企業(yè)和公共設施的運營，甚至改變人們的生活方式。

然而，AI網(wǎng)絡或算力網(wǎng)絡作為一個概念，常常讓人感到困惑且被誤解，AI和算力需要網(wǎng)絡么？

在本文中，我們將探討關于AI網(wǎng)絡的五個基本要點，以及隨著AI的發(fā)展，網(wǎng)絡所面臨的獨特挑戰(zhàn)。

GPU是AI的核心

簡單來說，AI的核心是圖形處理單元（GPU）或神經(jīng)處理單元（NPU）。

過去，我們通常認為中央處理單元（CPU）是計算機的核心。但GPU的優(yōu)勢在于，它在執(zhí)行數(shù)學計算特別是矩陣計算方面非常出色，從某種角度來說，與人腦神經(jīng)元更接近。

CPU時代的數(shù)據(jù)中心網(wǎng)絡處理的大多是供人閱讀的文字或多媒體，典型的就是網(wǎng)站的瀏覽、文件傳輸以及觀看視頻，數(shù)據(jù)中心往往能夠同時支持數(shù)億人的同時在線及高速的視頻碼流傳輸。

而在構建大語言模型或深度學習模型時，需要讓GPU進行“訓練”，這涉及到解決可能包含數(shù)十億參數(shù)的矩陣和梯度運算。GPU的計算非常的快，整個“訓練”過程異常嚴苛，不允許有任何的錯誤發(fā)生，一旦發(fā)生錯誤或延遲，整個“訓練”的周期就會被拉長。這樣的運算量，以及對無損和低延時的要求，對于傳統(tǒng)的數(shù)據(jù)中心而言，突然就變得捉襟見肘了。

AI訓練任務由多GPU協(xié)同完成

大語言模型在訓練的參數(shù)和模型復雜度上有非常明顯的提升，完成這些計算必須讓多達上千個GPU共同處理訓練任務，即便如此，訓練或微調大模型也可能需要數(shù)周甚至數(shù)月的時間。

一般的多GPU互聯(lián)的架構是將一組GPU服務器放置在機架中，并通過機架頂部的交換機相互連接。機架與機架通過CLOS網(wǎng)絡結構將它們全部連接起來。隨著解決問題復雜性的提升，對GPU的需求也會增加，有些情況下單個數(shù)據(jù)中心的電力不足以支持的時候，甚至需要跨數(shù)據(jù)中心連接通信來完成更大型的訓練任務。

AI集群是一臺超級計算機

在構建AI集群時，不僅僅要將GPU相互連接，更需要把它作為一個系統(tǒng)，解決很多錯誤和優(yōu)化的問題。正因為AI集群的規(guī)模不斷的上升，其中任何單點錯誤會導致整體訓練任務的失敗或效率低下，整個系統(tǒng)的組成部件比如模塊、線纜、交換機、網(wǎng)卡、服務器、存儲甚至電源，冷卻系統(tǒng)等，都會影響整個系統(tǒng)的執(zhí)行和維護。AI集群已經(jīng)慢慢由一個組網(wǎng)變成為一臺超級計算機，越來越多的工作將會圍繞在部件之間的協(xié)同而不僅是部件內部的單點優(yōu)化展開。

網(wǎng)絡成為了訓練效率的關鍵瓶頸

在去年秋天的開放計算項目（OCP）全球峰會上，Marvell Technology的Loi Nguyen指出，網(wǎng)絡成為了AI部署的新瓶頸。GPU在解決計算問題或處理訓練負載方面非常有效。然而，進行并行計算的GPU在完成本身處理的信息之外需要獲取其他GPU處理完成的信息，彼此之間需要相互通信和同步。

如果一個GPU無法獲取所需信息，或者同步需要較長時間，其他所有GPU都必須等待，直到協(xié)作任務完成。在技術層面上，由網(wǎng)絡擁塞導致的數(shù)據(jù)包延遲或丟失可能會引發(fā)數(shù)據(jù)包重傳，顯著增加任務完成時間（JCT）。

這意味著價值數(shù)百萬甚至數(shù)千萬美元的GPU長時間處于閑置狀態(tài)，從而導致AI產(chǎn)品的上市時間延遲并影響公司的財務成果。

測試對于AI網(wǎng)絡至關重要

為了確保AI集群的高效運行，需要網(wǎng)絡對GPU協(xié)同作業(yè)可能存在的擁塞和錯誤有提前的感知以及良好的應對。

這要求對網(wǎng)絡處理AI負載的性能進行詳盡的測試和基準評估。但這并非易事，因為GPU協(xié)同作業(yè)的負載區(qū)別于傳統(tǒng)網(wǎng)絡的流量負載，微突發(fā)、大象流、低熵是比較典型的特征。

因此，在測試AI網(wǎng)絡時，我們會面臨諸多挑戰(zhàn)：

? GPU短缺，無法復刻生產(chǎn)網(wǎng)絡環(huán)境或無法長時間復現(xiàn)問題。

?在生產(chǎn)系統(tǒng)上進行測試可能會降低系統(tǒng)的處理能力。

?系統(tǒng)內的部件不能提供足夠的日志及調試能力，無法準確定位問題。

?此外，獲取GPU之間集合通信更細節(jié)的信息，比如 Queue-Pair 的信息是一個挑戰(zhàn)。

為了應對這些挑戰(zhàn)，可以首先在實驗室環(huán)境中對建議配置的一個子集或小的組網(wǎng)進行測試，對關鍵參數(shù)進行基準測試，比如任務完成時間（JCT）、AI集群可達到的帶寬，以及這些參數(shù)與網(wǎng)絡利用率和交換機緩存消耗的比較。

這種基準測試有助于找到GPU/工作負載與網(wǎng)絡設計/參數(shù)設置之間的平衡。當計算架構師和網(wǎng)絡工程師對結果滿意時，他們可以將這些設置應用于生產(chǎn)環(huán)境，并測量新的結果。

結論

為了充分利用AI算力，必須對AI網(wǎng)絡的設備和基礎設施進行優(yōu)化。

企業(yè)和學術界正在提出更多好的架構和算法來優(yōu)化AI系統(tǒng)的各個部件及部件間協(xié)同，以應對未來更多AI應用給大型網(wǎng)絡帶來的挑戰(zhàn)。

測試對AI系統(tǒng)非常關鍵，只有通過確定可重復的測試，行業(yè)才能實現(xiàn)從探索性實驗到可交付的迭代，這會是優(yōu)化AI這臺超級計算機的基礎。

關于是德科技

是德科技（NYSE：KEYS）啟迪并賦能創(chuàng)新者，助力他們將改變世界的技術帶入生活。作為一家標準普爾 500 指數(shù)公司，我們提供先進的設計、仿真和測試解決方案，旨在幫助工程師在整個產(chǎn)品生命周期中更快地完成開發(fā)和部署，同時控制好風險。我們的客戶遍及全球通信、工業(yè)自動化、航空航天與國防、汽車、半導體和通用電子等市場。我們與客戶攜手，加速創(chuàng)新，創(chuàng)造一個安全互聯(lián)的世界。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
4788

瀏覽量
129426
網(wǎng)絡

網(wǎng)絡

+關注

關注
14

文章
7600

瀏覽量
89306
AI

AI

+關注

關注
87

文章
31711

瀏覽量
270507
是德科技

是德科技

+關注

關注
20

文章
900

瀏覽量
82063

原文標題：關于AI網(wǎng)絡你應該知道的五件事

文章出處：【微信號：是德科技KEYSIGHT，微信公眾號：是德科技KEYSIGHT】歡迎添加關注！文章轉載請注明出處。

微軟Azure AI Agent服務震撼發(fā)布

在這場令人矚目的技術變革中，兩個要點已毋庸置疑:人工智能技術正在為各類企業(yè)帶來切實成果，且AI的創(chuàng)新潛力正在展現(xiàn)出廣闊前景。

發(fā)表于 12-11 16:54 ?420次閱讀

關于卷積神經(jīng)網(wǎng)絡，這些概念你厘清了么~

必須通過決策閾值做出決定。另一個區(qū)別是AI并不依賴固定的規(guī)則，而是要經(jīng)過訓練。訓練過程需要將大量貓的圖像展示給神經(jīng)網(wǎng)絡以供其學習。最終，神經(jīng)網(wǎng)絡將能夠獨立識別圖像中是否有貓。關鍵的一

發(fā)表于 10-24 13:56

AI for Science：人工智能驅動科學創(chuàng)新》第4章-AI與生命科學讀后感

很幸運社區(qū)給我一個閱讀此書的機會，感謝平臺。《AI for Science：人工智能驅動科學創(chuàng)新》第4章關于AI與生命科學的部分，為我們揭示了人工智能技術在生命科學領域中的廣泛應用和

發(fā)表于 10-14 09:21

《AI for Science：人工智能驅動科學創(chuàng)新》第二章AI for Science的技術支撐學習心得

非常高興本周末收到一本新書，也非常感謝平臺提供閱讀機會。這是一本挺好的書，包裝精美，內容詳實，干活滿滿。關于《AI for Science：人工智能驅動科學創(chuàng)新》第二章“AI

發(fā)表于 10-14 09:16

pcb設計中布局的要點是什么

在PCB設計中，布局是一個非常重要的環(huán)節(jié)，它直接影響到電路的性能、可靠性和成本。以下是關于PCB布局的一些要點，這些要點將幫助您設計出高質量的PCB。確定設計目標和要求在開始布局之

發(fā)表于 09-02 14:48 ?522次閱讀

六類網(wǎng)絡模塊與五類網(wǎng)絡模塊區(qū)別

六類網(wǎng)絡模塊與五類網(wǎng)絡模塊在多個方面存在顯著差異，以下是對兩者區(qū)別的詳細分析：一、傳輸速率六類網(wǎng)絡模塊：支持高達10Gbps的傳輸速率，能夠滿足大容量數(shù)據(jù)傳輸和高頻率應用的需求。這

發(fā)表于 07-30 10:05 ?1997次閱讀

OpenAI公布AI發(fā)展的五個階段

北京時間7月12日，OpenAI為追蹤其人工智能（AI）技術追趕并超越人類智能的進程，正式公布了AI發(fā)展的五個階段性劃分，旨在加深公眾對公司AI

發(fā)表于 07-12 15:50 ?2545次閱讀

ESP8266如何連接五個Wifi網(wǎng)絡？

正如我在文檔中讀到的那樣，ESP8266最多可以連接五個 Wifi 網(wǎng)絡。但我無法做到這一點。在啟動過程中，我使用以下代碼將最大網(wǎng)絡數(shù)設置為 5： printf(\"err:%irn

發(fā)表于 07-10 07:11

中國移動揭曉關于人工智能生態(tài)發(fā)展的五個100計劃

的宏偉藍圖——“五個100”計劃。該計劃旨在通過開放百項AI融合應用場景、匯聚百家頂尖合作伙伴、設立百億級權益支持基金、解鎖百項核心技術要素，并培育百萬量級智能實體，全面加速AI生態(tài)的

發(fā)表于 07-08 16:56 ?1450次閱讀

生成式AI與神經(jīng)網(wǎng)絡模型的區(qū)別和聯(lián)系

生成式AI與神經(jīng)網(wǎng)絡模型是現(xiàn)代人工智能領域的兩個核心概念，它們在推動技術進步和應用拓展方面發(fā)揮著至關重要的作用。本文將詳細探討生成式AI與神經(jīng)網(wǎng)絡

發(fā)表于 07-02 15:03 ?1006次閱讀

HNS 2024：星河AI數(shù)據(jù)中心網(wǎng)絡，賦AI時代新動能

華為數(shù)據(jù)通信創(chuàng)新峰會2024在巴庫隆重舉辦，在“星河AI數(shù)據(jù)中心網(wǎng)絡，賦AI時代新動能”主題論壇中，華為面向中東中亞地區(qū)發(fā)布星河AI數(shù)據(jù)中心網(wǎng)絡

發(fā)表于 05-15 09:15 ?722次閱讀

2030 年2030 年關于人工智能的五點預測

本文由半導體產(chǎn)業(yè)縱橫（ID：ICVIEWS）編譯自semiengineering以下是關于2030年人工智能世界將會呈現(xiàn)出的五個大膽預測。2030年，人工智能領域將會有怎樣的變化

發(fā)表于 03-28 08:26 ?799次閱讀

ai_reloc_network.h引入后，ai_datatypes_format.h和formats_list.h報錯的原因？

當準備使用神經(jīng)網(wǎng)絡的relocatable方式，將ai_reloc_network.h頭文件加入程序編譯后，ai_datatypes_format.h在cubeIDE和Keilc里分別報如下錯誤

發(fā)表于 03-14 06:23

NanoEdge AI的技術原理、應用場景及優(yōu)勢

能耗并提高數(shù)據(jù)安全性。本文將對 NanoEdge AI 的技術原理、應用場景以及優(yōu)勢進行綜述。 1、技術原理 NanoEdge AI 的核心技術包括邊緣計算、神經(jīng)網(wǎng)絡壓縮和低功耗硬件設計。邊緣計算

發(fā)表于 03-12 08:09

智能制造的五個特點是什么？

智能制造的五個特點，如同五顆璀璨的繁星，引領著制造業(yè)邁向全新的高度。制造業(yè)智能化升級已經(jīng)站在風口的浪尖，成為全球政策的“新寵”和未來工業(yè)變革的主流趨勢。

發(fā)表于 02-23 10:43 ?1188次閱讀