編者按算力網絡有一個美好的愿景,就是希望算力和算網,能像電力和電網一樣:
- 算力可以標準化,有統(tǒng)一的計量單位。類似電力計量的千瓦時,或稱為度數。
- 有很多算力中心生產算力,類似電廠生產電力。
- 生產出來的算力,通過接入算網,最終供應給算力的客戶。類似電廠的電力,通過電網接入千家萬戶。
- 算力“隨時隨地,無處不在”,算力客戶可以非常方便的隨時接入任何位置的算力,支撐自己的業(yè)務。類似無處不在的電源接口,方便我們隨時隨地使用電力。
- 從基礎設施的角度看,就是希望算力基礎設施也能像電力基礎設施一樣,通過更大規(guī)模的人力物力投入,實現(xiàn)算力基礎設施的領先。
但算力基礎設施,和我們的能源、電力、交通等傳統(tǒng)基礎設施相比,仍存在許多風險和挑戰(zhàn)。今天這篇文章,我們拋磚引玉。
1、算力基礎設施戰(zhàn)略價值巨大
本章節(jié)內容節(jié)選自《2022-2023全球計算力指數評估報告》,由IDC、浪潮信息、清華全球產業(yè)院。內容有調整。
通過數字技術推動業(yè)務變革,進而實現(xiàn)數字化轉型,已經成為傳統(tǒng)企業(yè)發(fā)展的必由之路。隨著數字技術的不斷進步和發(fā)展,以及數據量的爆發(fā)性增長,強大的算力,成為了創(chuàng)新和突破的關鍵要素。以人工智能領域為典型,人工智能大模型的發(fā)展,受算力發(fā)展的直接影響。人工智能算法和技術被應用于各種領域和行業(yè)(AI+),如自動駕駛汽車、醫(yī)療診斷、金融預測等。 算力的發(fā)展不僅激發(fā)數字技術的創(chuàng)新和突破,也推動了數字技術在各行各業(yè)的廣泛應用與深度融合,為各行業(yè)能夠實現(xiàn)科技創(chuàng)新提供了重要支撐。
在數字經濟時代,算力是國家經濟增長的關鍵驅動力之一。根據上圖可以看到,算力的提高對一國經濟增長的拉動效應非常顯著,且隨著計算力指數的增加,提升效應會越來越明顯。
評估結果顯示,十五個樣本國家的計算力指數平均每提高1點,國家的數字經濟和GDP將分別增長3.6‰和1.7‰。
總之,算力基礎設施支撐并加速新質生產力和千行百業(yè)的發(fā)展,算力基礎設施是整個國民經濟發(fā)展的重中之重。
2、算力基礎設施的風險和挑戰(zhàn)
雖然算力和我們的鐵路、公路、水利、電力等行業(yè)一樣,被稱為基礎設施。但算力是新型基礎設施,和這些傳統(tǒng)基礎設施相比,仍存在非常大的差異性。而這些差異性,也基本上就是算力基礎設施存在的風險和挑戰(zhàn)。
本章節(jié),我們就算力基礎設施的風險和挑戰(zhàn)進行分析,無法面面俱到,僅限拋磚引玉。關于算力基礎設施的風險和挑戰(zhàn),希望能夠得到全行業(yè)的重視。全行業(yè)一起努力,能夠構建符合技術和市場規(guī)律,并且能夠支撐國家數字經濟快速發(fā)展的新型算力基礎設施。
2.1 算力難以標準化
如果算力可以公平且標準化的度量,那么算力就可以像電力一樣,大規(guī)模生產和消費。但實際的情況,遠比想象的要復雜的多。
我們通過兩個案例進行分析。
首先是CPU處理器的案例。CPU是最通用的處理器,沒有之一。我們以CPU中兩個重要的部件進行分析:
- Cache,多核CPU中通常集成了L1-L3三級Cache。如果遇到流式數據處理,此刻Cache幾乎沒有價值;如果是循環(huán)等結構的業(yè)務算法,Cache的價值就非常大。反過來,流式數據處理,會優(yōu)先選擇Cache盡可能小一些的處理器;而循環(huán)類結構的業(yè)務算法,會優(yōu)先選擇大Cache的處理器。
- 協(xié)處理器,CPU內部也集成協(xié)處理器,如Intel AVX/AMX指令協(xié)處理器。如果是傳統(tǒng)的控制類任務,就不需要AVX/AMX協(xié)處理器。但如果是視頻、圖像等任務,就需要AVX;如果是AI類處理,就需要AMX。反過來說,如果是控制類的任務,AVX/AMX協(xié)處理器對我來說沒有價值,如果仍需要為這些協(xié)處理器的算力付費,則是相對不公平的。客戶會優(yōu)選沒有AVX、AMX等協(xié)處理器的CPU處理器。
第二個案例,CPU vs 專用處理器。如果同樣的1000TOPS算力(折合成TOPS統(tǒng)一單位),CPU算力和專用處理器的算力哪個更好?一般來說,CPU算力更好,因為CPU算力更加通用,可以用在幾乎所有場景,并且對軟件和軟件開發(fā)者的要求更低。而專用處理器,僅能支持某個特定場景,甚至某個特定算法算力,對其他的業(yè)務場景來說,價值幾乎為零。這樣的話,這兩種算力,能賣相同的價格嗎?我們假設CPU 1000TOPS算力價格為1000元/月,那么,專用處理器 1000TOPS算力的價格10塊錢,都不一定能找到合適的客戶。
算力為什么難以標準化?本質的原因在于計算引擎和業(yè)務算法的耦合性。在加減乘數等基本指令的通用CPU基礎上,做的任何優(yōu)化,其實都是面向某些特定規(guī)律的計算或算法優(yōu)化。這些加速計算引擎只有找到匹配的業(yè)務算法,才能發(fā)揮價值;反過來,如果沒有匹配的業(yè)務算法,計算引擎的價值就很低很低。
簡單總結如下:
- 一方面,計算引擎微架構的復雜性,決定了計算性能的測量是一件非常復雜、難以面面俱到并且足夠公平的事情。
- 另一方面,計算的通用性,或者說對業(yè)務算法的廣泛覆蓋性,也是一個非常重要的維度。而這個維度,在算力計量之外。
- 此外,計算引擎和業(yè)務算法的耦合性,決定了算力的價值到底能發(fā)揮幾何。計算引擎大體上可以分為三類:通用的CPU、并行計算的GPU等、以及專用加速的各種DSA/ASIC,這些計算引擎的算力無法完全按照算力來折算,而要根據算法和計算引擎的匹配,來計算實際算力。
- 那么,我們是否可以以業(yè)務算法為基準,誰能夠更快速的完成一個特點單位的業(yè)務算法,誰的性能就好,誰的價值就高。答案也是否定的。因為業(yè)務算法千千萬,單個業(yè)務算法無法評價,所有的算法加權綜合評價也意義不大。對具體的業(yè)務客戶來說,自己的算法能不能更快速更低成本的計算,才是需要關心的事情。
- 還有一個重要的方面,業(yè)務算法本身的價值。比如,同樣的算力,如果用于AI計算,一般來說,價值要高一些。如果用于網絡 存儲計算,則價值要低一些。這些也會影響到專用加速器算力的價格定義。
- 等等。
總結一下,我們認為,計算是一件非常復雜的事情,算力(也即計算的能力)的標準化,幾乎是一個偽命題。
2.2 業(yè)務的算力需求指數級增長
從上圖可以看到,從2012年深度學習的興起,算力需求逐漸增強,跳脫摩爾定律約束,需要GPU加速處理器,以及Scale out的集群計算。這一時期,算力需求每3.4個月翻倍。從2018年開始,隨著大模型的流行,算力需求進一步加速,每2個月就會翻倍。與此同時,Scale Out也越來越難以為繼,集群規(guī)模從千卡到萬卡,再到十萬卡。集群規(guī)模的不斷擴大,使得AI計算的成本越來越成為天文數字。例如,微軟與OpenAI制定的新一代AI算力芯片和基礎設施項目星際之門,預計耗資1000億美元;目標參數規(guī)模為1000萬億,是GPT4的10000倍。業(yè)務需求和算力基礎設施的差距成指數級增長,兩者之間的矛盾進一步加劇。要想根本性的解決問題,一方面需要單節(jié)點的計算架構的創(chuàng)新(Scale Up創(chuàng)新),也需要更高效的集群網絡解決方案,進一步支持更大規(guī)模的集群計算(Scale Out創(chuàng)新)。
2.3 算力技術體系的門檻非常之高
算力涉及芯片、硬件及基礎設施、軟件以及業(yè)務四個主要的方案,每一項都非常的復雜,且有極高的技術門檻:
芯片,是計算(算力)的硬件載體。隨著芯片工藝進入10nm以內,逐漸接近物理極限,芯片制造的門檻越來越高,一代新工藝投入通常在千億美金級別。單芯片所能容納的晶體管數量已經達到數百億級,再加上Chiplet先進封裝的加持,未來,單個芯片的晶體管數量會突破萬億級大關。這么龐大的晶體管數量,如果進行芯片的系統(tǒng)架構和微架構設計,也是非常大的挑戰(zhàn)。
硬件設備和外圍基礎設施。在智算時代,硬件設備的功耗都非常的恐怖。傳統(tǒng)CPU服務器單臺功率在300W左右,而目前主流GPU服務器的功耗都達到了10KW左右,整整提升了30倍以上。于是,傳統(tǒng)的風冷散熱已經逐漸走出歷史舞臺,更高技術要求的液冷成為了主流。此外,數據中心的功耗越來越大,綠色數據中心越來越成為必然的要求。如何降低PUE,需要數據中心基礎設施統(tǒng)籌的技術革新和綜合能耗優(yōu)化,甚至需要能源和電力產業(yè)的配合。
軟件,是計算的靈魂。系統(tǒng)級軟件如操作系統(tǒng)(如Linux)、集群操作系統(tǒng)(如Kubernetes),以及其他基礎軟件、數據庫軟件、中間件軟件,以及加速計算框架、業(yè)務框架等等,軟件生態(tài)五花八門。每一項都非常的復雜,每一項其生態(tài)的形成都經過了漫長而艱難的階段。
業(yè)務。新的技術、新的場景、新的業(yè)務落地,有非常大的難度。特別是跟硬件關聯(lián)度非常大,受硬件物理條件的約束的場景,如自動駕駛智能汽車、XR元宇宙、人形機器人等。如何實現(xiàn)軟硬件深度協(xié)同和融合的綜合算力技術體系,受到很多現(xiàn)實的約束,實現(xiàn)的難度巨大,需要更多的創(chuàng)新驅動。
總之,從算力芯片,到硬件以及相關軟件和開發(fā)框架,軟硬件體系極度龐大和復雜,技術門檻非常高。
2.4 算力技術迭代很快
TSMC 3nm工藝已經量產,2nm、1nm也都在未來幾年的路線圖中。并且,TSMC已經開始在攻關0.1nm工藝,半導體工藝即將進入亞納米(埃米)時代。在存儲領域,近些年來還興起了3D封裝技術,使得集成電路從二維進入三維。在封裝領域,Chiplet先進封裝機制,把多個芯片裸DIE集成到一起,從3D到4D,都進一步增強了單位面積的晶體管集成度。
隨著單芯片所能容納的晶體管數量逐漸增加,計算的架構也越來越復雜,逐漸從CPU同構、CPU+GPU的異構,走向了CPU+GPU+DSAs的異構融合。2023年9月15日,在湖南長沙的世界計算大會上,《異構融合計算技術白皮書》由工信部電子五所發(fā)布(關注軟硬件融合公眾號,回復“白皮書”,可下載此白皮書)。
算力芯片的設計模式,已經從“硬件定義軟件”轉向“軟件定義硬件”。傳統(tǒng)的算力芯片設計模式,是先有芯片,然后是驅動和開發(fā)框架,再然后是基于框架的軟件任務。但這種方式,每家芯片公司都是一個獨立的架構,獨立的生態(tài)。一方面,構建生態(tài)的門檻非常高,另一方面,這種方式對客戶非常不友好。特別是在計算的主流方式從單機走向大規(guī)模集群計算的當下,客戶既傾向于統(tǒng)一的計算平臺,又不想被特定的廠家綁定。軟件定義硬件的方式,是客戶和芯片供應商最大的公約數。
這里就計算的形態(tài)再做進一步展開。隨著大模型的發(fā)展,計算需求的規(guī)模越來越大,和單顆芯片所能提供的性能差距的數量級,也在不斷增加。千卡集群、萬卡集群,甚至十萬卡、百萬卡集群也已經在路上。超大規(guī)模集群計算,甚至跨云邊端的融合計算,已經成為了計算的主流形態(tài)。
摩爾定律告訴我們,每18-24個月芯片的性能就會翻倍。NVIDIA黃仁勛的黃氏定律告訴我們,計算性能會每一年翻一倍。這兩個定律意味著,算力芯片的迭代周期是1-2年一代。
軟件的迭代就更快了,軟件開發(fā)更是講究“小步快跑”,通常是2-3個月一個小迭代,一年一個大迭代,不然就趕不上業(yè)務快速發(fā)展的需要。
2.5 算力基礎設施的生命周期非常短
傳統(tǒng)基礎設施,技術更新?lián)Q代較慢,傳統(tǒng)基礎設施的生命周期很長,通常在50年以上,有的甚至100年以上。
而受算力各項技術的快速更新迭代,特別是摩爾定律和黃氏定律的影響,算力基礎設施的生命周期通常4-5年。因為,4-5年時間之后,硬件的可靠性會越來越差,并且計算的各項支出越來越不夠經濟,必須要更換更加先進的計算設備和相應的軟硬件技術棧。
3、開放的技術棧,開放的產業(yè)鏈
國產算力芯片最大的困境在于生態(tài):構建一個新的計算生態(tài),門檻非常高,千億級投入都不一定成功。但行業(yè)除了NVIDIA CUDA生態(tài)之外,還有一個更加強大的生態(tài),即全球幾乎所有互聯(lián)網公司(客戶)都支持的開源軟件生態(tài)。基于開源軟件,實現(xiàn)開源軟件定義的開放硬件,形成一個更加開放更加強大的開源的技術(棧)生態(tài)。
國家多個部委發(fā)文,說要構建全國一體化算力網。但一體化算力網,并不意味著是一家公司獨大,而是意味著算力的充分利用和價值的最大化發(fā)揮。我們認為,未來也是類似公有云的競爭態(tài)勢,最終形成5家左右具有全國甚至全球影響力的算力網公司,以及10家以上具有行業(yè)和領域特色的專業(yè)算力網公司。總之,整個產業(yè)鏈是開放的:
IDC,聚焦數據中心的基礎設施;自身的基礎設施可以服務公有云和算力中心等各類客戶。
算力中心,聚焦算力生產。通過融合計算的綜合算力創(chuàng)新優(yōu)化,實現(xiàn)算力的最高性能和最低成本,以及超大規(guī)模。算力可以賣給任何一家算力網公司,以及直接賣給大客戶。
算力網,聚焦業(yè)務落地。主要聚焦PaaS服務和算力解決方案,服務好客戶業(yè)務落地。
業(yè)務客戶,可以從自建的私有云、公有云以及算力網獲得優(yōu)質而低成本的且“無處不在,隨時隨地可獲取”的算力,服務好自身的業(yè)務。
只有開放,才能最大限度的發(fā)揮各自的創(chuàng)造力和和市場競爭價值,才能最大限度的實現(xiàn)技術的快速進步,才能實現(xiàn)算力芯片和算力產業(yè)鏈的獨立自主,甚至全球領先。
在線研討會 | 深入了解Imagination APXM-6200:全新性能密集型應用CPU
-
電網
+關注
關注
13文章
2111瀏覽量
59348 -
人工智能
+關注
關注
1796文章
47643瀏覽量
240107 -
算力
+關注
關注
1文章
1012瀏覽量
14939
發(fā)布評論請先 登錄
相關推薦
評論