超算,是計(jì)算產(chǎn)業(yè)的明珠,是人類探索未知的航船。超算的發(fā)展與變化,不僅代表著各個國家與地區(qū)間的科技競爭力,更將作為趨勢風(fēng)向標(biāo),影響整個數(shù)字化體系的走向。
在目前階段,超算與AI計(jì)算的融合是大勢所趨。為了將AI模型與AI計(jì)算融入超算體系,一輪新的超算變革正在醞釀發(fā)生。與此同時,一個關(guān)鍵問題也顯露了出來:我們是否需要配合AI大模型風(fēng)潮,打造全新且獨(dú)立的存儲體系?
在超算領(lǐng)域擁有廣泛聲譽(yù)的橡樹嶺國家實(shí)驗(yàn)室(Oak Ridge National Laboratory),已經(jīng)就這個問題給出了明確的答案:需要。
![wKgaomUqu7OAanfhAAFYzPcUc_Y080.jpg](https://file1.elecfans.com//web2/M00/A8/2D/wKgaomUqu7OAanfhAAFYzPcUc_Y080.jpg)
日前,我們在橡樹嶺實(shí)驗(yàn)室發(fā)布的面向2027年構(gòu)建下一代數(shù)據(jù)中心相關(guān)計(jì)劃中已經(jīng)看到,其明確提出了應(yīng)對十億到百億級大模型的引入,除了需要面向傳統(tǒng)HPC場景的PFS(Parallel file system 并行文件系統(tǒng)),還需要單獨(dú)設(shè)立AOS(AI-optimized storage AI 優(yōu)化存儲)存儲系統(tǒng),并給出了相關(guān)的詳細(xì)品類定義與規(guī)格約束。
這個信息為何重要?其又將如何影響計(jì)算與存儲產(chǎn)業(yè)的持續(xù)發(fā)展?
讓我們共同來解讀一下,這個智能時代的存力信標(biāo)。
科學(xué)之巔的超算答案
不久之前,諾蘭導(dǎo)演的電影《奧本海默》在全球熱映,其中對曼哈頓工程的描繪讓人印象深刻。
事實(shí)上,曼哈頓工程的影響遠(yuǎn)不止于影片介紹的范圍。成立于1934年,隸屬于美國能源部的橡樹嶺國家實(shí)驗(yàn)室,原本就屬于曼哈頓工程的一部分。作為美國乃至全球最具代表性的國家實(shí)驗(yàn)室,其存在目的是攻克當(dāng)下最嚴(yán)峻的科學(xué)難題,開發(fā)具有跨時代意義的技術(shù)。
從上世紀(jì)40年代開發(fā)核反應(yīng)堆,到率先在完成中子散射開展材料的相關(guān)研究,再到為半導(dǎo)體產(chǎn)業(yè)提供了一系列信息與相關(guān)技術(shù)。橡樹嶺國家實(shí)驗(yàn)室可謂在每個階段都深度參與了信息時代的重大科學(xué)發(fā)現(xiàn),被譽(yù)為人類科學(xué)之巔。
時間來到今天,橡樹嶺國家實(shí)驗(yàn)室最具盛名的能力就是超算。在的2022年全球超算Top500名單中,橡樹嶺國家實(shí)驗(yàn)室的Frontier超級計(jì)算機(jī)系統(tǒng)奪得第一。其憑借1.102 Exaflop/s的HPL分?jǐn)?shù),成為人類有史以來第一臺“E級超算”計(jì)算機(jī)。也就是說,F(xiàn)rontier實(shí)現(xiàn)了斷代式的驚人算力,其超算性能大于排在它身后的468個超算體系之和。同時,F(xiàn)rontier還是全球AI計(jì)算能力最強(qiáng)的計(jì)算體系之一,其AI計(jì)算能力已經(jīng)投身到了智能交通、智能醫(yī)療等領(lǐng)域的探索中。
由此可見,橡樹嶺國家實(shí)驗(yàn)室在超算領(lǐng)域擁有極強(qiáng)的先進(jìn)性,堪稱廣義超算領(lǐng)域的絕對權(quán)威。而在打造Frontier為代表的超算體系過程中,實(shí)驗(yàn)室也正以更加深邃的目光,望向AI計(jì)算與存儲的前沿探索之路。
他們給出的AI存力答案,顯然可以被更多超算體系,乃至數(shù)字化建設(shè)整體所參考。
對AI存力底座的明確定義
長久以來,我們都知道AI專項(xiàng)算力的重要性。那么是否需要在存儲領(lǐng)域構(gòu)建AI專項(xiàng)存力呢?這一直是個業(yè)界激烈爭論的問題。而橡樹嶺國家實(shí)驗(yàn)室的答案,或許可以起到一錘定音的效果。在其發(fā)布的面向2027構(gòu)建下一代數(shù)據(jù)中心方案中,明確提出了面對大模型的引入,除了需要面向傳統(tǒng)超算場景的存儲體系之外,要單獨(dú)設(shè)立AOS(AI-optimized storage)品類。這也就是說,要建設(shè)傳統(tǒng)超算業(yè)務(wù)和面向AI業(yè)務(wù)負(fù)載的兩套I/O存儲系統(tǒng)——PFS和AOS,即構(gòu)建更適應(yīng)、更匹配AI負(fù)載的專項(xiàng)存儲。
這是因?yàn)橄饦鋷X國家實(shí)驗(yàn)室已經(jīng)意識到,未來超算將面臨著越來越多的AI處理任務(wù)。這不僅僅需要算力系統(tǒng)的提升,更需要單獨(dú)針對存儲系統(tǒng)進(jìn)行升級。因此對AI工作負(fù)載定制全新的存儲子系統(tǒng)至關(guān)重要。
兩套I/O存儲系統(tǒng)相比較的話,很容易找到區(qū)別。
傳統(tǒng)的PFS,更多是針對單一POSIX文件命名空間,整體業(yè)務(wù)的I/O較大,并且更多針對大文件進(jìn)行運(yùn)算處理,更強(qiáng)調(diào)集群聚合帶寬,對小文件的創(chuàng)建或讀取性能要求并不高。
而相較于PFS,AI應(yīng)用折射到AOS負(fù)載上的文件更加復(fù)雜,大小不一,并且數(shù)據(jù)密集型分析占據(jù)了更大比重,在全流程中會產(chǎn)生大量的數(shù)據(jù)或元數(shù)據(jù)隨機(jī)讀寫情況。這就需要存儲系統(tǒng)既具備高達(dá)千萬級的IOPS與OPS、又擁有十TB/s級別的超高帶寬來進(jìn)行高速順序讀寫。
簡而言之,新的AI負(fù)載會帶來巨大的存儲性能需求,這是傳統(tǒng)PFS系統(tǒng)所謂無法負(fù)擔(dān)的。只有存儲性能極大升級,才能讓AI算力利用率提升,整個模型的訓(xùn)練效率升級。
其次,極為重要的一點(diǎn)在于AI場景下計(jì)算節(jié)點(diǎn)故障率高,平均要達(dá)到天級甚至小時級就出現(xiàn)故障,因此需要頻繁的斷點(diǎn)續(xù)訓(xùn),并且還有可能需要很多階段性的模型數(shù)據(jù)與窗體數(shù)據(jù)定期保存。因此與傳統(tǒng)的超算任務(wù)相比,AI任務(wù)需要存儲具有更大的容量以及更高的效率。
接下來,我們還要看到共享存儲的必要性。橡樹嶺國家實(shí)驗(yàn)室要求計(jì)算任務(wù)在任何計(jì)算節(jié)點(diǎn)都可以隨機(jī)訪問任何一個文件,從而確保AI任務(wù)在任何節(jié)點(diǎn)訪問時性能具有強(qiáng)一致性。
除此之外,AOS還具備在底層文件系統(tǒng)與AOS之間的高效并行數(shù)據(jù)傳輸能力,從而確保文件的跨層調(diào)度能力。
為了保護(hù)珍貴的AI數(shù)據(jù)資產(chǎn),AOS對存儲可靠性的要求也提升了很多。由于各種AI訓(xùn)練大量采用分布式,需要在單點(diǎn)故障后依舊保持?jǐn)?shù)據(jù)高可用、任務(wù)不中斷。這需要滿足跨節(jié)點(diǎn)的EC(Erasure Coding)能力,不像一些傳統(tǒng)并行文件系統(tǒng)僅可做到節(jié)點(diǎn)內(nèi)EC,當(dāng)節(jié)點(diǎn)宕機(jī)后就會出現(xiàn)數(shù)據(jù)丟失、數(shù)據(jù)完整性受損,并且對于故障后的數(shù)據(jù)重構(gòu)的性能速度,也規(guī)定了相關(guān)時長。
最后,AOS還需要具備本地?cái)?shù)據(jù)的清洗與處理的能力,包含敏感信息去除、隱私信息過濾,甚至轉(zhuǎn)碼、去重等工作,從而簡化數(shù)據(jù)預(yù)訓(xùn)練工作,提升AI任務(wù)的整體效率。
總結(jié)來說,橡樹嶺國家實(shí)驗(yàn)室已經(jīng)明確提出,AI大模型浪潮不僅需要專項(xiàng)算力,還需要專項(xiàng)存力。傳統(tǒng)的并行文件系統(tǒng)已經(jīng)無法滿足AI任務(wù)的需求,AI存儲的門檻正在變得更高,定義正在更加清晰明確。
由橡樹嶺國家實(shí)驗(yàn)室的超算探索出發(fā),AI存力的概念將影響到整個產(chǎn)業(yè)。
存儲發(fā)展的時代信標(biāo)
橡樹嶺國家實(shí)驗(yàn)室的發(fā)現(xiàn),可以說是一個時代信標(biāo),它將輻射到更廣泛的區(qū)域,給存儲產(chǎn)業(yè)的升級發(fā)展提出明確信號。
首先,業(yè)界可以由此凝結(jié)成一個共識:AI需要專業(yè)算力,也需要專業(yè)存儲。AI存力概念將成為大模型時代主導(dǎo)存儲產(chǎn)業(yè)的骨干。
其次,我們可以看到超算領(lǐng)域?qū)⑹紫鹊玫絾⑹?。在全球各個國家與地區(qū),超算都是國之利器,是科技競賽的關(guān)鍵節(jié)點(diǎn)。而在超算與AI水乳交融的發(fā)展趨勢下,超算場景必須積極引入AI存力升級,設(shè)置專業(yè)的外置存儲,并且積極踐行以存強(qiáng)算,通過存儲升級來提升AI算力利用率。比如將AI大模型密集型計(jì)算之前,為了降低計(jì)算通信開銷比,可以將一部分?jǐn)?shù)據(jù)預(yù)處理下沉到存儲層完成,以此節(jié)省AI算力。最終可以通過存儲來提升超算體系的先進(jìn)性與自主性。
接下來,我們還可以看到這一趨勢將釋放到超算場景之外。在AI大模型走入千行百業(yè)的進(jìn)程中,各個領(lǐng)域都需要考慮存儲是否能夠適配AI模型與算力系統(tǒng)。適時進(jìn)行存儲升級,實(shí)現(xiàn)存、算、AI的相輔相成,是智能化發(fā)展過程中的關(guān)鍵。
這些啟示,對于中國存儲產(chǎn)業(yè)的發(fā)展,尤有至關(guān)重要的意義。
存力勃發(fā),時代之選
在大模型發(fā)展中,存力是前提條件,也是產(chǎn)業(yè)支柱。尤其對應(yīng)到中國在實(shí)現(xiàn)科技自立自強(qiáng),推進(jìn)數(shù)實(shí)融合的大勢當(dāng)中。AI浪潮恰好是一個絕佳契機(jī),可以以最低成本,最高價值實(shí)現(xiàn)存儲產(chǎn)業(yè)的全面升級更新。
從目前全球主流趨勢來看,存儲升級對AI發(fā)展的助力是多方位、全面性的。是一個高吞吐、可共享、大容量、高可靠的存儲系統(tǒng),是產(chǎn)業(yè)智能化、經(jīng)濟(jì)智能化發(fā)展的關(guān)鍵。
在這個趨勢下,中國存力建設(shè)有以下幾個機(jī)遇需要緊緊把握:
1.擴(kuò)大存力規(guī)模,提升先進(jìn)存儲占比。
隨著AI大模型的崛起,以及AI深入到超算、大型政企數(shù)字化等場景,會有更多企業(yè)傾向于進(jìn)行本地化的AI訓(xùn)練與相關(guān)數(shù)據(jù)存儲。這個過程中,既需要擴(kuò)大存力整體規(guī)模,也需要提升以全閃存為代表的先進(jìn)存儲占比,以此來滿足智能化發(fā)展所需。
2.提升存儲技術(shù)創(chuàng)新,應(yīng)對AI時代的數(shù)據(jù)復(fù)雜性。
AI帶來了數(shù)據(jù)復(fù)雜性與應(yīng)用流程多樣性等一系列挑戰(zhàn),因此存儲的先進(jìn)性必須得到進(jìn)一步提升。比如說,在建設(shè)數(shù)據(jù)湖的過程中,多數(shù)據(jù)中心、多業(yè)務(wù)系統(tǒng)的數(shù)據(jù)歸集緩慢且復(fù)雜,跨業(yè)務(wù)的數(shù)據(jù)倒換的低效且繁瑣,都給存儲帶來了考驗(yàn)。因此,存儲需要提升協(xié)議互通能力、數(shù)據(jù)跨域調(diào)度、跨系統(tǒng)可視化數(shù)據(jù)管理等能力。以存儲技術(shù)創(chuàng)新,應(yīng)對AI時代的一系列技術(shù)挑戰(zhàn)。
3.提升存儲安全與運(yùn)維能力,確保AI發(fā)展無憂。
AI大模型不僅帶來了數(shù)據(jù)的復(fù)雜性,還帶來了一系列全新的安全隱患,以及愈加復(fù)雜的存儲運(yùn)維管理壓力。因此,存儲需要積極踐行主動安全、自動運(yùn)維等能力,從而確保AI體系的健康發(fā)展。
在這些努力的堅(jiān)持不懈下,AI存力將得到極大發(fā)展。就像我們知道AI算力即生產(chǎn)力,AI存力也將在未來成為生產(chǎn)力釋放的關(guān)鍵,成為產(chǎn)業(yè)智能化的引擎。
總結(jié)起來,一項(xiàng)產(chǎn)業(yè)升級與技術(shù)發(fā)展,首先需要找到信標(biāo),讀懂趨勢。如果說此前我們對于AI專項(xiàng)存儲的定義與發(fā)展還有爭議,那么橡樹嶺國家實(shí)驗(yàn)室對未來數(shù)據(jù)中心的定義,就是為這一爭論畫下了句號。
依靠其在超算領(lǐng)域,乃至全球科研界的地位,首先我們可以看到AI存儲本身的絕對必要性。其次可以對AI存儲的定義、門檻與發(fā)展規(guī)范提出詳細(xì)的要求。由此一來,我們可以在越來越多的證據(jù)下,清楚地看到AI大模型時代存儲升級的必然。
AI存力的價值,在頂級實(shí)驗(yàn)室的論證與探索中可以證明;在存儲產(chǎn)業(yè)多年來走向自主化、先進(jìn)化的發(fā)展腳步中可以證明;在每一次AI訓(xùn)練之后,模型開發(fā)者對存儲價值的慨嘆中可以證明。
抓住AI機(jī)遇,促使存力勃發(fā),是時代之選,更是時代之幸。
-
存儲
+關(guān)注
關(guān)注
13文章
4359瀏覽量
86204 -
AI
+關(guān)注
關(guān)注
87文章
31670瀏覽量
270465 -
超算
+關(guān)注
關(guān)注
1文章
115瀏覽量
9144 -
大模型
+關(guān)注
關(guān)注
2文章
2593瀏覽量
3208 -
存力
+關(guān)注
關(guān)注
0文章
23瀏覽量
117
發(fā)布評論請先 登錄
相關(guān)推薦
NVIDIA推出DRIVE AI安全檢測實(shí)驗(yàn)室
浪潮信息與實(shí)驗(yàn)室合作部署42kW風(fēng)冷算力倉
實(shí)驗(yàn)室部署42kW風(fēng)冷算力倉,加速AI for Science科研創(chuàng)新
梯度科技成為AI Cloud MSP技術(shù)服務(wù)實(shí)驗(yàn)室首批成員單位
潤和軟件助力實(shí)驗(yàn)室行業(yè)智慧化發(fā)展
深圳南柯電子 EMC電磁兼容性實(shí)驗(yàn)室:提升電子產(chǎn)品競爭力的關(guān)鍵
![深圳南柯電子 EMC電磁兼容性<b class='flag-5'>實(shí)驗(yàn)室</b>:提升電子產(chǎn)品競爭<b class='flag-5'>力</b>的<b class='flag-5'>關(guān)鍵</b>](https://file1.elecfans.com//web2/M00/0B/58/wKgaomcgewOAO1ogACC605RP09E950.jpg)
評論