欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深入解讀Grace CPU芯片架構(gòu)

架構(gòu)師技術(shù)聯(lián)盟 ? 來源:半導(dǎo)體行業(yè)觀察 ? 2023-02-02 11:47 ? 次閱讀

NVIDIA Grace CPU是 NVIDIA 開發(fā)的第一款數(shù)據(jù)中心 CPU。通過將 NVIDIA 專業(yè)知識與 Arm 處理器、片上結(jié)構(gòu)、片上系統(tǒng) (SoC) 設(shè)計和彈性高帶寬低功耗內(nèi)存技術(shù)相結(jié)合。參考內(nèi)容“NVIDIA GraceCPU處理器合集”。

NVIDIA Grace CPU 從頭開始構(gòu)建,以創(chuàng)建世界上第一個用于計算的超級芯片(super chip)。超級芯片的核心是NVLink Chip-2-Chip (C2C),它允許 NVIDIA Grace CPU 以 900 GB/s 的雙向帶寬與超級芯片中的另一個 NVIDIA Grace CPU 或NVIDIA Hopper GPU進行通信。

NVIDIA Grace Hopper Superchip將節(jié)能、高帶寬的 NVIDIA Grace CPU 與功能強大的 NVIDIA H100 Hopper GPU 結(jié)合使用 NVLink-C2C,以最大限度地提高強大的高性能計算 (HPC) 和巨型 AI 工作負載的能力。 NVIDIA Grace CPU 超級芯片是使用兩個通過 NVLink-C2C 連接的 Grace CPU 構(gòu)建的。該超級芯片建立在現(xiàn)有 Arm 生態(tài)系統(tǒng)的基礎(chǔ)上,為 HPC、要求苛刻的云工作負載以及高性能和高能效的密集基礎(chǔ)設(shè)施創(chuàng)建了首個毫不妥協(xié)的 Arm CPU。 在本文中,您將了解 NVIDIA Grace CPU 超級芯片以及提供 NVIDIA Grace CPU 性能和能效的技術(shù)。有關(guān)詳細信息。

cde8af2a-a2ab-11ed-bfe3-dac502259ad0.png

圖 1. 與雙插槽 Milan 7763 CPU 相比,NVIDIA Grace CPU Superchip 上應(yīng)用程序的性能和節(jié)能效果

專為 HPC 和 AI 工作負載打造的超級芯片

NVIDIA Grace CPU 超級芯片通過將旗艦雙路 x86-64 服務(wù)器或工作站平臺提供的性能水平集成到單個超級芯片中,代表了計算平臺設(shè)計的一場革命。高效的設(shè)計可在較低的功率范圍內(nèi)實現(xiàn) 2 倍的計算密度。

cdfc2992-a2ab-11ed-bfe3-dac502259ad0.png

NVIDIA Grace CPU 旨在提供高單線程性能、高內(nèi)存帶寬和出色的數(shù)據(jù)移動能力,每瓦性能領(lǐng)先。NVIDIA Grace CPU Superchip 結(jié)合了兩個連接超過 900 GB/s 雙向帶寬 NVLink-C2C 的 NVIDIA Grace CPU,提供 144 個高性能 Arm Neoverse V2 內(nèi)核和高達 1 TB/s 帶寬的數(shù)據(jù)中心級 LPDDR5X 內(nèi)存,帶糾錯碼( ECC)內(nèi)存。

ce11bd20-a2ab-11ed-bfe3-dac502259ad0.png

圖2. 具有 900 GB/s NVLink-C2C 的 NVIDIA Grace CPU 超級芯片

使用 NVLink-C2C 互連緩解瓶頸

為了擴展到 144 個 Arm Neoverse V2 內(nèi)核并在兩個 CPU 之間移動數(shù)據(jù),NVIDIA Grace CPU Superchip 需要在 CPU 之間建立高帶寬連接。NVLink C2C 互連在兩個 NVIDIA Grace CPU 之間提供高帶寬直接連接,以創(chuàng)建 NVIDIA Grace CPU 超級芯片。

使用 NVIDIA Scalable Coherency Fabric 擴展內(nèi)核和帶寬

現(xiàn)代 CPU 工作負載需要快速的數(shù)據(jù)移動。由 NVIDIA 設(shè)計的可擴展一致性結(jié)構(gòu) (SCF) 是一種網(wǎng)狀結(jié)構(gòu)和分布式緩存架構(gòu),旨在擴展內(nèi)核和帶寬(圖 3)。SCF 提供超過 3.2 TB/s 的總二分帶寬,以保持數(shù)據(jù)在 CPU 內(nèi)核、NVLink-C2C、內(nèi)存和系統(tǒng) IO 之間流動。 CPU 核心和 SCF 緩存分區(qū)分布在整個網(wǎng)格中,而緩存交換節(jié)點通過結(jié)構(gòu)路由數(shù)據(jù)并充當 CPU、緩存內(nèi)存和系統(tǒng) IO 之間的接口。NVIDIA Grace CPU 超級芯片在兩個芯片上具有 234 MB 的分布式三級緩存。

ce212ec2-a2ab-11ed-bfe3-dac502259ad0.jpg

圖3. NVIDIA Grace CPU 和可擴展一致性結(jié)構(gòu)

LPDDR5X

能效和內(nèi)存帶寬都是數(shù)據(jù)中心 CPU 的關(guān)鍵組成部分。NVIDIA Grace CPU Superchip 使用高達 960 GB 的服務(wù)器級低功耗 DDR5X (LPDDR5X) 內(nèi)存和 ECC。此設(shè)計為大規(guī)模 AI 和 HPC 工作負載實現(xiàn)了帶寬、能效、容量和成本的最佳平衡。 與八通道 DDR5 設(shè)計相比,NVIDIA Grace CPU LPDDR5X 內(nèi)存子系統(tǒng)以每千兆字節(jié)每秒八分之一的功率提供高達 53% 的帶寬,同時成本相似。HBM2e 內(nèi)存子系統(tǒng)本可以提供大量內(nèi)存帶寬和良好的能效,但每 GB 成本是其 3 倍多,并且僅為 LPDDR5X 可用最大容量的八分之一。 LPDDR5X 較低的功耗降低了整體系統(tǒng)功率要求,并使更多資源能夠用于 CPU 內(nèi)核。緊湊的外形使基于 DIMM 的典型設(shè)計的密度提高了 2 倍。

NVIDIA Grace CPU I/O

NVIDIA Grace CPU Superchip 支持多達 128 條用于 IO 連接的 PCIe Gen 5 通道。8 個 PCIe Gen 5 x16 鏈路中的每一個都支持高達 128 GB/s 的雙向帶寬,并且可以分為 2x8 個以提供額外的連接,并且可以支持各種 PCIe 插槽形狀因數(shù),開箱即用地支持NVIDIA GPU和NVIDIA DPU、NVIDIA ConnectX SmartNIC、E1.S 和 M.2 NVMe 設(shè)備、模塊化 BMC 選項等。?

NVIDIA Grace CPU 核心架構(gòu)

為了實現(xiàn)最大的工作負載加速,快速高效的 CPU 是系統(tǒng)設(shè)計的重要組成部分。Grace CPU 的核心是 Arm Neoverse V2 CPU 內(nèi)核。Neoverse V2 是 Arm V 系列基礎(chǔ)架構(gòu) CPU 內(nèi)核中的最新產(chǎn)品,經(jīng)過優(yōu)化可提供領(lǐng)先的每線程性能,同時與傳統(tǒng) CPU 相比提供領(lǐng)先的能效。

ce3caf44-a2ab-11ed-bfe3-dac502259ad0.jpg

圖4. NVIDIA Grace CPU 的 Arm Neoverse V2 內(nèi)核

Arm架構(gòu)

NVIDIA Grace CPU Neoverse V2 核心實現(xiàn)了 Armv9-A 架構(gòu),它將 Armv8-A 架構(gòu)中定義的架構(gòu)擴展到 Armv8.5-A。為 Armv8.5-A 之前的 Armv8 架構(gòu)構(gòu)建的任何應(yīng)用程序二進制文件都將在 NVIDIA Grace CPU 上執(zhí)行。這包括針對 Ampere Altra、AWS Graviton2 和AWS Graviton3等 CPU 的二進制文件。

SIMD指令

Neoverse V2 在 4×128 位配置中實現(xiàn)了兩個單指令多數(shù)據(jù) (SIMD) 向量指令集:可擴展向量擴展版本 2 (SVE2) 和高級 SIMD (NEON)。四個 128 位功能單元中的每一個都可以退出 SVE2 或 NEON 指令。這種設(shè)計使更多代碼能夠充分利用 SIMD 性能。SVE2 通過高級指令進一步擴展了 SVE ISA,這些指令可以加速機器學(xué)習(xí)、基因組學(xué)和密碼學(xué)等關(guān)鍵 HPC 應(yīng)用程序。

原子操作(Atomic operation)

NVIDIA Grace CPU 支持在 Armv8.1 中首次引入的大型系統(tǒng)擴展 (LSE)。LSE 提供低成本的原子操作,可以提高 CPU 到 CPU 通信、鎖和互斥鎖的系統(tǒng)吞吐量。這些指令可以對整數(shù)數(shù)據(jù)進行操作。所有支持 NVIDIA Grace CPU 的編譯器都將在同步函數(shù)中自動使用這些指令,例如 GNU 編譯器集合__atomic內(nèi)置函數(shù)和std::atomic. 當使用 LSE 原子而不是加載/存儲獨占時,改進可以達到一個數(shù)量級。

Armv9 附加功能

NVIDIA Grace CPU實現(xiàn)了Armv9 產(chǎn)品組合的多項關(guān)鍵功能,可在通用數(shù)據(jù)中心 CPU 中提供實用程序,包括但不限于加密加速、可擴展分析擴展、虛擬化擴展、全內(nèi)存加密、安全啟動等。

NVIDIA Grace CPU 軟件

NVIDIA Grace CPU Superchip 旨在為軟件開發(fā)人員提供符合標準的平臺。 NVIDIA Grace CPU 符合 Arm 服務(wù)器基礎(chǔ)系統(tǒng)架構(gòu) (SBSA),以支持符合標準的硬件和軟件接口。此外,為了在基于 Grace CPU 的系統(tǒng)上啟用標準引導(dǎo)流程,Grace CPU 被設(shè)計為支持 Arm 服務(wù)器基本引導(dǎo)要求 (SBBR)。所有主要的 Linux 發(fā)行版,以及它們提供的大量軟件包,都可以在 NVIDIA Grace CPU 上完美運行,無需修改。 編譯器、庫、工具、分析器、系統(tǒng)管理實用程序以及用于容器化和虛擬化的框架現(xiàn)已上市,并且可以像在任何其他數(shù)據(jù)中心 CPU 上一樣輕松地在 NVIDIA Grace CPU 上安裝和使用。 此外,整個 NVIDIA 軟件堆棧都可用于 NVIDIA Grace CPU。NVIDIA HPC SDK 和每個 CUDA 組件都有 Arm 原生安裝程序和容器。NVIDIA GPU Cloud (NGC) 還提供深度學(xué)習(xí)、機器學(xué)習(xí)和針對 Arm 優(yōu)化的 HPC 容器。NVIDIA Grace CPU 遵循主流 CPU 設(shè)計原則,并且與任何其他服務(wù)器 CPU 一樣進行編程

ce504d1a-a2ab-11ed-bfe3-dac502259ad0.png

圖 5. NVIDIA Grace CPU 軟件生態(tài)系統(tǒng)將用于 CPU、GPU 和 DPU 的全套 NVIDIA 軟件與完整的 Arm 數(shù)據(jù)中心生態(tài)系統(tǒng)相結(jié)合

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19439

    瀏覽量

    231315
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10911

    瀏覽量

    213144
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5080

    瀏覽量

    103823
  • 芯片架構(gòu)
    +關(guān)注

    關(guān)注

    1

    文章

    31

    瀏覽量

    14593

原文標題:深入解讀Grace CPU芯片架構(gòu)

文章出處:【微信號:架構(gòu)師技術(shù)聯(lián)盟,微信公眾號:架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    MediaTek與NVIDIA攜手設(shè)計GB10 Grace Blackwell超級芯片

    MediaTek與NVIDIA近日宣布了一項重要合作,雙方將共同設(shè)計NVIDIA GB10 Grace Blackwell超級芯片。這款超級芯片將被應(yīng)用于NVIDIA的個人AI超級計算機
    的頭像 發(fā)表于 01-13 10:48 ?194次閱讀

    MediaTek與NVIDIA攜手打造GB10 Grace Blackwell超級芯片

    MediaTek近日正式宣布與NVIDIA攜手合作,共同設(shè)計NVIDIA GB10 Grace Blackwell超級芯片。這款芯片將被應(yīng)用于NVIDIA的個人AI超級計算機——NVIDIA
    的頭像 發(fā)表于 01-08 15:32 ?356次閱讀

    《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第二篇閱讀心得:芯片拓撲學(xué):并行擴展與CPU設(shè)計的巨頭對決

    1 芯片拓撲結(jié)構(gòu):多核互聯(lián)的藝術(shù) 繼續(xù)深入《算力芯片》一書,第5-6章探討了芯片拓撲結(jié)構(gòu)與經(jīng)典CPU芯片
    發(fā)表于 10-29 01:48

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--了解算力芯片CPU

    Computing)拓撲是一種特殊的 CPU設(shè)計,其核心思想是將在儲器和運算器緊密地結(jié)合在一起,使得計算操作可以在存儲器中進行,從而大幅提高數(shù)據(jù)處理效率和性能。 通過章節(jié)學(xué)習(xí),可以看到算力芯片從組成設(shè)計上來說知識點還是蠻多的,通過梳理學(xué)習(xí),有了進一步的認識,對
    發(fā)表于 10-20 12:03

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--全書概覽

    芯片UMA與NUMA 第6章 經(jīng)典算力 CPU 芯片解讀 6.1 申威處理器 6.2 富士通A64FX處理器 6.3 蘋果M1處理器 6.4 Ampere處理器 6.5 IBMPOW
    發(fā)表于 10-15 22:08

    FPGA芯片架構(gòu)和資源有深入的理解,精通Verilog HDL、VHDL

    、計算機相關(guān)專業(yè),具有良好的專業(yè)基礎(chǔ)知識。 2.工作年限不限,有工作經(jīng)驗或優(yōu)秀應(yīng)屆畢業(yè)生亦可。 3.對FPGA芯片架構(gòu)和資源有深入的理解,精通Verilog HDL、VHDL編程語言,熟悉時序約束、時序分析
    發(fā)表于 09-15 15:23

    自動駕駛?cè)笾髁?b class='flag-5'>芯片架構(gòu)分析

    當前主流的AI芯片主要分為三類,GPU、FPGA、ASIC。GPU、FPGA均是前期較為成熟的芯片架構(gòu),屬于通用型芯片。ASIC屬于為AI特定場景定制的
    的頭像 發(fā)表于 08-19 17:11 ?1816次閱讀
    自動駕駛?cè)笾髁?b class='flag-5'>芯片</b><b class='flag-5'>架構(gòu)</b>分析

    解讀MIPI A-PHY與車載Serdes芯片技術(shù)與測試

    上一期,《汽車芯片標準體系建設(shè)指南》技術(shù)解讀與功率芯片測量概覽中,我們給大家介紹了工信部印發(fā)的《汽車芯片標準體系建設(shè)指南》涉及到的重點芯片
    的頭像 發(fā)表于 07-24 10:14 ?3108次閱讀
    <b class='flag-5'>解讀</b>MIPI A-PHY與車載Serdes<b class='flag-5'>芯片</b>技術(shù)與測試

    飛天技術(shù)沙龍回顧:業(yè)務(wù)創(chuàng)新新選擇,倚天Arm架構(gòu)深入探討

    日前,飛天技術(shù)沙龍《業(yè)務(wù)創(chuàng)新新選擇,倚天Arm架構(gòu)深入探索》在上海成功舉行。來自阿里云、平頭哥及Arm的專家為現(xiàn)場觀眾深入解讀了Arm架構(gòu)
    的頭像 發(fā)表于 05-21 16:48 ?646次閱讀
    飛天技術(shù)沙龍回顧:業(yè)務(wù)創(chuàng)新新選擇,倚天Arm<b class='flag-5'>架構(gòu)</b><b class='flag-5'>深入</b>探討

    進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    NVLink 芯片芯片(C2C)互連,顯著加快數(shù)據(jù)庫查詢過程。在查詢基準測試中,Grace Blackwell 的執(zhí)行速度比 CPU (Sapphire Rapids)快 18 倍
    發(fā)表于 05-13 17:16

    美國首個Grace Hopper架構(gòu)超算Venado落地:達10 exaFLOPS

    該超級計算機是由惠普企業(yè)集團(Hewlett Packard Enterprise)打造,其運算能力高達 10 exaFLOPS,它是美國第一款采用英偉達Grace Hopper芯片架構(gòu)的超級計算機系統(tǒng)。
    的頭像 發(fā)表于 04-18 14:37 ?477次閱讀

    X-Silicon發(fā)布RISC-V新架構(gòu) 實現(xiàn)CPU/GPU一體化

    X-Silicon 的芯片與其他架構(gòu)不同,其設(shè)計將 CPU 和 GPU 的功能整合到單核架構(gòu)中。這與英特爾和 AMD 的典型設(shè)計不同,前者有獨立的
    發(fā)表于 04-08 11:34 ?659次閱讀
    X-Silicon發(fā)布RISC-V新<b class='flag-5'>架構(gòu)</b> 實現(xiàn)<b class='flag-5'>CPU</b>/GPU一體化

    交換芯片架構(gòu)是什么意思 交換芯片架構(gòu)怎么工作

    交換芯片架構(gòu)是指交換芯片內(nèi)部的設(shè)計和組織方式,包括其硬件組件、處理單元、內(nèi)存結(jié)構(gòu)、接口以及其他關(guān)鍵部分的布局和相互作用。交換芯片架構(gòu)決定了
    的頭像 發(fā)表于 03-22 16:45 ?844次閱讀

    NVIDIA推出搭載GB200 Grace Blackwell超級芯片的NVIDIA DGX SuperPOD?

    NVIDIA 于太平洋時間 3 月 18 日發(fā)布新一代 AI 超級計算機 —— 搭載 NVIDIA GB200 Grace Blackwell 超級芯片的 NVIDIA DGX SuperPOD?。
    的頭像 發(fā)表于 03-21 09:49 ?818次閱讀

    Arm架構(gòu)與Neoverse技術(shù)在基礎(chǔ)設(shè)施領(lǐng)域的應(yīng)用與發(fā)展

    Arm的Neoverse系列已有穩(wěn)定的立足點。例如,英偉達的超級芯片Grace-Hopper就是由兩片獨立的芯片組成,其中 Hopper負責處理所有AI任務(wù),如張量運算,Grace則扮
    的頭像 發(fā)表于 02-22 15:36 ?661次閱讀