欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI芯片需要怎樣的內存

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2020-10-30 05:03 ? 次閱讀

經歷了幾年的高速發(fā)展之后,人工智能(簡稱 AI)不再是新鮮的名詞,它已經作為一個重要的生產工具,被引入到我們工作和生活的多個領域。但在 AI 爆發(fā)的背后,隨之而來的是對 AI 算力需求的暴增。

據(jù) OpenAI 的一份報告顯示,從 2012 年到 2019 年,人工智能訓練集增長了 30 萬倍,每 3.43 個月翻一番,但如果是以摩爾定律的速度,只會有 12 倍的增長。為了滿足 AI 算力的需求,從業(yè)人員通過設計專用的 AI 芯片、重配置硬件和算法創(chuàng)新等多方面入手來達成目標。

AI 算力需求增長

然而在此過程中,我們除了看到 AI 對算力的要求以外,內存帶寬也是限制 AI 芯片發(fā)展的另一個關鍵要素。這就需要從傳統(tǒng)的馮諾依曼架構談起。作為當前芯片的主流架構,馮諾依曼架構的一大特征就是計算和內存分離的。那就意味著每進行一次計算,計算單元都要從內存中讀取數(shù)據(jù)然后計算,再把計算結構存回到內存當中。

經典的馮諾依曼架構

在過往,這個架構的短板并不是很明顯,因為處理器和內存的速度都都非常接近。但眾所周知的是,在摩爾定律指導下的處理器在過去幾十年里發(fā)生了翻天覆地的變化,但常用的 DRAM 方案與之相比,提升幅度不值一提。

再者,在 AI 時代,數(shù)據(jù)傳輸量越來越大。先進的駕駛員輔助系統(tǒng)(ADAS)為例。第 3 級及更高級別系統(tǒng)的復雜數(shù)據(jù)處理需要超過 200 GB/s 的內存帶寬。這些高帶寬是復雜的 AI/ML 算法的基本需求,在道路上自駕過程中這些算法需要快速執(zhí)行大量計算并安全地執(zhí)行實時決策。在第 5 級,即完全自主駕駛,車輛能夠獨立地對交通標志和信號的動態(tài)環(huán)境作出反應,以及準確地預測汽車、卡車、自行車和行人的移動,將需要巨大的內存帶寬。

因此,AI 芯片尋找新的內存方案迫在眉睫,其中 HBM 和 GDDR SDRAM(簡稱 GDDR)就成為了行業(yè)的選擇。

為什么是 HBM 和 GDDR ?

HBM 就是 High Bandwidth Memory 的縮寫,也就是高帶寬內存,這是一項在 2013 年 10 月被 JEDEC 采納為業(yè)界標準的內存技術。按照 AMD 的介紹,這種新型的 CPU/GPU 內存芯片(即 “RAM”),就像摩天大廈中的樓層一樣可以垂直堆疊?;谶@種設計,信息交換的時間將會縮短。這些堆疊的芯片通過稱為“中介層 (Interposer)”的超快速互聯(lián)方式連接至 CPU 或 GPU。將 HBM 的堆棧插入到中介層中,放置于 CPU 或 GPU 旁邊,然后將組裝后的模塊連接至電路板。

盡管這些 HBM 堆棧沒有以物理方式與 CPU 或 GPU 集成,但通過中介層緊湊而快速地連接后,HBM 具備的特性幾乎和芯片集成的 RAM 一樣。更重要的是,這些獨特的設計能給

開發(fā)者帶來功耗、性能和尺寸等多個方面的優(yōu)勢。

從第一代 HBM 與 2013 年面世后,JEDEC 又分別在 2016 年和 2018 把 HBM2 和 HBM2E 納為行業(yè)標準。據(jù)了解,在 HBM2E 規(guī)范下,當傳輸速率上升到每管腳 3.6Gbps 時,HBM2E 可以實現(xiàn)每堆棧 461GB/s 的內存帶寬。此外,HBM2E 支持 12 個 DRAM 的堆棧,內存容量高達每堆棧 24 GB。

具體而言,就是說每一個運行速度高達 3.6Gbps 的 HBM2E 堆棧通過 1024 個數(shù)據(jù)“線”的接口連接到它的相關處理器。通過命令和地址,線的數(shù)量增加到大約 1700 條。這遠遠超出了標準 PCB 所能支持的范圍。因此,硅中介層被采用作為連接內存堆棧和處理器的中介。與 SoC 一樣,精細數(shù)據(jù)走線可以在硅中介層中以蝕刻間隔的方式實現(xiàn),以獲得 HBM 接口所需數(shù)量的數(shù)據(jù)線數(shù)。

得益于其巨大內存帶寬的能力,使得連接到一個處理器的四塊 HBM2E 內存堆棧將提供超過 1.8 TB/s 的帶寬。通過 3D 堆疊內存,可以以極小的空間實現(xiàn)高帶寬和高容量需求。進一步,通過保持相對較低的數(shù)據(jù)傳輸速率,并使內存靠近處理器,總體系統(tǒng)功率得以維持在較低水位。

根據(jù) Rambus 的介紹,HBM2E 的性能非常出色,所增加的采用和制造成本可以透過節(jié)省的電路板空間和電力相互的緩解 。在物理空間日益受限的數(shù)據(jù)中心環(huán)境中,HBM2E 緊湊的體系結構提供了切實的好處。它的低功率意味著它的熱負荷較低,在這種環(huán)境中,冷卻成本通常是幾個最大的運營成本之一。

正因為如此,HBM2E 成為了 AI 芯片的一個優(yōu)先選擇,這也是英偉達Tesla A100 和谷歌在二代 TPU 上選擇這個內存方案的原因。但如前面所說,因為 HBM 獨特的設計,其復雜性、成本都高于其他方案,這時候,GDDR 就發(fā)揮了重大的作用。

據(jù)了解,圖形 DDR SDRAM(GDDR SDRAM)最初是 20 多年前為游戲和顯卡市場設計的。在這段時間內,GDDR 經歷了幾次重大變革,最新一代 GDDR6 的數(shù)據(jù)傳輸速率為 16Gbps。GDDR6 提供了令人印象深刻的帶寬、容量、延遲和功率。它將工作電壓從 1.5V 降低到 1.35V 以獲得更高的功率效率,并使 GDDR5 內存的數(shù)據(jù)傳輸速率(16 比 8 Gbps)和容量(16 比 8 GB)翻了一番。Rambus 已經演示了一個運行速度為 18 Gbps 的 GDDR6 接口,顯示這種內存架構還有額外的增長空間。

與 HBM2E 不同,GDDR6 DRAM 采用與生產標準 DDR 式 DRAM 的大批量制造和組裝一樣的技術。更具體地說,GDDR6 采用傳統(tǒng)的方法,通過標準 PCB 將封裝和測試的 DRAMs 與 SoC 連接在一起。利用現(xiàn)有的基礎架構和流程為系統(tǒng)設計者提供了熟悉度,從而降低了成本和實現(xiàn)的復雜性。

與 HBM2E 寬而慢的內存接口不同,GDDR6 接口窄而快。兩個 16 位寬通道(32 條數(shù)據(jù)線)將 GDDR6 PHY 連接到相關的 SDRAM。GDDR6 接口以每針 16 Gbps 的速度運行,可以提供 64 GB/s 的帶寬。回到我們之前的 L3 汽車示例,GDDR6 內存系統(tǒng)以連接四個 DRAM 設備為例,帶寬可以達到 200 GB/s。

采用 GDDR6 的主要設計挑戰(zhàn)也來自于它最強大的特性之一:速度。在較低的電壓條件,16 Gbps 的信號速度下,保持信號完整性需要大量的專業(yè)經驗知識。設計人員面臨更緊的時序和電壓裕度量損失,這些損失來源與影響都在迅速增加。系統(tǒng)的接口行為、封裝和電路板需要相互影響,需要采用協(xié)同設計方法來保證系統(tǒng)的信號完整性。

總的來說,GDDR6 內存的優(yōu)異性能特性建立久經考驗的基礎制造過程之上,是人工智能推理的理想內存解決方案。其出色的性價比使其適合在廣泛的邊緣網(wǎng)絡物聯(lián)網(wǎng)終端設備上大量采用。

Rambus 將扮演重要角色

從上文的介紹中,我們看到了 HBM2E 和 GDDR 6 在 AI 中的重要作用,而要真正將其落實到 AI 芯片中,相應的 IP 供應商將是很關鍵的一環(huán),而 Rambus 將扮演這個重要角色。

據(jù) Rambus 大中華區(qū)總經理 Raymond Su 介紹,Rambus 成立于上個世紀 90 年代,是一家領先的 Silicon IP 和芯片提供商,公司主要致力于讓數(shù)據(jù)傳輸?shù)酶?、更安全。而?a target="_blank">產品上看,Rambus 的產品主要聚焦于三大塊:分別是基礎架構許可、Silicon IP 授權,還有 buffer chip 芯片業(yè)務。

“得益于這些深厚的積累,我們能提供友商所不具備的差異性服務”,Raymond Su 補充說。他指出:

首先,在內存 IP 層面,Rambus 提供一站式的采購和“turn key”服務。而公司在去年完成的對全球知名的 IP 控制器公司 Northwest Logic 和對 Verimatrix 安全 IP 業(yè)務部,可以讓 Rambus 能夠提供更好的一站式的服務。

“通過這樣的服務,Rambus IP 可以很好地幫助客戶盡早地把產品推向市場”,Raymond Su 表示。

其次,作為全球領先的 HBM IP 供應商,Rambus 在全球已經有 50 多個成功項目案例,積累了大量的經驗;而在 DDR5 Buffer Chip(緩沖芯片)方面,Rambus 也是全球首發(fā)。這讓他們在 DDR5 時代有信心改變整個市場。而在 AI 芯片迫切需要的 HBM2E 和 GDDR 6 IP 方面,Rambus 也都做好了準備。

從 Rambus IP 核產品營銷高級總監(jiān) Frank Ferro 的介紹我們得知,他們將 HBM2E 的性能提升到了 4Gbps。在他看來,這個速度是一個全新的行業(yè)標桿,而此次 Rambus 發(fā)布我們全新的 HBM2E 產品也正是實現(xiàn)了這一行業(yè)最高標準。

根據(jù) Rambus 發(fā)布的白皮書介紹,他們 HBM2E 接口完全符合 JEDEC JESD235B 標準。支持每個數(shù)據(jù)引腳高達 3.6 Gbps 的數(shù)據(jù)傳輸速率。該接口具有 8 個獨立的通道,每個通道包含 128 位,總數(shù)據(jù)寬度為 1024 位。由此每個堆棧支持的帶寬是 461GB/s,每個堆棧由 2、4、8 或 12 個 DRAMs 組成。

作為一個為 2.5D 系統(tǒng)設計的 IP,它有一個用于在 3D-DRAM 堆棧和 SoC 上的 PHY 之間的中介層由提供信號繞線。這種信號密度和堆積尺寸的組合需要特殊的設計考慮。為了便于實施和提高了設計的靈活性,Rambus 對整個 2.5D 系統(tǒng)進行完整的信號和功率完整性分析,以確保所有信號、功率和散熱要求都得到滿足。而在于其他競爭對手相比,Rambus 的 HBM IP 則有著大多數(shù)廠商布局的幾點核心優(yōu)勢:

第一,Rambus 提供的是完全集成而且經過驗證的 PHY 以及內存控制器 IP 解決方案,在物理層面實現(xiàn)完整的集成互聯(lián)。除了完整的內存子系統(tǒng)之外,他們的 PHY 也經過了硬核化處理,同時也完成了 timing closed 也就是時序收斂的工作。

“我們給客戶提供的并不僅僅是自己的 IP 授權、IP 產品,我們也會向客戶提供系統(tǒng)級的全面的集成支持,以及相關的工具套件,以及我們的技術服務。同時,我們也可以幫助客戶更加進一步地減少設計實現(xiàn)的難度?!?Frank Ferro 補充說。他進一步指出,在發(fā)布了這個 IP 之后,Rambus 將會為人工智能以及機器學習的應用客戶提供更加完整的解決方案,幫助他們進一步地提高帶寬,滿足他們在帶寬上的需求。

第二,Rambus 擁有非常強大的 HBM 生產經驗,在這方面,公司已經擁有了全球超過 50 家成功的客戶案例,這在全球是名列前茅的。更重要的一點,Rambus 所有合作客戶的芯片從設計到原型再到投產,并不需要任何的設計返工,基本上所有的芯片都會實現(xiàn)一次的成功。這足以體現(xiàn)他們的實力。

第三,Rambus 為客戶提供非常完整的參考設計框架,其中最重要的一點就是如何更好地對中介層進行完整的設計和表征化的處理。“因為對于中介層來,講它是 PHY 層和 DRAM 層之間溝通的重要環(huán)節(jié),在這個過程中,因為速度非???,所以說如何保證信號完整性也是必須要去考慮的?!?Frank Ferro 表示。

他進一步指出,Rambus 與客戶非常緊密地進行合作,并為他們提供非常完整的參考設計框架,然后幫助他們更好地去設計自己的中介層以及產品的封裝。除此之外,Rambus 也幫助客戶做仿真分析,讓他們對自己每個信號的通道進行完整的分析,來實現(xiàn)整個產品的最高性能。

第四,這也是非常重要的一點,那就是 Rambus 有一套非常重要的工具——Lab Station。借助這個工具,Rambus 會與客戶進行合作,讓他們將其 HBM2E 解決方案直接插入到他們的終端系統(tǒng)當中,來構建一個非常獨立的內存子系統(tǒng)。

能在 HBM2E IP 獲得這樣的成就,一方面,Rambus 的研發(fā)投入功不可沒;另一方面,他們與 SK 海力士、AIChip 和臺積電多方人員的通力合作,也是他們能提供快速服務的原因之一。例如在 SK 海力士方面,它為 Rambus 提供的 HBM2E 內存達到了 3.6G 的數(shù)據(jù)傳輸速率,而在和合作過程中,兩者又將 HBM2E 的速率進一步地推進到了 4.0 Gbps;AIchip 則為 Rambus 提供了 ASIC 的相關解決方案以及產品,幫助其設計了相關中介層以及封裝;此外,臺積電提供了一個交鑰匙的 2.5D Cowos 封裝以及解決方案,來更好地為 Rambus 打造一個晶圓上的基本架構。

“我們的解決方案適用于人工智能以及機器學習的訓練,同時也非常適用于高性能計算系統(tǒng)和 5G 網(wǎng)絡的基礎設施建設”,F(xiàn)rank Ferro 最后說。

除了面向 AI 訓練的 HMB2E IP,Rambus 還推出了面向 AI 推理的 GDDR 6 產品。

據(jù) Rambus 的白皮書介紹,公司的 GDDR6 接口專為性能和功率效率而設計,支持 AI/ML 和 ADAS 推理高帶寬與低延遲要求。它由一個經共同驗證的 PHY 和數(shù)字控制器組成,提供一個完整的 GDDR6 內存子系統(tǒng)。Rambus GDDR6 接口完全符合 JEDEC GDDR6 JESD250 標準,每個引腳支持高達 16 Gbps。GDDR6 接口支持 2 個通道,每個通道有 16 位,

總數(shù)據(jù)寬度為 32 位。Rambus GDDR6 接口每針 16 Gbps,提供帶寬為 64 GB/s。

通過直接與客戶合作,Rambus 能提供完整的系統(tǒng)信號和電源完整性(SI/PI)分析,創(chuàng)建優(yōu)化的芯片布線版圖??蛻羰盏揭粋€硬核解決方案與全套測試軟件可以快速啟動,定性和調試。

在“內存墻”的限制下,為了滿足 AI 應用的數(shù)據(jù)搬運需求,產業(yè)界正在探索不同的方法來解決問題。例如英國 AI 芯片初創(chuàng)企業(yè) Graphcore 就希望通過分布式內存設計的方法解決這個問題。

而 Rambus 的這兩個方案出現(xiàn)那就給開發(fā)者們提供了在傳統(tǒng)架構設計上獲得性能大提升的可能。

審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    456

    文章

    51263

    瀏覽量

    427749
  • 內存
    +關注

    關注

    8

    文章

    3063

    瀏覽量

    74374
  • AI
    AI
    +關注

    關注

    87

    文章

    31682

    瀏覽量

    270478
收藏 人收藏

    評論

    相關推薦

    英偉達加速認證三星AI內存芯片

    近日,英偉達公司正在積極推進對三星AI內存芯片的認證工作。據(jù)英偉達CEO透露,他們正在不遺余力地加速這一進程,旨在盡快將三星的內存解決方案融入其產品中。 此次認證工作的焦點在于三星的H
    的頭像 發(fā)表于 11-25 14:34 ?310次閱讀

    北橋芯片負責與cpu的聯(lián)系并控制內存

    北橋芯片,也被稱為內存控制器或系統(tǒng)控制器,是計算機主板上的一個重要組成部分。它負責管理CPU、內存、以及其他系統(tǒng)組件之間的數(shù)據(jù)傳輸和通信。 1. 北橋芯片的定義和功能 北橋
    的頭像 發(fā)表于 10-14 10:37 ?829次閱讀

    3D DRAM內嵌AI芯片,AI計算性能暴增

    當前高帶寬內存(HBM)中的DRAM芯片,通過在3D DRAM中實現(xiàn)AI處理來解決數(shù)據(jù)總線問題。 ? 通常來說,當前的 AI芯片架構將數(shù)據(jù)存
    的頭像 發(fā)表于 08-16 00:08 ?3353次閱讀
    3D DRAM內嵌<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>,<b class='flag-5'>AI</b>計算性能暴增

    AI智能眼鏡都需要什么芯片

    國內的廠家又該如何跟上這一潮流趨勢?那咱們國內廠商的AI智能眼鏡究竟需要什么樣的芯片來支撐它的運行呢?如果你對以上問題感興趣的話就來聽我嘮嘮吧。接下來介紹設計AI
    的頭像 發(fā)表于 07-11 08:17 ?1623次閱讀
    <b class='flag-5'>AI</b>智能眼鏡都<b class='flag-5'>需要</b>什么<b class='flag-5'>芯片</b>

    我們需要怎樣的大模型?

    AI時代,我們需要怎樣的大模型?這個問題盡管我們無法給出一個確定的答案,但顯而易見的是,用戶的選擇正逐漸匯聚成一股趨勢。6月28日,在WAVESUMMIT深度學習開發(fā)者大會上,百度公布了文心一言
    的頭像 發(fā)表于 07-03 08:05 ?112次閱讀
    我們<b class='flag-5'>需要</b><b class='flag-5'>怎樣</b>的大模型?

    ai開發(fā)需要什么配置

    AI開發(fā)是一個復雜的過程,涉及到多個方面的配置。 硬件配置 AI開發(fā)需要高性能的硬件支持,主要包括以下幾個方面: 1.1 CPU AI開發(fā)需要
    的頭像 發(fā)表于 07-02 09:54 ?1577次閱讀

    AI芯片會導元件中間商消失嗎?

    元件AI芯片
    芯廣場
    發(fā)布于 :2024年06月19日 18:10:01

    AI芯片哪里買?

    AI芯片
    芯廣場
    發(fā)布于 :2024年05月31日 16:58:19

    risc-v多核芯片AI方面的應用

    RISC-V多核芯片AI方面的應用主要體現(xiàn)在其低功耗、低成本、靈活可擴展以及能夠更好地適應AI算法的不同需求等特點上。 首先,RISC-V適合用于高效設計實現(xiàn),其內核面積更小,功耗更低,使得它能
    發(fā)表于 04-28 09:20

    一鍵消原音智能AI芯片PTN1118芯片簡介

    PTN1118植入帕特納微AI(SVS),實現(xiàn)將任意音源中人聲部分消除,并在極大程度上保留伴奏,配合PTN 卡拉OK系列芯片,使傳統(tǒng)音頻設備更富娛樂性。 支持模擬與數(shù)字輸入輸出,數(shù)字接口支持從模式 人聲消除深淺度可調(比如,保留25%人聲) 有
    發(fā)表于 04-12 17:40

    AI芯片未來會控制這個世界嗎?

    AI芯片行業(yè)資訊
    芯廣場
    發(fā)布于 :2024年03月27日 18:21:28

    大算力時代, 如何打破內存

    設計的不斷革新,進入了大算力時代。 目前,主流AI芯片的架構仍然沿用了傳統(tǒng)的馮·諾依曼模型,這一設計將計算單元與數(shù)據(jù)存儲分離。在這種架構下,處理器需要內存中讀取數(shù)據(jù),執(zhí)行計算任務,然
    的頭像 發(fā)表于 03-06 19:51 ?356次閱讀
    大算力時代, 如何打破<b class='flag-5'>內存</b>墻

    站群服務器需要多大內存

    站群服務器的內存需求取決于網(wǎng)站的數(shù)量和流量,以及服務器需要運行的應用和服務。RAKsmart小編為您整理發(fā)布站群服務器需要多大內存以及站群服務器內存
    的頭像 發(fā)表于 03-04 09:48 ?445次閱讀

    AI芯片短缺已影響超微電腦

    AI芯片行業(yè)芯事
    深圳市浮思特科技有限公司
    發(fā)布于 :2024年02月21日 10:18:59

    英偉達將用AI設計AI芯片

    AI芯片行業(yè)資訊
    深圳市浮思特科技有限公司
    發(fā)布于 :2024年02月19日 17:54:43