不斷增加的計(jì)算工作復(fù)雜性和負(fù)載多樣性需要巨大的處理能力。無論是用于云計(jì)算數(shù)據(jù)中心還是本地應(yīng)用,新一代處理器都能提高吞吐量、降低時(shí)延。然而處理器的發(fā)展需要供電的發(fā)展。因此,電源往往限制了獲得最高處理器性能的能力。
數(shù)據(jù)中心需求旺盛
近期疫情使網(wǎng)上購物、流媒體和居家辦公激增,超大型服務(wù)及零售供應(yīng)商擴(kuò)大了其產(chǎn)能。但為了更全面地了解數(shù)據(jù)中心的增長,應(yīng)該將其置于其它幾個推動因素的背景下。過去 10 年出現(xiàn)的主要技術(shù)發(fā)展推動趨勢包括物聯(lián)網(wǎng) (IoT)、人工智能 (AI)、邊緣機(jī)器學(xué)習(xí) (Ml),以及運(yùn)營技術(shù) (OT) 工作量的指數(shù)增長等。工業(yè) 4.0 等工業(yè)運(yùn)營性能改善舉措導(dǎo)致 OT 部署大幅度增加。這些因素需要更高的計(jì)算功能,但它們也導(dǎo)致了更多樣化、更高要求的工作負(fù)載。
對數(shù)據(jù)中心提供靈活、可擴(kuò)展的計(jì)算基礎(chǔ)架構(gòu)的需求日益增多,這些基礎(chǔ)架構(gòu)能夠支持高動態(tài)工作負(fù)載,從而可提供云計(jì)算服務(wù)或本地服務(wù)。最近趨勢要求的一些計(jì)算任務(wù)的性質(zhì)包括低時(shí)延、峰值神經(jīng)網(wǎng)絡(luò)算法和搜索加速。如現(xiàn)場可編程門陣列 (FPGA)、圖形處理單元 (GPU) 和神經(jīng)處理單元 (NPU) 等,曾經(jīng)很少在數(shù)據(jù)中心使用的、高度優(yōu)化的專業(yè)處理器件,現(xiàn)已變得非常普遍。此外,集群 AI 神經(jīng)網(wǎng)絡(luò)推斷引擎等新一代專用集成電路 (ASIC) 也需要完成高性能計(jì)算任務(wù)。
處理器技術(shù)的進(jìn)步幫助高性能計(jì)算推動了任務(wù)吞吐量的發(fā)展,從而可提供靈活性以適應(yīng)更多的工作負(fù)載多樣性。然而,技術(shù)的增益通常取決于同步發(fā)展的系統(tǒng)的其它方面。
技術(shù)趨勢提高計(jì)算性能
加劇散熱挑戰(zhàn)
在半導(dǎo)體行業(yè),變化是不可避免的。一種更小的全新硅芯片工藝節(jié)點(diǎn)投入生產(chǎn),下一次迭代也就不遠(yuǎn)了。更小幾何尺寸允許在給定空間中構(gòu)造更多單獨(dú)的半導(dǎo)體門。雖然 65nm 和 55nm 工藝節(jié)點(diǎn)仍然和往常一樣,主要用于許多集成電路 (IC),但 ASIC、FPGA、GPU 和 NPU 等高性能計(jì)算器件一般基于 12nm 以下的工藝節(jié)點(diǎn),因此 7nm 和 5nm 工藝節(jié)點(diǎn)越來越受歡迎??蛻粢呀?jīng)在排隊(duì)購買使用 3nm 工藝節(jié)點(diǎn)的先進(jìn)高性能處理器。
通過縮小單個門的尺寸來增加其密度,凸顯了管理新處理器熱特征的限制。降低柵極工作電壓時(shí),一個被稱為電壓縮放的過程有助于減少每個晶體管的散熱,但整個封裝的熱管理仍然至關(guān)重要。
高性能處理器一般會在其最大時(shí)鐘速率下運(yùn)行,直到熱限制需要將其限制回來為止。電壓縮放顯示,最復(fù)雜的 5nm 工藝節(jié)點(diǎn)器件的核心電壓降至 0.75V ,預(yù)計(jì) 3nm 工藝節(jié)點(diǎn)的核心電壓將進(jìn)一步降至 0.23V。讓供電挑戰(zhàn)更加嚴(yán)峻的是,許多器件需要多個不同電壓并精心排序,以避免永久性損壞。
前沿 GPU 通常有幾千億顆晶體管,因此電流需求已變得很大,達(dá)到了數(shù)百安培。對于集群 AI 處理器而言,1000A 的需求并不罕見。目前的趨勢是處理器的功耗每兩年翻一番(圖 1)。
向這種高功耗器件供電的另一個方面是:其工作負(fù)載可在一微秒內(nèi)發(fā)生變化,這可能會在整個供電網(wǎng)絡(luò) (PDN) 中產(chǎn)生巨大的瞬態(tài)。
圖 1:在大型計(jì)算系統(tǒng)中,供電和電源效率已成為最受關(guān)注的問題。隨著處理復(fù)雜 AI 功能的 ASIC 和 GPU 的出現(xiàn),整個行業(yè)的處理器功耗已大幅提升。隨著 AI 性能用于大規(guī)模學(xué)習(xí)及推斷應(yīng)用部署,機(jī)架功耗也隨之增加。在大多數(shù)情況下,由于新 CPU 需要消耗的電流越來越多,供電現(xiàn)已成了計(jì)算性能的限制因素。供電不僅涉及配電,而且還涉及效率、規(guī)模、成本和散熱性能。
供電挑戰(zhàn)
我們強(qiáng)調(diào)過,半導(dǎo)體工藝技術(shù)的進(jìn)步,為 PDN 帶來了幾個具有挑戰(zhàn)性的條件。但并不是所有這些都是技術(shù)性的。例如,這些前沿處理器件的物理尺寸將占用相當(dāng)大比例的可用電路板空間。復(fù)雜的是,電路板空間通常受限于行業(yè)標(biāo)準(zhǔn)外形。
隨著電路板尺寸的限制的加劇,高性能計(jì)算器件的本質(zhì)要求支持各種 IC,例如靠近處理器布置的存儲器和光信號收發(fā)器等。此外,由于流耗的劇增以及核心電壓的降低,這種方法也適用于負(fù)載點(diǎn) (PoL) 電源穩(wěn)壓器。大電流 PCB 布線電路的影響會產(chǎn)生 I2R 損耗,清晰可辨的壓降完全能對處理器性能產(chǎn)生影響,甚至更糟糕的是:會帶來不穩(wěn)定的行為。此外,PoL 穩(wěn)壓器也需要高功率效率,才能進(jìn)一步防止熱管理并發(fā)癥(圖 2)。
圖 2:VPD 進(jìn)一步消除了配電損耗和 VR PCB 電路板面積的消耗。VPD 與 Vicor LPD 解決方案設(shè)計(jì)類似,在電流倍增器或 GCM 模塊中增加了對旁路電容的集成。
電路板空間有限加上將穩(wěn)壓器靠近處理器安裝的需求,帶來了架構(gòu)網(wǎng)絡(luò) PDN 的全新創(chuàng)新方法。
為處理器供電
PDN 成為限制因素
隨著處理器技術(shù)的不斷發(fā)展,架構(gòu)高效 PDN 將為電源系統(tǒng)工程師帶來三項(xiàng)相互關(guān)聯(lián)的重要挑戰(zhàn)。
▼ 增加電流密度
領(lǐng)先的高性能處理器可消耗數(shù)百安培的電流。為處理器提供足夠的電源容量不僅涉及布置負(fù)載點(diǎn)轉(zhuǎn)換器的位置的物理約束,而且還涉及將電源從邊緣連接器導(dǎo)入轉(zhuǎn)換器的 PCB 布線的復(fù)雜抉擇。由極為動態(tài)的工作負(fù)載引起的高電壓瞬態(tài),可能會干擾其它系統(tǒng)組件。
▼ 提高功效
影響電源效率的因素有兩個:I2R 損耗和轉(zhuǎn)換效率。PCB 路徑對低壓信號和數(shù)字邏輯走線連接是理想選擇,,但對于大電流而言,無論多短,它們可能都代表顯著的電阻損耗。這些 I2R 損耗會降低提供給處理器的電壓,并引起局部發(fā)熱。處理器卡上有數(shù)百個其它組件,所以電源走線的大小是有限制的,因此盡量靠近處理器布置轉(zhuǎn)換器是唯一可行的替代方案。
轉(zhuǎn)換器的功效是其設(shè)計(jì)的一個屬性。開發(fā)高效 PoL 轉(zhuǎn)換器是一項(xiàng)專業(yè)技能,涉及一種迭代方法,以了解從無源器件到半導(dǎo)體每個組件)的損耗。我們之前已經(jīng)強(qiáng)調(diào)過,損耗表現(xiàn)為需要消散的熱量。PoL 轉(zhuǎn)換器模塊設(shè)計(jì)人員運(yùn)用他們的設(shè)計(jì)專業(yè)技術(shù)和專業(yè)知識優(yōu)化模塊的內(nèi)部設(shè)計(jì),以實(shí)現(xiàn)等溫封裝。
▼?讓 PDN 保持簡潔
面對 PDN 的挑戰(zhàn),一些電源架構(gòu)師可能會選擇為處理器創(chuàng)建一個分立式 PoL 轉(zhuǎn)換器,以便精心定制 PDN。然而,盡管這可能是一種可行的解決方案,但它實(shí)際上增加了復(fù)雜性。分立式設(shè)計(jì)會增加物料清單 (BOM),帶來采購更多組件的需求以及相關(guān)物流成本和供應(yīng)鏈成本。此外,這種方法還需要更多的工程設(shè)計(jì)工作,增加無法收回的支出 (NRE),并延長開發(fā)和測試時(shí)間。相反,模塊化方法經(jīng)過精心設(shè)計(jì),可優(yōu)化高性能處理器的電源。散熱良好的集成型電源模塊可顯著簡化電源設(shè)計(jì),從而可減少 BOM,增加修改的靈活性,并可促進(jìn)開發(fā)。電源模塊緊湊、功率密集并可輕松縮放。
應(yīng)對高性能計(jì)算供電挑戰(zhàn)的結(jié)構(gòu)化方法
為了應(yīng)對當(dāng)前常見的 PDN 挑戰(zhàn),Vicor 提供了兩種符合今天最常見情況的方案。
▼ 橋接原有系統(tǒng)
將 12V 系統(tǒng)連接至 48V 系統(tǒng)。對于需要更高效率以及更多電源的原有系統(tǒng),Vicor 提供了一種使用雙向 NBM 非隔離母線轉(zhuǎn)換器的簡單選項(xiàng)。NBM 可在 48V 與 12V 之間實(shí)現(xiàn)高效轉(zhuǎn)換,因此既可將原有電路板整合在 48V 基礎(chǔ)架構(gòu)中,也可將最新 GPU 整合在原有 12V 機(jī)架中(圖 3)。
圖 3:將 12V 系統(tǒng)連接至 48V 系統(tǒng)。對于需要更高效率以及更多電源的原有系統(tǒng),Vicor 提供了一種使用雙向 NBM 非隔離母線轉(zhuǎn)換器的簡單選項(xiàng)。NBM 可在 48V 與 12V 之間實(shí)現(xiàn)高效轉(zhuǎn)換,因此既可將原有電路板整合在 48V 基礎(chǔ)架構(gòu)中,也可將最新 GPU 整合在原有 12V 中。
▼?48V 至 PoL 供電
48V 至負(fù)載點(diǎn)。Vicor 合封電源 (PoP) 解決方案可將主板電阻降低至 1/50,將處理電源引腳減少至1/ 10。利用分比式電源架構(gòu) (FPA),Vicor 可通過兩種專利解決方案,即橫向供電 (LPD) 和垂直供電 (VPD),最大限度減少“最后一英寸”電阻。這兩種解決方案可幫助處理器實(shí)現(xiàn)以前無法實(shí)現(xiàn)的性能,為當(dāng)前呈指數(shù)級增長的 HPC 處理需求提供支持。
對數(shù)據(jù)中心、邊緣計(jì)算以及物聯(lián)網(wǎng)的需求并沒有減弱。大數(shù)據(jù)需要的處理速度是前所未有的。當(dāng)前的最高處理速度在 9 個月后將變得太慢,供電將再次成為焦點(diǎn)。尋找提高吞吐量并縮短時(shí)延的新方法是一項(xiàng)長期挑戰(zhàn)。確定一個高度靈活的可擴(kuò)展解決方案,是完成這道難題的最后一步。這將最大限度減少重新設(shè)計(jì)的次數(shù),并簡化未來的修改。模塊化方法適應(yīng)了當(dāng)前及未來高性能計(jì)算的所有方面。
本文最初由 ?Power Semiconductors?發(fā)表
以上為中譯
Doug Ping
Vicor 高級首席應(yīng)用工程師
Doug Ping 在電源行業(yè)擁有超過 26 年的豐富設(shè)計(jì)及應(yīng)用工作經(jīng)驗(yàn),在 Vicor 已工作 21 年。自 2007 年以來,他一直專注于數(shù)據(jù)中心和自動駕駛汽車應(yīng)用的電源解決方案。??
編輯:黃飛
?
評論
查看更多