目前,最大的計(jì)算機(jī)芯片通??梢苑旁谑终评铮行┬〉目梢苑旁谥讣馍?。芯片越來(lái)越小似乎是行業(yè)整體發(fā)展趨勢(shì)和普遍理念。 現(xiàn)在,硅谷的一家創(chuàng)業(yè)公司Cerebras正在挑戰(zhàn)這一觀念。本周一,該公司公布了據(jù)稱是有史以來(lái)最大的計(jì)算機(jī)芯片。它和餐盤一樣大——大約是一塊普通芯片的100倍——幾乎不能放在人的大腿上。 開發(fā)該芯片的工程師相信它可以用于大型數(shù)據(jù)中心,并有助于加速人工智能(AI)的發(fā)展,從自動(dòng)駕駛汽車到亞馬遜的Alexa,都可以因它的出現(xiàn)而受益。 許多公司正在為AI制造新的芯片,包括傳統(tǒng)的芯片制造商,如英特爾(Intel)和高通(Qualcomm),以及美國(guó)、英國(guó)和中國(guó)的其他初創(chuàng)企業(yè)。 谷歌已經(jīng)制造出了這種芯片,并將其應(yīng)用于多個(gè)人工智能項(xiàng)目中,包括谷歌助手(google assistant)和谷歌翻譯(google translate),后者可以識(shí)別安卓手機(jī)上的語(yǔ)音命令,并將一種語(yǔ)言翻譯成另一種語(yǔ)言。 Cerebras首席執(zhí)行官兼創(chuàng)始人Andrew Feldman稱,“這個(gè)領(lǐng)域的增長(zhǎng)非常驚人。"他是一位芯片行業(yè)資深人士,此前曾將一家公司賣給芯片巨頭AMD。 新AI系統(tǒng)依賴于神經(jīng)網(wǎng)絡(luò)。這些復(fù)雜的數(shù)學(xué)系統(tǒng)松散地基于神經(jīng)元網(wǎng)絡(luò),可以通過(guò)分析大量數(shù)據(jù)來(lái)學(xué)習(xí)任務(wù)。例如,通過(guò)精確定位數(shù)千只貓照片中的模式,神經(jīng)網(wǎng)絡(luò)可以學(xué)會(huì)識(shí)別貓。 這需要一種特殊的計(jì)算能力。如今,大多數(shù)公司在GPU的幫助下分析數(shù)據(jù)。這些芯片最初是為游戲和其他軟件渲染圖像而設(shè)計(jì)的,但它們也擅長(zhǎng)運(yùn)行驅(qū)動(dòng)神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)運(yùn)算。 大約六年前,隨著谷歌、Facebook和微軟等科技巨頭在人工智能領(lǐng)域加大投入,它們開始大量購(gòu)買英偉達(dá)的GPU。在截至2016年夏季的一年里,英偉達(dá)在美國(guó)的平均銷售額為1.43億美元,是前一年的兩倍多。 但是這些公司想要更多的處理能力。谷歌專門為神經(jīng)網(wǎng)絡(luò)(Tensor Processing Unit,簡(jiǎn)稱TPU)開發(fā)了一種芯片,其他幾家芯片制造商也在追求同樣的目標(biāo)。 AI系統(tǒng)與許多芯片協(xié)同工作。麻煩的是,在芯片之間移動(dòng)大塊數(shù)據(jù)可能會(huì)很慢,并且會(huì)限制芯片分析該信息的速度。 加州大學(xué)洛杉磯分校專門從事人工智能芯片設(shè)計(jì)的教授Subramanian Iyer表示,“將所有這些芯片連接在一起,實(shí)際上會(huì)減慢它們的速度,并消耗大量能量?!? 硬件制造商正在探索許多不同的選擇。有些人試圖拓寬芯片之間的管道。 Cerebras,一家僅有3年歷史、資金超過(guò)2億美元的公司,已經(jīng)采取了一種新穎的方法。這個(gè)想法是把所有的數(shù)據(jù)保存在一個(gè)巨大的芯片上,這樣系統(tǒng)就可以更快地運(yùn)行。 使用一個(gè)大的芯片是非常困難的。計(jì)算機(jī)芯片通常安裝在直徑約12英寸的圓形硅片上。每個(gè)晶圓片通常包含約100個(gè)芯片。 許多這樣的芯片,當(dāng)從晶圓片中取出時(shí),就會(huì)被扔掉,再也不用了。蝕刻電路進(jìn)入硅是一個(gè)如此復(fù)雜的過(guò)程,制造商無(wú)法消除缺陷。有些電路不起作用。這是芯片制造商保持芯片盡量小的原因之一 - 減少錯(cuò)誤的空間,因此他們不必拋棄那么多。 Cerebras公司表示,他們已經(jīng)制造了一塊晶圓大小的芯片。 其他人也嘗試過(guò)這種方法,最著名的是一家名為Trilogy的初創(chuàng)企業(yè),由著名的IBM芯片工程師Gene Amdahl于1980年創(chuàng)立。盡管獲得了2.3億多美元的資金支持,但最終還是覺得這個(gè)任務(wù)太難了,五年后就倒閉了。 Cerebras計(jì)劃下個(gè)月開始向少數(shù)客戶發(fā)貨硬件,F(xiàn)eldman說(shuō),這種芯片訓(xùn)練人工智能系統(tǒng)的速度可以比現(xiàn)有硬件快100到1000倍。 他和他的工程師們已經(jīng)把他們的巨型芯片分成了更小的部分,或者說(shuō)是核心,因?yàn)樗麄冎烙行┖诵氖遣荒芄ぷ鞯摹? 該公司的硬件存在重大問(wèn)題。費(fèi)爾德曼有關(guān)芯片性能的說(shuō)法尚未得到證實(shí),他也沒有透露芯片的價(jià)格。 價(jià)格將取決于Cerebras及其制造合作伙伴臺(tái)積電(TSMC)生產(chǎn)該芯片的效率。 臺(tái)積電的高級(jí)副總裁BradPaulsen表示,這一過(guò)程“需要更多勞動(dòng)力”。一個(gè)如此大的芯片會(huì)消耗大量的能量,這意味著保持它的冷卻將是困難和昂貴的。換句話說(shuō),構(gòu)建芯片只是任務(wù)的一部分。 “這對(duì)我們來(lái)說(shuō)是一個(gè)挑戰(zhàn),”鮑爾森說(shuō)。“這對(duì)他們來(lái)說(shuō)也是?!? Cerebras計(jì)劃將該芯片作為一個(gè)更大機(jī)器的一部分出售,該機(jī)器包括用冷凍液體冷卻硅的精密設(shè)備。這與大型科技公司和政府機(jī)構(gòu)習(xí)慣于合作的方式完全不同。 “并不是說(shuō)人們沒能制造出這種芯片,”伊利諾伊大學(xué)(University of Illinois)教授Rakesh Kumar說(shuō),他也在為人工智能研究大型芯片,“問(wèn)題是他們沒能制造出一種商業(yè)上可行的芯片。” 直到今天,新一代的隱形硅片公司Cerebras一直在尋求讓訓(xùn)練成為一種深度學(xué)習(xí)模式,就像從亞馬遜(Amazon)購(gòu)買牙膏一樣快。經(jīng)過(guò)近三年的靜悄悄的研發(fā),Cerebras今天推出了它的新芯片——這是一款出色的芯片。“晶圓級(jí)引擎”是1.2萬(wàn)億個(gè)晶體管(有史以來(lái)最多),46,225平方毫米(有史以來(lái)最大),包括18千兆字節(jié)的片上存儲(chǔ)器(目前市場(chǎng)上最多的芯片)和40萬(wàn)個(gè)處理器核心(估計(jì)是最高級(jí)的)。
圖:Cerebras的晶片級(jí)引擎比典型的Mac鍵盤更大 在斯坦福大學(xué)(StanfordUniversity)的Hot Chips大會(huì)上,它引起了很大的轟動(dòng)。Hot Chips大會(huì)是硅行業(yè)為產(chǎn)品介紹和路線圖而舉辦的大型會(huì)議之一,與會(huì)者中有不同級(jí)別的“ooh”和“aah”。你可以從《財(cái)富》雜志的Tiernan Ray那里了解更多關(guān)于這種芯片的信息,也可以閱讀Cerebras的白皮書。 今天下午,我與公司創(chuàng)始人兼首席執(zhí)行官AndrewFeldman坐下來(lái),討論了他手下的173名工程師在過(guò)去幾年里用Benchmark等公司1.12億美元的風(fēng)投資金,在這條街上悄悄做了什么。
做大意味著挑戰(zhàn)
首先,簡(jiǎn)要介紹一下為手機(jī)和電腦供電的芯片是如何制造的。像臺(tái)積電這樣的晶圓代工廠采用標(biāo)準(zhǔn)尺寸的硅片,利用光將晶體管蝕刻到晶圓上,然后將它們分割成單獨(dú)的芯片。晶圓是圓形的,芯片是正方形的,因此將圓細(xì)分成清晰的單個(gè)芯片陣列涉及到一些基本的幾何知識(shí)。 光刻工藝的一大挑戰(zhàn)是,錯(cuò)誤可能會(huì)滲透到制造過(guò)程中,需要大量的測(cè)試來(lái)驗(yàn)證質(zhì)量,并迫使晶圓廠扔掉性能不佳的芯片。芯片越小、越緊湊,單個(gè)芯片失效的可能性就越小,晶圓廠的產(chǎn)量也就越高。高收益等于高利潤(rùn)。 Cerebras提出了在單個(gè)晶圓片上蝕刻一系列單獨(dú)芯片的想法,而不是僅僅使用整個(gè)晶圓片本身作為一個(gè)巨大的芯片。這使得所有這些單獨(dú)的核心可以彼此直接連接——極大地加快了用于深度學(xué)習(xí)算法的關(guān)鍵反饋循環(huán)——但這是以巨大的制造和設(shè)計(jì)挑戰(zhàn)為代價(jià)來(lái)創(chuàng)建和管理這些芯片的。
Cerebras的技術(shù)架構(gòu)和設(shè)計(jì)由聯(lián)合創(chuàng)始人Sean Lie領(lǐng)導(dǎo)。Feldman和Lie之前合作創(chuàng)辦了一家名為SeaMicro的公司,2012年該公司以3.34億美元的價(jià)格賣給了AMD。 根據(jù)Feldman的說(shuō)法,團(tuán)隊(duì)遇到的第一個(gè)挑戰(zhàn)是處理“劃線”之間的通信。雖然Cerebras芯片包含一個(gè)完整的晶圓,但今天的光刻設(shè)備仍然必須像在硅片上蝕刻單個(gè)芯片一樣工作。因此,該公司不得不發(fā)明新技術(shù),讓這些單獨(dú)的芯片能夠在整個(gè)晶圓上相互通信。在與臺(tái)積電合作中,他們不僅發(fā)明了新的通信通道,而且還不得不編寫新的軟件來(lái)處理?yè)碛谐^(guò)萬(wàn)億晶體管的芯片。 第二個(gè)挑戰(zhàn)是良率。當(dāng)一個(gè)芯片覆蓋整個(gè)硅晶片時(shí),晶片蝕刻上的任何一個(gè)缺陷都可能導(dǎo)致整個(gè)芯片無(wú)法運(yùn)作。這是整個(gè)晶圓技術(shù)幾十年來(lái)的難題:根據(jù)物理定律,幾乎不可能以完美的精確度反復(fù)蝕刻一萬(wàn)億個(gè)晶體管。 Cerebras通過(guò)在芯片中添加額外的核心來(lái)解決這個(gè)問(wèn)題,當(dāng)核心附近的晶片出現(xiàn)錯(cuò)誤時(shí),這些核心將被用作備份。Feldman向我解釋說(shuō):“你只需要持有占總量1%,1.5%的額外的核心?!?留下額外的核心使芯片基本上可以自我修復(fù),繞過(guò)光刻錯(cuò)誤,使整個(gè)晶片硅芯片可行。
進(jìn)入芯片設(shè)計(jì)的未知領(lǐng)域
最初的兩個(gè)挑戰(zhàn)——芯片之間的劃線通信和處理良率——已經(jīng)困擾了芯片設(shè)計(jì)師幾十年。但它們都是已知的問(wèn)題,F(xiàn)eldman說(shuō),通過(guò)使用現(xiàn)代工具重新處理它們,它們實(shí)際上更容易解決預(yù)期的問(wèn)題。
不過(guò),他把這項(xiàng)挑戰(zhàn)比作攀登珠穆朗瑪峰?!熬拖竦谝慌藳]能登上珠穆朗瑪峰一樣,他們說(shuō),‘該死,第一部分真的很難。’然后下一組人過(guò)來(lái)說(shuō): ‘那算什么。最后一百碼,才是個(gè)問(wèn)題。”
事實(shí)上,根據(jù)Feldman的說(shuō)法,對(duì)Cerebras來(lái)說(shuō),最困難的挑戰(zhàn)是接下來(lái)的三個(gè),因?yàn)闆]有其他芯片設(shè)計(jì)師能通過(guò)劃線通信來(lái)找出接下來(lái)發(fā)生了什么。 芯片在運(yùn)行中會(huì)變得非常熱,但不同的材料會(huì)以不同的速度膨脹。這意味著連接芯片和主板的連接器也需要以同樣的速度進(jìn)行熱膨脹,以免兩者之間產(chǎn)生裂縫。 Feldman說(shuō):“你如何找到一個(gè)可以承受這種壓力的連接器?以前從來(lái)沒有人這樣做過(guò),所以我們需要發(fā)明一種材料。因此,我們擁有材料科學(xué)博士,我們必須發(fā)明一種材料,能夠化解其中的一些差異?!? 一旦芯片被制造出來(lái),它就需要經(jīng)過(guò)測(cè)試和封裝,然后運(yùn)送給原始設(shè)備制造商(OEMs),由原始設(shè)備制造商將芯片添加到終端客戶(無(wú)論是數(shù)據(jù)中心還是消費(fèi)者筆記本電腦)使用的產(chǎn)品中。不過(guò),也存在一個(gè)挑戰(zhàn):市場(chǎng)上絕對(duì)沒有任何東西是為處理整個(gè)晶圓芯片而設(shè)計(jì)的。
圖:Cerebras設(shè)計(jì)了自己的測(cè)試和封裝系統(tǒng)來(lái)處理它的芯片 現(xiàn)階段,沒有人有這么大的印刷電路板、連接器、冷卻盤,也沒有軟件和工具來(lái)調(diào)試它們。Feldman解釋說(shuō)。“所以我們?cè)O(shè)計(jì)了整個(gè)生產(chǎn)流程,因?yàn)閺膩?lái)沒有人這樣做過(guò)。“Cerebras的技術(shù)不僅僅是它所銷售的芯片,它還包括所有相關(guān)的機(jī)械設(shè)備,這些機(jī)械設(shè)備是用來(lái)制造和封裝這些芯片的。 Cerebras的芯片使用15千瓦的功率運(yùn)行,這對(duì)于單個(gè)芯片來(lái)說(shuō)是一個(gè)巨大的功耗,盡管與現(xiàn)代大小的AI集群相當(dāng)。所有這些功能也需要冷卻,Cerebras必須設(shè)計(jì)一種新方法來(lái)為這么大的芯片提供這兩種功能。 它基本上是通過(guò)將芯片翻轉(zhuǎn)過(guò)來(lái)來(lái)解決這個(gè)問(wèn)題的,F(xiàn)eldman稱之為“使用z維度”?!拔覀兊南敕ㄊ牵c傳統(tǒng)的在芯片上橫向移動(dòng)電源和冷卻設(shè)備不同,電源和冷卻設(shè)備在芯片上的所有點(diǎn)都是垂直傳輸?shù)模源_保兩者的訪問(wèn)是均勻一致的。” 因此,這就是該公司在過(guò)去幾年中日以繼夜努力解決的三個(gè)挑戰(zhàn)——熱膨脹、封裝和電源/冷卻。
從理論到現(xiàn)實(shí)
Cerebras有一個(gè)演示芯片(它和我們的頭差不多大),據(jù)報(bào)道,它已經(jīng)開始向客戶交付原型。然而,與所有新芯片一樣,最大的挑戰(zhàn)是擴(kuò)大生產(chǎn),以滿足客戶的需求。 對(duì)于Cerebras來(lái)說(shuō),這種情況有點(diǎn)不尋常。由于它在一個(gè)晶圓上融入了如此多的計(jì)算能力,客戶不必購(gòu)買數(shù)十或數(shù)百個(gè)芯片并將它們拼接在一起來(lái)創(chuàng)建一個(gè)計(jì)算集群。相反,他們可能只需要少量的Cerebras芯片來(lái)滿足他們的深度學(xué)習(xí)需求。該公司的下一個(gè)階段是實(shí)現(xiàn)規(guī)模化,并確保其芯片的穩(wěn)定交付。該公司將芯片封裝為一個(gè)完整的系統(tǒng)“設(shè)備”,其中還包括其專有的冷卻技術(shù)。 預(yù)計(jì)在未來(lái)幾個(gè)月會(huì)聽到更多關(guān)于Cerebras技術(shù)的細(xì)節(jié),特別是在關(guān)于未來(lái)深度學(xué)習(xí)處理工作流程的爭(zhēng)論不斷升溫之際。
-
人工智能
+關(guān)注
關(guān)注
1796文章
47818瀏覽量
240604 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5519瀏覽量
121614 -
計(jì)算機(jī)芯片
+關(guān)注
關(guān)注
0文章
43瀏覽量
3561
原文標(biāo)題:制造一個(gè)鍵盤大的芯片要面臨哪些挑戰(zhàn)?
文章出處:【微信號(hào):icbank,微信公眾號(hào):icbank】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
OpenAI自研AI芯片即將進(jìn)入試生產(chǎn)階段
risc-v芯片在電機(jī)領(lǐng)域的應(yīng)用展望
使用ADC121S101的時(shí)候,會(huì)在未知情況下會(huì)進(jìn)入到一個(gè)“異常模式”,為什么?
Orin芯片應(yīng)用領(lǐng)域
昱星智能單北斗手持終端極限挑戰(zhàn)-在未知領(lǐng)域指南
![昱星智能單北斗手持終端極限挑戰(zhàn)-在<b class='flag-5'>未知領(lǐng)域</b>指南](https://file1.elecfans.com/web2/M00/05/BB/wKgZombeaeKAR6asAAAfXbEe0W4990.png)
【「大模型時(shí)代的基礎(chǔ)架構(gòu)」閱讀體驗(yàn)】+ 未知領(lǐng)域的感受
創(chuàng)星未來(lái)訪談|時(shí)擎科技:端側(cè)智能芯片領(lǐng)域的新銳力量
![創(chuàng)星未來(lái)訪談|時(shí)擎科技:端側(cè)智能<b class='flag-5'>芯片</b><b class='flag-5'>領(lǐng)域</b>的新銳力量](https://file.elecfans.com/web2/M00/37/4D/poYBAGI62smAAPRDAAAzYJ7Ib6o943.png)
納米壓印技術(shù)的分類和優(yōu)勢(shì)
![納米壓印技術(shù)的分類和優(yōu)勢(shì)](https://file1.elecfans.com/web2/M00/04/26/wKgZombL4wKABl0jAACAvMbjHIM175.jpg)
![](https://file1.elecfans.com/web2/M00/04/3C/wKgaombCv8iAH52uAAbMc8mxk9o935.jpg)
評(píng)論