整理 | 彎月 責(zé)編 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
根據(jù)最新的研究結(jié)果,訓(xùn)練一個(gè)普通的 AI 模型消耗的能源相當(dāng)于五輛汽車一生排放的碳總量,而 BERT 模型的碳排放量約為 1400 磅二氧化碳,這相當(dāng)于一個(gè)人來回坐飛機(jī)橫穿美國。為何 AI 模型會如此費(fèi)電,它們與傳統(tǒng)的數(shù)據(jù)中心計(jì)算有何不同?
訓(xùn)練效率低下
傳統(tǒng)數(shù)據(jù)中心負(fù)責(zé)處理的工作包括視頻流,電子郵件和社交媒體。AI 所需的計(jì)算量則更多,因?yàn)樗枰x取大量的數(shù)據(jù)、持續(xù)學(xué)習(xí),直到完成訓(xùn)練。
與人類的學(xué)習(xí)方式相比,AI 的訓(xùn)練效率非常低下。現(xiàn)代 AI 使用人工神經(jīng)網(wǎng)絡(luò),這是模擬人腦神經(jīng)元的數(shù)學(xué)計(jì)算。每兩個(gè)相鄰神經(jīng)元的連接強(qiáng)度都是神經(jīng)網(wǎng)絡(luò)上的一個(gè)參數(shù),名叫權(quán)重。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練則需要從隨機(jī)權(quán)重開始,一遍遍地運(yùn)行和調(diào)整參數(shù),直到輸出與正確答案一致為止。
常見的一種訓(xùn)練語言神經(jīng)網(wǎng)絡(luò)的方法是,從維基百科和新聞媒體網(wǎng)站下載大量文本,然后把一些詞語遮擋起來,并要求 AI 猜測被遮擋起來的詞語。剛開始的時(shí)候,AI 會全部搞錯(cuò),但是,經(jīng)過不斷地調(diào)整后,AI 會逐漸學(xué)習(xí)數(shù)據(jù)中的模式,最終整個(gè)神經(jīng)網(wǎng)絡(luò)都會變得非常準(zhǔn)確。
相信你聽說過 BERT 模型,基于變換器的雙向編碼器表示技術(shù)(Bidirectional Encoder Representations from Transformers,簡稱 BERT),這是一項(xiàng)由 Google 提出的自然語言處理(NLP)的預(yù)訓(xùn)練技術(shù)。該模型使用了來自維基百科和其他文章的 33 億個(gè)單詞,而且在整個(gè)訓(xùn)練期間,BERT 讀取了該數(shù)據(jù)集 40 次。相比之下,一個(gè) 5 歲的孩子學(xué)說話只需要聽到 4500 萬個(gè)單詞,比 BERT 少3000倍。
尋找最佳結(jié)構(gòu)
語言模型構(gòu)建成本如此之高的原因之一在于,在開發(fā)模型期間,上述訓(xùn)練過程需要反復(fù)多次。因?yàn)檠芯咳藛T需要將神經(jīng)網(wǎng)絡(luò)調(diào)整到最優(yōu),即確定神經(jīng)元的個(gè)數(shù)、神經(jīng)元之間的連接數(shù)以及各個(gè)權(quán)重。他們需要反復(fù)嘗試很多組合,才能提高神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確度。相比之下,人類的大腦不需要尋找最佳結(jié)構(gòu),經(jīng)過幾億年的進(jìn)化,人類大腦已具備這種結(jié)構(gòu)。
隨著各大公司和學(xué)術(shù)界在 AI 領(lǐng)域的競爭愈演愈烈,不斷提高技術(shù)水平的壓力也越來越大。在自動翻譯等難度巨大的任務(wù)中,如果能將準(zhǔn)確度提高 1%,也將被視為重大的進(jìn)步,可以作為宣傳產(chǎn)品的籌碼。然而,為了獲得這 1% 的提升,研究人員需要嘗試成千上萬的結(jié)構(gòu)來訓(xùn)練模型,直到找到最佳模型。
隨著模型不斷發(fā)展,模型的復(fù)雜度逐年攀高。另一款與 BERT 類似的最新語言模型 GPT-2,其神經(jīng)網(wǎng)絡(luò)包含 15 億個(gè)權(quán)重。而 GPT-3 由于其高精度,引起了業(yè)界的轟動,但其權(quán)重高達(dá) 1750 億個(gè)。
此外,AI 模型的訓(xùn)練需要在專用硬件(例如圖形處理器)上進(jìn)行,這些硬件的功耗普遍高于傳統(tǒng) CPU。如果你的筆記本電腦加載了優(yōu)質(zhì)的顯卡,可以玩很多高端游戲,那么你肯定會注意到這臺機(jī)器產(chǎn)生的熱量也比普通電腦高很多。
所有這些都表明,開發(fā)先進(jìn)的 AI 模型需要大量的碳排放量。除非我們能夠利用百分百可再生能源,否則真的懷疑 AI 的進(jìn)步與減少溫室氣體排放以及減緩氣候變化,孰重孰輕?是否真的可以功過相抵?
最后,開發(fā) AI 的耗資如此巨大,能夠承擔(dān)得起各項(xiàng)費(fèi)用的公司與機(jī)構(gòu)實(shí)在少之又少,最終究竟應(yīng)該開發(fā)哪種模型的決定權(quán)無疑也落到了這群人的手中。
AI 模型訓(xùn)練應(yīng)該適可而止
本文并不是要否定人工智能研究的未來,只不過在訓(xùn)練 AI 模型的時(shí)候,我們需要采用更高效的方法,而且應(yīng)該做到適可而止。
隨著 AI 模型訓(xùn)練方法的效率提升,相信訓(xùn)練的成本也會下降。同時(shí),我們需要在訓(xùn)練模型的成本和使用模型的成本之間權(quán)衡取舍。例如,在 AI 模型準(zhǔn)確度到達(dá)一定高度后,每提升 1% 都需要付出巨大的精力,而實(shí)際得到的收益卻很少。不追求極致,更多地使用“適可而止”的模型,不僅可以降低碳排放量,而且也能為我們帶來更大獲益。
審核編輯 黃昊宇
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4783瀏覽量
101239 -
AI
+關(guān)注
關(guān)注
87文章
31711瀏覽量
270510
發(fā)布評論請先 登錄
相關(guān)推薦
DeepSeek模型為何掀起如此大的波瀾
《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得
ai大模型和ai框架的關(guān)系是什么
ai大模型和傳統(tǒng)ai的區(qū)別在哪?
AI大模型與AI框架的關(guān)系
STM CUBE AI錯(cuò)誤導(dǎo)入onnx模型報(bào)錯(cuò)的原因?
為什么Cubeai導(dǎo)入模型的時(shí)候報(bào)錯(cuò)[AI:persondetection] ModuleNotFoundError: No module named \'_socket\'?
大模型為何成耗能大戶
什么是邊緣計(jì)算?它為何如此重要?
開發(fā)者手機(jī) AI - 目標(biāo)識別 demo
防止AI大模型被黑客病毒入侵控制(原創(chuàng))聆思大模型AI開發(fā)套件評測4
![](https://file1.elecfans.com/web2/M00/C5/B3/wKgaomX36bOAWwIaAANAu9YHqu4433.png)
評論