作者:郭平
這篇文章是郭平教授的一篇文章,本文采用“四問(wèn)”的表述方式,解釋了人工智能的第一性原理。提出了在基于物理的人工智能基礎(chǔ)研究領(lǐng)域,運(yùn)用第一性原理思維解決人工智能缺乏基礎(chǔ)自然科學(xué)常識(shí)的一種思路;并建議將最小作用量原理作為人工智能的第一性原理。
實(shí)現(xiàn)通用人工智能(Artificial General Intelligence,AGI)是一個(gè)長(zhǎng)遠(yuǎn)目標(biāo)。我們需要探索通往人工智能(AI)的道路,要以基礎(chǔ)研究作為出發(fā)點(diǎn)?!盎A(chǔ)研究是整個(gè)科學(xué)體系的源頭,是所有技術(shù)問(wèn)題的總機(jī)關(guān)。”這也說(shuō)明了AI基礎(chǔ)理論研究的意義和重要性。要加強(qiáng)AI的數(shù)學(xué)物理基礎(chǔ)研究,可以將“第一性原理”(first principle)作為出發(fā)點(diǎn),發(fā)展新一代AI基礎(chǔ)理論。
人工智能領(lǐng)域存在第一性原理嗎?
古希臘哲學(xué)家亞里士多德將第一性原理(或首要原則)表述為:“在每一個(gè)系統(tǒng)的探索中,存在第一性原理,這是一個(gè)最基本的命題或假設(shè),不能被省略或刪除,也不能被違反。” 在20世紀(jì)以前,第一性原理主要用于哲學(xué)、數(shù)學(xué)和理論物理。在數(shù)學(xué)中,第一性原理是一個(gè)或幾個(gè)公理,且不能從系統(tǒng)內(nèi)的任何其他公理中推導(dǎo)出來(lái)。在理論物理中,第一性原理是指一個(gè)計(jì)算直接從物理定律建立,不做經(jīng)驗(yàn)?zāi)P秃蛿M合參數(shù)等假設(shè)。生物學(xué)的第一性原理是達(dá)爾文提出的“物競(jìng)天擇、適者生存”理論。在近代社會(huì),第一性原理已經(jīng)擴(kuò)展到許多學(xué)科,包括生命科學(xué)、化學(xué)、經(jīng)濟(jì)、社會(huì)科學(xué)等。
隨著人類認(rèn)知的發(fā)展,第一性原理已經(jīng)從最初的哲學(xué)術(shù)語(yǔ)分化為專業(yè)性更強(qiáng)的表述,有些已不再使用“第一性原理”這個(gè)術(shù)語(yǔ),而采用其同義詞表述。在哲學(xué)中采用了“先驗(yàn)原理”(priori-principle),數(shù)學(xué)中統(tǒng)一使用了規(guī)范術(shù)語(yǔ)“公理”(axioms),而物理學(xué)則沿用了“第一性原理”。
AI領(lǐng)域是否存在第一性原理,是個(gè)有爭(zhēng)議的話題。有人認(rèn)為AI不存在第一性原理,理由是第一性原理是在哲學(xué)、數(shù)學(xué)或物理規(guī)則定義的域內(nèi)定義了問(wèn)題空間的邊界,而AI領(lǐng)域的第一性原理需要在明確定義了什么是“智能”之后才有意義。目前對(duì)“智能”還沒(méi)有明確定義,因此對(duì)AI還沒(méi)有一個(gè)精確的、人們普遍可以接受的定義。在學(xué)界有兩個(gè)定義可參考:一是斯坦福大學(xué)人工智能研究中心尼爾斯·約翰·尼爾遜(Nils J. Nilsson)教授提出的“AI是關(guān)于知識(shí)的學(xué)科——怎樣表示知識(shí)、怎樣獲得知識(shí)并使用知識(shí)的科學(xué)?!?二是麻省理工學(xué)院的帕特里克·溫斯頓(Patrick Winston)教授提出的 “AI就是研究如何使計(jì)算機(jī)去做過(guò)去只有人類能做的智能工作”。
有人認(rèn)為AI沒(méi)有第一性原理,依據(jù)是尼爾遜教授撰寫的《人工智能原理》(Principles of Artificial Intelligence)一書[1]。在該書的第2頁(yè),有一段話給我們明確呈現(xiàn)出這樣的概念:“AI目前沒(méi)有通用理論,因此接下來(lái)向您展示一些應(yīng)用程序?!币簿褪钦f(shuō),目前AI不存在第一性原理,現(xiàn)在應(yīng)把注意力放在與工程目標(biāo)相關(guān)的原理上,這些原理是衍生出來(lái)的原理。衍生的原理實(shí)際上告訴我們復(fù)雜系統(tǒng)的一些簡(jiǎn)單結(jié)果,無(wú)論是自然還是AI,其本質(zhì)可能也是如此。智能是許多過(guò)程并行發(fā)生和相互作用的結(jié)果,而這些過(guò)程無(wú)法輕易地追溯到一個(gè)基本的物理原理。
我們認(rèn)為這是把AI看作是一種技術(shù),從技術(shù)的角度看問(wèn)題,也就是說(shuō),把AI看作類似于建立在實(shí)驗(yàn)基礎(chǔ)上的學(xué)科。
物理學(xué)家張首晟在一次演講時(shí)提到了第一性原理的思維方式:在20世紀(jì)以前,第一性原理的概念屬于人腦的歸納、演繹產(chǎn)生的邏輯自洽學(xué)科,包括數(shù)學(xué)、哲學(xué)和理論物理,其理論體系的基石都可稱之為第一性原理。它們可以明顯區(qū)別于諸如化學(xué)、生物等建立在實(shí)驗(yàn)基礎(chǔ)上的學(xué)科。
在21世紀(jì)的今天,人們的認(rèn)知水平與科學(xué)技術(shù)發(fā)生了很大的變化。在以實(shí)驗(yàn)為基礎(chǔ)的學(xué)科上,均有基于第一性原理的成果。例如在生物科學(xué)方面,第一性原理也被重新發(fā)掘出來(lái)。最近,美國(guó)圣塔菲研究所(Santa Fe Institute)現(xiàn)任所長(zhǎng)戴維·克拉考爾(David Krakauer)在《理論生物科學(xué)》(Theory Bioscience)期刊發(fā)表了一篇題為“個(gè)體信息理論”的文章,基于第一性原理的數(shù)學(xué)形式化理論,通過(guò)捕捉從過(guò)去到未來(lái)的信息流,能夠嚴(yán)格定義許多不同形式的個(gè)體。但也有人提出了質(zhì)疑:“作者試圖給出‘從頭計(jì)算’生命的一般框架,野心是很大的。但其給出一個(gè)調(diào)節(jié)參數(shù)γ,就不能不讓人懷疑其‘科學(xué)立場(chǎng)’了?!?/p>
對(duì)一種觀點(diǎn)有不同的看法是很正常的。目前大家公認(rèn)的看法是,以深度學(xué)習(xí)為主導(dǎo)的AI沒(méi)有理論。但實(shí)現(xiàn)AI是以計(jì)算機(jī)技術(shù)為基礎(chǔ)的,計(jì)算機(jī)也是先有技術(shù),后發(fā)展科學(xué)理論的。ACM圖靈獎(jiǎng)獲得者雅恩·樂(lè)昆(Yann LeCun)認(rèn)為理論往往是在發(fā)明之后構(gòu)建起來(lái)的,例如蒸汽機(jī)的發(fā)明在熱力學(xué)之前,可編程計(jì)算機(jī)在計(jì)算機(jī)科學(xué)之前,等等。有了理論基礎(chǔ),即使只是概念上的基礎(chǔ),也將大大加快該領(lǐng)域的研究進(jìn)展。
尼爾遜教授的《人工智能原理》一書已經(jīng)出版了40余年,如今AI理論仍在發(fā)展,我們的思維認(rèn)知水平也提高了,因此現(xiàn)在應(yīng)該重新考慮AI是否存在第一性原理這個(gè)問(wèn)題了。李國(guó)杰院士認(rèn)為,AI與計(jì)算機(jī)科學(xué)在本質(zhì)上是一門學(xué)科。AI系統(tǒng)就是用計(jì)算機(jī)技術(shù)對(duì)信息加工和處理的系統(tǒng)。既然是一個(gè)系統(tǒng),那么依據(jù)定義,每一個(gè)系統(tǒng)中都應(yīng)該存在第一性原理。
我們知道,機(jī)器學(xué)習(xí)是AI的一個(gè)子集,AI基礎(chǔ)研究是建立在數(shù)學(xué)和物理基礎(chǔ)之上的。北京交通大學(xué)教授于劍出版了一本書《機(jī)器學(xué)習(xí):從公理到算法》。這是一本基于公理研究學(xué)習(xí)算法的書,實(shí)際上就是把數(shù)學(xué)的第一性原理應(yīng)用于機(jī)器學(xué)習(xí),只是沒(méi)有顯式地表述出來(lái)而已。于劍教授的這本書可謂將第一性原理應(yīng)用于機(jī)器學(xué)習(xí)的范例。
由于物理是基礎(chǔ)科學(xué),許多學(xué)科是以物理為基礎(chǔ)的,物理的第一性原理就可以應(yīng)用到這些學(xué)科。物理的第一性原理也被稱為“從頭計(jì)算”(ab initio),即只使用最基本的物理學(xué)定律,不使用經(jīng)驗(yàn)參數(shù),僅用電子質(zhì)量、光速、質(zhì)子、中子質(zhì)量等少數(shù)實(shí)驗(yàn)數(shù)據(jù)去做量子計(jì)算。我們研究基于物理的AI,AI的第一性原理可以借用物理的第一性原理,將“從頭計(jì)算”應(yīng)用到AI,可以視為AI的第一性原理。但是“從頭計(jì)算”是狹義的第一性原理,廣義的第一性原理是“最小作用量原理”(the least action principle)。
為什么是基于物理的人工智能?
數(shù)學(xué)、物理不但是其他學(xué)科的基礎(chǔ),更是AI的基礎(chǔ)。為什么要基于物理學(xué)研究AI基礎(chǔ)理論?這是因?yàn)槲锢韺W(xué)是研究物質(zhì)運(yùn)動(dòng)最一般規(guī)律和物質(zhì)基本結(jié)構(gòu)的學(xué)科,是自然科學(xué)的帶頭學(xué)科,其他各自然科學(xué)學(xué)科的研究基礎(chǔ)都建立在物理學(xué)科之上,而且哲學(xué)與物理的關(guān)系也非常緊密。著名物理學(xué)家斯蒂芬·霍金(Stephen Hawking)在他的論著《大設(shè)計(jì)》(The Grand Design)第一頁(yè)上就語(yǔ)出驚人地宣稱“哲學(xué)已死”,因?yàn)椤罢軐W(xué)跟不上科學(xué),特別是物理學(xué)現(xiàn)代發(fā)展的步伐。在我們探索知識(shí)的旅程中,科學(xué)家已成為火炬手?!?雖然這是一個(gè)被人批評(píng)為極為傲慢的“宣言”,但也從中說(shuō)明物理學(xué)促進(jìn)了哲學(xué)的發(fā)展。
雅恩·樂(lè)昆在IJCAI 2018(國(guó)際人工智能聯(lián)合會(huì)議)的演講中指出了目前AI系統(tǒng)的幾個(gè)缺點(diǎn):缺乏獨(dú)立于任務(wù)的背景知識(shí),缺乏常識(shí),缺乏預(yù)測(cè)行為后果的能力,缺乏長(zhǎng)期規(guī)劃和推理的能力。簡(jiǎn)言之就是沒(méi)有世界模型,沒(méi)有關(guān)于世界運(yùn)行的通用背景知識(shí),我們需要學(xué)習(xí)一個(gè)具備常識(shí)推理與預(yù)測(cè)能力的世界模型。因此,未來(lái)關(guān)于AI的研究需要形成一種新型的理論,該理論的目標(biāo)是構(gòu)建可以實(shí)現(xiàn)的世界模型。也有學(xué)者認(rèn)為,為了更好地描述神經(jīng)網(wǎng)絡(luò)和神經(jīng)系統(tǒng),我們需要一套新的數(shù)學(xué)語(yǔ)言和框架,但這個(gè)新的框架究竟在哪里,目前學(xué)術(shù)界還沒(méi)有統(tǒng)一的思路和共識(shí)。我們認(rèn)為基于物理的AI可能是最有希望實(shí)現(xiàn)的一個(gè)新框架。
對(duì)于AI缺乏常識(shí)的問(wèn)題,基于物理的AI框架可能會(huì)提供一種解決思路。要想將常識(shí)賦予AI,首先需要搞清楚什么是常識(shí)。通俗地講,常識(shí)就是大部分人都知道的普通知識(shí)。按照網(wǎng)絡(luò)百科的描述,普通知識(shí)就是一個(gè)生活在社會(huì)中的心智健全的人所應(yīng)該具備的基本知識(shí),包括生存技能(生活自理能力)、基本勞作技能、基礎(chǔ)的自然科學(xué)以及人文社會(huì)科學(xué)知識(shí)等。關(guān)于常識(shí)的一種較為專業(yè)的釋義是:一般指從事各項(xiàng)工作以及進(jìn)行學(xué)術(shù)研究所需具備的相關(guān)領(lǐng)域內(nèi)的基礎(chǔ)知識(shí)。而這些基礎(chǔ)知識(shí)來(lái)源于對(duì)自然規(guī)律、自然現(xiàn)象或者人類社會(huì)活動(dòng)的歸納總結(jié)。
如何讓人工智能具有常識(shí)?
雅恩·樂(lè)昆解釋過(guò)AI為什么沒(méi)有常識(shí):“我們沒(méi)有能力讓機(jī)器去學(xué)習(xí)龐大的背景知識(shí),而嬰兒在出生以后的最初幾個(gè)月里就可獲得關(guān)于這個(gè)世界的龐大的背景知識(shí)?!边@就是說(shuō),AI要掌握常識(shí),需要搞清楚物理世界的運(yùn)作方式并做出合理決定,它們必須能夠獲取大量的背景知識(shí)、了解世界的運(yùn)行規(guī)律,進(jìn)而做出準(zhǔn)確的預(yù)測(cè)和計(jì)劃。不難看出,本質(zhì)上這是歸納性的思維方式。而我們的常識(shí),大多數(shù)是運(yùn)用歸納法獲得的。
為什么讓AI具有常識(shí)這么難?數(shù)十年來(lái),該研究一直進(jìn)展甚微,可能的原因之一是沒(méi)有按照第一性原理思考。一提到AI沒(méi)有常識(shí),從大多數(shù)學(xué)者舉的例子來(lái)看,他們潛意識(shí)地認(rèn)為AI的常識(shí)包括了所有領(lǐng)域的基礎(chǔ)知識(shí)。其實(shí),常識(shí)是領(lǐng)域相關(guān)的,有生活常識(shí)、基本勞作技能,還有基礎(chǔ)的自然科學(xué)常識(shí)等。如果上來(lái)就想賦予AI具有所有的、沒(méi)有分類的常識(shí),不考慮常識(shí)的領(lǐng)域相關(guān)性,這顯然是按AGI要求的。但是主流AI學(xué)界目前的努力從來(lái)就不是朝著AGI方向的,現(xiàn)有技術(shù)的發(fā)展也不會(huì)自動(dòng)地使AGI成為可能。目前可以實(shí)現(xiàn)的都是在考慮某種特定類型的智能行為,也就是所謂的“弱人工智能”。實(shí)際上,我們完全有理由認(rèn)為,采用類比思維,即使能精確地觀察和仿制出神經(jīng)細(xì)胞的行為,也無(wú)法還原產(chǎn)生出智能行為。因此,依據(jù)第一性原理思維,在復(fù)雜的現(xiàn)象中找到最根本的原理,才能解決根本的問(wèn)題。按照第一性原理思維,需要從頭計(jì)算,即先訓(xùn)練AI,學(xué)習(xí)基礎(chǔ)的自然科學(xué)常識(shí)。這也就是新加坡國(guó)立大學(xué)教授顏水成所提出的嬰兒學(xué)習(xí)(baby learning)方法,即模擬嬰兒自學(xué)習(xí)逐步獲取知識(shí)的方法。
為了讓AI擁有常識(shí),我們需要化繁為簡(jiǎn),把常識(shí)限定到特定的領(lǐng)域,例如將掌握物理科學(xué)常識(shí)作為現(xiàn)階段的首要目標(biāo)。用第一性原理的思維方式,把基于物理的科學(xué)常識(shí)灌輸給AI。因此,我們需要轉(zhuǎn)變一下思維方式,從純數(shù)據(jù)處理邏輯邁向某種形式的“常識(shí)”,即從基本物理原理出發(fā),讓AI先掌握科學(xué)常識(shí),從而學(xué)習(xí)推理。
為什么先讓AI學(xué)習(xí)基礎(chǔ)的自然科學(xué)常識(shí),而不是生活常識(shí)或其他領(lǐng)域的常識(shí)呢?基礎(chǔ)的自然科學(xué)常識(shí)背后的物理原理是有明確定義的,且可以由數(shù)學(xué)公式描述的。第一性原理是通過(guò)少數(shù)的幾個(gè)公理演繹出事物目前的狀態(tài),而物理的定律往往是用偏微分方程來(lái)描述的。牛頓的一部《自然哲學(xué)的數(shù)學(xué)原理》為經(jīng)典力學(xué)定義了一套基本概念,提出了力學(xué)的三大定律和萬(wàn)有引力定律,從而使經(jīng)典力學(xué)成為一個(gè)完整的理論體系。從物理定律出發(fā),用牛頓力學(xué)的公式演繹出各種運(yùn)動(dòng)現(xiàn)象,至少能使AI具有用經(jīng)典力學(xué)可以解釋的自然現(xiàn)象的科學(xué)常識(shí)。
實(shí)際上在這方面已經(jīng)有了先例。AAAI 2017的最佳論文《基于物理和領(lǐng)域知識(shí)的神經(jīng)網(wǎng)絡(luò)無(wú)標(biāo)簽監(jiān)督》,就是基于萬(wàn)有引力定律推算出枕頭的運(yùn)動(dòng)軌跡,利用網(wǎng)絡(luò)的輸出必須滿足物理定律的約束來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),從而實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)的無(wú)標(biāo)簽監(jiān)督學(xué)習(xí)。這里面的常識(shí)就是:一個(gè)物體如果沒(méi)有其他外力作用,例如桌面的支撐力,則在萬(wàn)有引力作用下做自由落體運(yùn)動(dòng)。而我們的IJCNN 2017論文,本質(zhì)上也是基于惠更斯-菲涅爾成像原理,實(shí)現(xiàn)了對(duì)光譜圖像校正的神經(jīng)網(wǎng)絡(luò)無(wú)標(biāo)簽監(jiān)督學(xué)習(xí)。
基于第一性原理思維需要花費(fèi)更多的精力,而基于第一性原理構(gòu)建世界模型要比模仿計(jì)算可能需要更大的計(jì)算量。一方面,目前我們還沒(méi)有足夠的算力讓機(jī)器去學(xué)習(xí)龐大的背景知識(shí),但只限定于基礎(chǔ)的自然科學(xué)的背景知識(shí)還是有可能的。最近有文獻(xiàn)表明GPT-3(OpenAI于2020年5月發(fā)布的Generative Pre-training Transformer語(yǔ)言模型第3版)具有1750億個(gè)參數(shù),所使用的數(shù)據(jù)集容量達(dá)到了45TB,說(shuō)明目前的算力已經(jīng)有了很大的提高。另一方面是運(yùn)用物理思維做合理的近似,簡(jiǎn)化問(wèn)題復(fù)雜度,把不可計(jì)算的問(wèn)題約減為可計(jì)算的問(wèn)題。例如基于平均場(chǎng)理論,把多體問(wèn)題近似為兩體問(wèn)題。數(shù)學(xué)家總是想精確求解問(wèn)題,而物理學(xué)家會(huì)在無(wú)法精確求解的情況下采用近似方法。因此有人戲稱數(shù)學(xué)家總愛(ài)把簡(jiǎn)單的問(wèn)題復(fù)雜化,而物理學(xué)家則盡力把復(fù)雜的問(wèn)題簡(jiǎn)單化。如果說(shuō)為什么要研究基于物理的AI,這也算得上是一條理由吧。
追求和諧、統(tǒng)一與完美是物理學(xué)家的最高境界,這也是AI科學(xué)家以及所有科學(xué)家追求的境界。AI的第一性原理也應(yīng)該是對(duì)完美追求的典范。物理學(xué)中的最小作用量原理就是一個(gè)非常簡(jiǎn)單而優(yōu)雅的原理,可看作是整個(gè)物理學(xué)的第一性原理。該原理是現(xiàn)代物理學(xué)和數(shù)學(xué)的核心,在熱力學(xué)、流體力學(xué)、相對(duì)論、量子力學(xué)、粒子物理學(xué)和弦理論都有廣泛的應(yīng)用。對(duì)最小作用量原理更詳細(xì)的介紹請(qǐng)參考文獻(xiàn),物理學(xué)家理查德·費(fèi)曼(Richard Feynman)對(duì)此有非常精彩的講解,本文不再贅述。在具體實(shí)現(xiàn)上,從具有可操作性的角度考慮,我們認(rèn)為應(yīng)該將最小作用量原理作為AI的第一性原理,期望能在最小作用量原理這塊基石上,建立基于物理的AI宏偉大廈。
為什么要用和如何應(yīng)用第一性原理?
近幾百年來(lái),哥白尼、牛頓、愛(ài)因斯坦、達(dá)爾文等科學(xué)巨匠對(duì)科學(xué)革命做出了巨大的貢獻(xiàn)。而科學(xué)革命帶來(lái)的技術(shù)進(jìn)步,促進(jìn)了社會(huì)生產(chǎn)力快速發(fā)展和社會(huì)文化進(jìn)步,對(duì)人類文明產(chǎn)生了巨大影響。他們共同的思維方式,都是簡(jiǎn)潔而優(yōu)美的第一性原理。愛(ài)因斯坦說(shuō)過(guò):“適用于科學(xué)幼年時(shí)代的以歸納為主的方法,正在讓位于探索性的演繹法”,應(yīng)該“由經(jīng)驗(yàn)材料作為引導(dǎo),研究者寧愿提出一種思想體系,它一般是在邏輯上從少數(shù)幾個(gè)所謂公理的基本假定建立起來(lái)的”。這段話不但告訴我們其科研方法是第一性原理思維,還告訴我們要使用演繹法。第一性原理的本質(zhì)是邏輯學(xué)中的演繹性思維。
我們知道,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集,而機(jī)器學(xué)習(xí)是人工智能的一個(gè)子集,其局限之一在于無(wú)法解釋因果關(guān)系。因果關(guān)系是一個(gè)事件和另一個(gè)事件之間的作用關(guān)系,其中前一個(gè)事件是原因,后一事件被認(rèn)為是前一事件的結(jié)果。一般來(lái)說(shuō),一個(gè)事件可能是很多發(fā)生在較早時(shí)間點(diǎn)的原因綜合產(chǎn)生的結(jié)果,而該事件又可以成為發(fā)生在之后時(shí)間點(diǎn)的其他事件的原因。因果關(guān)系亦稱“因果律”,哲學(xué)上有一種對(duì)第一性原理的說(shuō)法:“第一性原理是超越因果律的第一因,且是唯一因,同時(shí)第一性原理一定是抽象的?!?第一性原理思維顯然與因果關(guān)系緊密相連,這或許為我們解決AI無(wú)法解釋因果關(guān)系的問(wèn)題提供了一種新的思路。
由于思維邏輯和觀察視角直接影響對(duì)問(wèn)題的理解,基于第一性原理思維無(wú)疑會(huì)有助于深刻理解問(wèn)題。第一性原理應(yīng)用在企業(yè)獲得成功的典范人物是“鋼鐵俠”埃隆·馬斯克(Elon Musk)。在一次TED采訪中,他告訴大家他成功的秘密是運(yùn)用了第一性原理思維。我們可以理解為第一性原理的思維方式是用物理學(xué)的角度看待世界,一層層撥開(kāi)事物表象,看到里面的本質(zhì),再?gòu)谋举|(zhì)一層層往上走。馬斯克的第一性原理思維方式在企業(yè)界引起了轟動(dòng),帶動(dòng)了企業(yè)家依據(jù)第一性原理思考問(wèn)題去進(jìn)行顛覆式創(chuàng)新。
在AI基礎(chǔ)研究領(lǐng)域,基于第一性原理構(gòu)建世界模型是一個(gè)科學(xué)問(wèn)題。而在自然語(yǔ)言處理(NLP)領(lǐng)域,能在50多種任務(wù)上取得驚艷效果的GPT-3模型,只是證明了現(xiàn)有技術(shù)的可擴(kuò)展性,不可能走向AGI。從文獻(xiàn)和報(bào)道來(lái)看,GPT-3的基礎(chǔ)架構(gòu)并沒(méi)有太大變化,仍然是基于大數(shù)據(jù)(使用45TB數(shù)據(jù)進(jìn)行訓(xùn)練)、大模型(擁有 1750 億個(gè)參數(shù))、大算力(擁有超過(guò) 285000 個(gè) CPU 內(nèi)核、10000 個(gè) GPU 的超級(jí)計(jì)算機(jī)和 400Gbps 的網(wǎng)絡(luò)連接)這三種要素的神經(jīng)網(wǎng)絡(luò)AI。在關(guān)于GPT-3的論文中也說(shuō)明了數(shù)據(jù)越大,參數(shù)量越大,模型的性能表現(xiàn)越好的觀點(diǎn)得到了驗(yàn)證。論文中也暗示了AI中僅僅增加算力的局限性,算法設(shè)計(jì)方面沒(méi)有突破。
盡管 GPT-3表現(xiàn)出了巨大的潛力,但基于深度學(xué)習(xí)的AI仍然存在問(wèn)題,包括存在偏見(jiàn)、依賴于預(yù)訓(xùn)練數(shù)據(jù)、不具有常識(shí)、沒(méi)有基于因果關(guān)系的推理能力、缺乏可解釋性等。GPT-3不可能理解人們賦予它的任務(wù),也無(wú)法判斷命題是否有意義。凱文·拉克的博客展示了對(duì)GPT-3的圖靈測(cè)試。測(cè)試中有個(gè)問(wèn)題是:“我的腳有多少只眼睛?” GPT-3答:“你的腳有兩只眼睛?!碑?dāng)一個(gè)句子中涉及的物體超過(guò)兩個(gè)時(shí),GPT-3體現(xiàn)出短時(shí)記憶有限的缺陷,不會(huì)舉一反三,推理出現(xiàn)困難。
第一性原理思維是一種演繹性思維方式,是要堅(jiān)持不懈地追求問(wèn)題的本質(zhì),然后用追本溯源得到的這些基礎(chǔ)知識(shí)來(lái)解決問(wèn)題。我們基于第一性原理思維,從宏觀、介觀到微觀三個(gè)層次全方位來(lái)分析一下GPT-3系統(tǒng)。一個(gè)AI系統(tǒng)從宏觀上看是由軟件和硬件組成的系統(tǒng),軟件是AI系統(tǒng)的靈魂,硬件是物理實(shí)體。從硬件角度來(lái)看,GPT-3所用的計(jì)算機(jī)仍然是馮·諾伊曼體系結(jié)構(gòu):計(jì)算機(jī)的數(shù)制采用二進(jìn)制,計(jì)算機(jī)按照人的指令編寫好的程序順序執(zhí)行。之所以采用二進(jìn)制,是因?yàn)樵谟?a target="_blank">半導(dǎo)體材料制成的元器件中,用高電平表示1,低電平表示0。從基本的元器件構(gòu)成運(yùn)算器、存儲(chǔ)器,再到集成電路,直至現(xiàn)代的超級(jí)計(jì)算機(jī),均是人設(shè)計(jì)并制造出來(lái)的。計(jì)算機(jī)指令采用二進(jìn)制編碼,有確定性的機(jī)器指令集。目前計(jì)算機(jī)所產(chǎn)生的隨機(jī)數(shù)也是偽隨機(jī)數(shù),不可能像高等智慧生物那樣自主產(chǎn)生意識(shí)?,F(xiàn)有的AI芯片,也只是把人們?cè)O(shè)計(jì)的算法硬件化,AI的核心算法并沒(méi)有得到突破,硬件化后只是對(duì)現(xiàn)有的算法加速了,并沒(méi)有開(kāi)發(fā)出真正的智能芯片。從軟件的角度來(lái)看,軟件是計(jì)算機(jī)程序+文檔及數(shù)據(jù),程序包含了算法。在AI算法上,GPT-3采用了與GPT-2同樣的Transformer架構(gòu),不同之處是它融合了一種稀疏自注意力機(jī)制。利用自注意力機(jī)制有效提高了訓(xùn)練速度,改善了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)學(xué)習(xí)速度慢的缺點(diǎn)。因此,在馮·諾伊曼體系結(jié)構(gòu)與目前深度學(xué)習(xí)算法下,依據(jù)“無(wú)限猴子定理”,需要無(wú)限長(zhǎng)時(shí)間才有可能完成一部《紅樓夢(mèng)》,在有限時(shí)間內(nèi)能讓GPT-3產(chǎn)生一部類似《紅樓夢(mèng)》的著作的概率也是無(wú)限小。即使產(chǎn)生了一部人們可以讀懂的著作,但GPT-3也完全不可理解其內(nèi)容是什么含義。所以在當(dāng)前的架構(gòu)下,GPT-3不會(huì)邁向AGI,不會(huì)像有些人說(shuō)的是“硅基文明的崛起”。這就是基于第一性原理思維得出的結(jié)論。
在《MIT技術(shù)評(píng)論》(Technology Review)雜志中的一篇文章1評(píng)論到,OpenAI的新語(yǔ)言生成器GPT-3是“令人震驚的好”和“完全沒(méi)有頭腦”。至于未來(lái)GPT-3是否會(huì)邁向AGI,技術(shù)新聞網(wǎng)站The Verge的報(bào)道2給出了這樣一段話:“這種按規(guī)模改進(jìn)的概念非常重要,它正好是關(guān)于AI未來(lái)的一場(chǎng)大辯論的核心:我們究竟是使用當(dāng)前的工具來(lái)構(gòu)建AGI,還是需要進(jìn)行新的基礎(chǔ)發(fā)現(xiàn)?AI從業(yè)者對(duì)此尚未達(dá)成共識(shí),仍存在大量爭(zhēng)論。這些主要可劃分成兩大陣營(yíng)。一個(gè)陣營(yíng)爭(zhēng)辯說(shuō),我們?nèi)鄙賱?chuàng)造人工智慧的關(guān)鍵組成部分,即計(jì)算機(jī)必須先了解因果關(guān)系等事物,然后才能接近人類的智能。另一個(gè)陣營(yíng)則說(shuō),如果該領(lǐng)域的歷史能夠表明了什么的話,那么實(shí)際上AI的問(wèn)題基本是可以通過(guò)向它們投入更多的數(shù)據(jù)和提高計(jì)算機(jī)的處理能力來(lái)解決的?!?/p>
OpenAI公司屬于后一陣營(yíng),他們一直認(rèn)為巨大的計(jì)算力配合強(qiáng)化學(xué)習(xí),是通往AGI必經(jīng)之路。但是大多數(shù)AI學(xué)者,包括ACM圖靈獎(jiǎng)獲得者約書亞·本吉奧(Yoshua Bengio)和雅恩·樂(lè)昆,基本上是屬于前一陣營(yíng)的,認(rèn)為AGI是不可能創(chuàng)造出來(lái)的。從第一性原理出發(fā),我們得到的結(jié)論是不可能實(shí)現(xiàn)AGI。對(duì)此,我們應(yīng)有非常清醒的認(rèn)知:受物理規(guī)律的制約,深度學(xué)習(xí)框架的天花板很快就會(huì)來(lái)臨。如果在基礎(chǔ)理論方面沒(méi)有突破,基于深度學(xué)習(xí)的框架就不可能發(fā)展成為硅基文明的AGI。所謂的硅基文明是科學(xué)幻想,不是科學(xué)事實(shí)。GPT-3沒(méi)有產(chǎn)生技術(shù)革命,只是在應(yīng)用上取得了重大突破。未來(lái)我們?nèi)杂泻芏鄦?wèn)題有待解決,還需要從第一性原理出發(fā),重新構(gòu)建AI基礎(chǔ)理論框架,才能賦予AI常識(shí),發(fā)展具有可解釋性的AI。
結(jié)束語(yǔ)
正如清華大學(xué)張鈸院士所說(shuō),在探索通往AGI的道路上,“現(xiàn)在走得并不遠(yuǎn),在出發(fā)點(diǎn)附近”。***主席說(shuō)過(guò),“路線是個(gè)綱,綱舉目張”,“人多,槍多,代替不了正確的路線”。即使AI從業(yè)人員多,算力也很強(qiáng)大,但如果路線不正確,我們就有可能走很多彎路,甚至?xí)萑刖植繕O值的坑里出不來(lái)。在AI基礎(chǔ)研究領(lǐng)域,正確的路線之一也許是摒棄類比思維,采用第一性原理的思維方式。
期望我們能以第一性原理為出發(fā)點(diǎn),能在不遠(yuǎn)的將來(lái)實(shí)現(xiàn)一個(gè)小目標(biāo),即先讓AI具有基于物理規(guī)律的科學(xué)常識(shí),讓人工智能不再是“人工智障”。本文也希望拋磚引玉,在演繹性思維模式下創(chuàng)新,在AI基礎(chǔ)理論上有顛覆性突破。
編輯:黃飛
評(píng)論