人工智能理解自然語言的原理是什么?
人工智能理解自然語言的原理是什么?要有針對性地回答該問題,需先將它的議題邊界進行明確定義。如果將該問題理解為如何利用計算機工具處理和分析自然語言,以實現(xiàn)人與計算機通過自然語言進行的有效溝通,那么可以得到一個相對狹義的回答;如果要梳理“人工智能”、“理解”、“自然語言”等問題中的概念,那么也可以獲得一個相對廣義的探討。
狹義地講,利用計算機進行語言分析的研究是一門語言學與計算機科學的交叉學科,學術界稱之為“計算語言學”(Computational Linguistics),或者是“自然語言處理”(Natural Language Processing, 縮寫:NLP)。如果將程序理解為“數(shù)據(jù)結構+算法”,那么NLP可以類比的理解為“語言學范疇+計算模型”。其中,語言學范疇是指由語言學家定義的語言學概念和標準(如詞、詞性、語法、語義角色、篇章結構等),NLP處理的任務大多來源于此;具體實現(xiàn)的計算模型或算法通常由計算機學家研制。
一般來說,通用的基礎NLP總是與語言學領域的范疇直接相關聯(lián)的,研究包括:詞干提取(Stemming)、詞形還原(Lemmatization)、分詞(Word Segmentation)、詞性標注(Part-of-speech, POS)、命名實體識別(Named Entity Recognition, NER)、詞義消歧(Word Sense Disambiguation, WSD)、組塊識別(Chunk Recognition)、句法分析(e.g. Dependency Parsing)、語義角色標注(Semantic Role Labelling, SRL)、共指消解(Coreference Resolution)、篇章分析(Discourse Analysis)等。還有一些NLP研究不與語言學范疇直接關聯(lián),而是面向文本處理應用的,比如:機器翻譯、文本摘要、信息抽取、情感分類、信息檢索、問答系統(tǒng)等,這些面向應用的NLP技術多多少少會依賴于前面所介紹的幾類NLP基礎研究。例如,文本摘要可能用到的NLP基礎技術一般就涉及分詞、命名實體識別等。
在計算模型研究方面,有理性主義和經驗主義兩條研究路線可以走,即所謂的“規(guī)則方法”和“統(tǒng)計方法”。由于自然語言在本質上屬于人類社會因交流需要而產生的符號系統(tǒng),其規(guī)則和推理特征鮮明,因此早期NLP的研究首要采用規(guī)則方法。然而,一方面,人類語言畢竟不是形式語言,規(guī)則模式往往隱式存在語言當中(比如漢語的語法規(guī)則是相當?shù)暮痪_),規(guī)則的制定并不容易;另一方面,自然語言的復雜性使得規(guī)則很難既無沖突又能涵蓋全部的語言現(xiàn)象,于是這種基于理性主義的規(guī)則方法使得NLP研究長時間停留在一種小范圍可用的Toy階段。直到大規(guī)模語料庫的建設和統(tǒng)計機器學習方法流行開來后,NLP研究才逐漸走向了面向實用化的道路。統(tǒng)計方法省去了很多人工編制規(guī)則的負擔,在模型生成方面自動評估特征的權重,具有較好的魯棒性。然而,當我們想要得到一個好的自然語言處理結果時,在設計反映語言現(xiàn)象洞見(Insight)的模型結構以及合適的特征設計方面,仍離不開NLP研究人員對語言的深入理解及其智力的支持。
可以看到,NLP的處理方式是將理解自然語言的過程看作是一種對語言現(xiàn)象的數(shù)學建模。一方面要求研究者有扎實的語言學知識背景,另一方面也要具備深厚的數(shù)理功底和機器學習經驗。這樣在面對一個具體的自然語言處理問題時,才能將其分解為具備可操作性的建模任務。從這個角度講,NLP并非是真正理解自然語言,只是將語言處理當作一種計算任務。
如果不把理解自然語言簡單地看作是數(shù)學建模,那么從廣義層面,人工智能理解自然語言指的是什么呢?首先,需要明確一下所謂的“自然語言”、“人工智能”、“理解”等概念。
“自然語言”的含義相對明確,一般是指人類社會中逐漸發(fā)明和演變的用于溝通交流的語言,比如語音、手勢語、書面語言等。這里為論述方便,將討論范圍約束在文本形式為載體的語言中,主要是書面自然語言,也包括口語表達的語言。
“人工智能”不是個能夠清晰定義的概念。泛泛地說,人工智能是指機器智能體(Agent)模擬人類所表現(xiàn)出的智能活動,包括人類感知外界的能力、決策推理的能力、甚至擁有情感、意志的能力等。從外延構成上,人工智能包括兩個方面:研究內容和方法論。研究內容即大家熟知的在科研機構開展的各類研究課題,包括:知識表達與推理、語音識別、計算機視覺、自然語言處理、自動規(guī)劃與調度、機器人學等。而方法論是指實現(xiàn)人工智能模擬人類智能的視角和指導原則。實現(xiàn)人工智能主要有三種主流的觀點和視角:符號主義、聯(lián)結主義、行為主義。符號主義(Symbolism)認為,應該從數(shù)理邏輯演繹的角度來模擬人的思維智能活動。知識工程、專家系統(tǒng)等一系列理論與技術的發(fā)展無不受到符號主義思潮的影響。聯(lián)結主義(Connectionism)源于對人腦模型的仿生學研究。McCulloch和Pitts提出的神經元腦模型M-P模型、Hebb提出的神經元學習規(guī)則、Rosenblatt的感知器概念等研究盡可能地從仿生學角度模擬了人腦結構。而后來的BP反向傳播算法、將受限Boltzmann機引入深度學習等研究則更多的是從可計算性的角度大大擴展了神經網絡模型的大規(guī)模應用性。行為主義(Behaviorism)將重點關注在可觀測的人類行為上,認為人類通過行為與外界環(huán)境的交互而得到自適應性,從而獲得智能。行為主義研究中常見的實現(xiàn)技術有進化計算(遺傳算法)、強化學習等。現(xiàn)有主流的以規(guī)則和統(tǒng)計相結合的自然語言處理技術,其規(guī)則的一面與符號主義演繹推理的視角是相一致的;其統(tǒng)計的一面?zhèn)戎赜趶臄?shù)據(jù)中挖掘出語言學的一般性規(guī)律,屬于歸納性思維。近些年來,詞向量(如word2vec)等語言知識的分布式表示開始流行,這種分布式表示能夠很自然的接入到神經網絡模型,進行數(shù)據(jù)歸納學習,在一定程度上促進了聯(lián)結主義自然語言處理的發(fā)展。
說到“理解”,大多數(shù)人的共識是機器無法真正理解自然語言,但是人類可以理解。一個典型的證據(jù)來源于美國哲學家John Searle通過“中文房間”思想實驗對圖靈測試的反駁。圖靈測試用于判斷機器是否具備人類智能。該測試的實驗思路是:讓一個不知情的質問者詢問一臺計算機和一個志愿者,通過多輪檢驗后如果質問者仍然無法判別計算機和志愿者分別是誰,那么說明計算機通過了圖靈測試,意味著計算機具備了人類智能,擁有理解能力。Searle利用“中文房間”思想實驗對圖靈測試進行了批駁。該思想實驗的大意是,一個說英語的人在房間內通過查找中文對照表與屋外人用中文交流。在屋外人看來,房間內的人會說流利的中文,而實際上他卻完全不懂中文。在本文作者看來,暫且不必太糾結機器能否真的理解自然語言。事實上,人在語言交流時很多情況下也未必做得很好。例如,在談及“元宵”時,全國各個地方對“元宵”的具體理解是有差異的;在談及“豪宅”時,香港和內地人在房屋尺寸上的理解也是不同的;一些溫度感受的概念如“冷/熱”,生活在不同緯度地區(qū)的人們對標的溫度也是有別的。在認知語言學看來,概念的語義并非是從字典中羅列的靜態(tài)含義。事實上,每個人對概念的理解與他個人特異化的體驗環(huán)境有關。即便是同一概念,不同人也有不同的解讀。例如,在多數(shù)情況下,擁有相似生活體驗的人們,談論某一共同話題時才更有可能產生所謂的“感同身受”。語義理解的困難尚且如此,人們在日常會話交際時還會產生語用理解的困難。請看這樣一對會話,甲:“晚上去KTV嗎”?乙:“我爸從天津回來了”。如果僅僅從字面語義來看待甲乙兩人的會話是無法理解乙的回答的。實際上,乙通過告訴對方“我爸從天津回來了”來暗示自己沒有辦法接受甲的邀請,這是一種涉及語用的間接拒絕,反映了言語交際的真正意圖。充分理解會話雙方的語用意圖需要借助會話的語境推理,影響推理的因素不僅包括會話上下文、會話時間地點等物理環(huán)境,也包括會話雙方的共識知識、性格特點、文化背景等。人與人在語言交流中的相互理解仍是不易的,更何況是機器的真正理解。那么我們在利用機器處理自然語言時,可以不必過多在意它是否真的能理解這個問題本身,而是將精力關注在如何讓智能體盡可能多地模擬人的智能,讓機器具備人一樣的功能。
自然語言理解方面,雖然以聯(lián)結主義為代表的神經網絡模型在物理表征層面盡可能地嘗試模仿人腦結構,然而在一些處理機制方面仍與人腦存在巨大的差異。這里討論三個問題。
一. 人腦如何從底層的聯(lián)結計算向上自動形成出可推理的符號計算?人腦的基礎構成是數(shù)億萬神經元及其形成的聯(lián)結結構,信息輸入是連續(xù)數(shù)值形式的,然而通過人腦的層層高級加工最終卻可以將信息概念化,進而形成高效的符號計算與推理。新的知識可以通過概念組合或者推理獲得,而無需再通過大規(guī)模的數(shù)據(jù)驅動得到。例如,如果人腦從大量文本素材中學習得到句子的“主(noun)+謂(verb)+賓(noun)”模式,那么當看到一句話“a1a2b1b2c1”,已知“b1b2”是動詞,“c1”是名詞,很有可能推理出“a1a2”是名詞也是句子的主語。進一步的,如果已知“b1b2”是個體才能實施的動作,那么可以推斷出“a1a2”很有可能是命名實體,即使我們不預先知道“a1a2”的內部用詞構成。在圖像處理領域,目前的深度學習技術可以將圖像信息逐層抽象,自發(fā)地學習出高層特征,形成高級語義模式。這對自動化的模擬自然語言理解具有借鑒意義,然而實際上處理自然語言則困難得多。目前,如何利用底層的文本輸入,讓機器像人腦一樣通過逐層信息加工自動生成高級的語言學離散符號及其模式規(guī)則,其形成機制并不清晰。
二. 如何讓機器像人腦一樣實現(xiàn)反饋式的自然語言理解?NLP研究的主流做法是將單個自然語言任務封裝成一個模塊,模塊之間按照自然語言任務的高低級之分0次序串聯(lián)起來。例如,對于句子的句法分析,通常的做法是先分詞、詞性標注、命名實體識別、組塊識別等,這些信息可以作為高層句法分析的特征。然而,低級語言分析的錯誤也會傳導到高級語言分析任務上來。如果分詞有錯誤,也會影響到最終句法分析的性能。與之相反的是,人腦在進行自然語言理解時,并非總是按照各個語言分析模塊以串行相接的方式進行。例如前面給出的句子“a1a2b1b2c1”,當我們暫時無法辨別“a1a2”是否是命名實體時,暫且將這個任務放一放,轉而考慮句子后面的信息。當我們逐漸分析出來整個句子可能是“主(noun)+謂(verb)+賓(noun)”的句法模式時,這種更高層的信息作為正面反饋有利于反過來推測“a1a2”是命名實體。這個例子中,命名實體的識別反而采用了更高層的句法信息作為線索?,F(xiàn)有的人工智能的自然語言處理流程是固定的,而人腦對自然語言處理的流程則可以根據(jù)實際情況做出改變。
三. 語義流變的自動學習。大量的詞匯在社會的不同歷史時期會有不同的語義,形成語義流變。例如,“小姐”一詞的內涵從古至今就一直發(fā)生著變化?!靶〗恪痹谥袊饨ㄉ鐣ǔJ侵复髴羧思矣兄己媒甜B(yǎng)的未婚年輕女子;新中國建立后,隨著傳統(tǒng)封建社會中“小姐”對應的人物角色在社會中逐漸消失,“小姐”一詞的使用也越來越少;然而,當人們對從事色情行業(yè)的女子冠以“小姐”的稱呼時,“小姐”一詞又產生了相應的新詞義。因此,出于詞匯語義流變的客觀存在性,不可能一次性設計出一個完整而全面的機讀詞義辭典來支持自然語言的語義理解。當社會上出現(xiàn)詞匯的新解時,一般就需要手動維護和更新語義辭典。如果對機器概念和知識的更新只停留在人工輸入階段,那么機器就永遠無法實現(xiàn)像人一樣的自動學習與進化。
一方面,人們對人腦的語言與思維的研究尚且并不充分。另一方面,現(xiàn)有的人工智能在理解自然語言的處理機制方面與人腦存在巨大的差異,那么是否意味著人工智能在自然語言理解的發(fā)展存在著難以克服的瓶頸呢?答案未必這樣悲觀。如果我們審視人類自身,會發(fā)現(xiàn)語言與思維的產生不僅與人腦基礎的神經連接結構有關,也受到外界語言環(huán)境激勵的影響。如果將聯(lián)結主義和行為主義的思想結合起來,以仿生模擬的方式來“調教”機器智能體,就像教育兒童習得語言那樣以交互激勵的方式學習語言,那么經過很多代的更新和迭代后,機器智能體可能會進化出自己的語言習得裝置,產生特異化的語言模式,而這些語言模式在表征上以分布式的形式存儲于神經權值網絡之中,使得人類理解起來異常困難。就像AlphaGo戰(zhàn)勝了世界圍棋高手,但是它的出棋策略已經很難被制造者所理解。采用仿生學模擬的方式讓機器進化,意味著創(chuàng)造者對機器放棄了一定的控制權。正如凱文·凱利在《失控》中所說,一旦讓機器進化出了智能,那么其代價是人類終將失去對機器的控制。人類可能最終不僅不理解人腦中語言與思維的產生機制,也難以理解機器智能體中的語言和思維是如何形成的。
以上是云知聲NLP團隊的一點心得和思考,限于篇幅,在這里先分享這么多。歡迎大家與我們多多交流。
答主相關
作為一家專注物聯(lián)網人工智能服務、世界頂尖智能語音識別技術的高新技術企業(yè),云知聲的NLP團隊一直在為提升人與機器的會話交互體驗而努力,從提升語義理解能力到突破語用理解、讓機器生成更人性化的應答反饋、以及逐漸讓機器成為可自動回答的“知識專家”……持續(xù)不懈的升級過程既很有挑戰(zhàn)性、也非常有趣。我們的努力目標是讓人與機器實現(xiàn)自然語言交互、可順利進行多輪對話、擁有強大的語用計算能力,讓機器有知識、能決策、自學習,并且有性格、有情感。
我們已經在2013年開放了業(yè)內第一個同時支持語義解析、問答和多輪對話的語義云,還在2016年推出業(yè)內第一個語用計算引擎,支持融合語境信息的理解、生成和交互框架。深度學習技術是我們提升機器理解能力的主要“法寶”,目前已經能讓機器理解60+垂直領域(例如醫(yī)療、家居等),平均語義解析準確率達到93%。NLP可以深耕的點很多,希望與對NLP感興趣的童鞋進一步探討。
-
機器人
+關注
關注
211文章
28673瀏覽量
208548 -
人工智能
+關注
關注
1796文章
47734瀏覽量
240413 -
自然語言
+關注
關注
1文章
291瀏覽量
13406
發(fā)布評論請先 登錄
相關推薦
評論