2018年,人工智能發(fā)展到什么階段了?Quora鼎鼎有名的大V認(rèn)為,AI炒作和AI威脅論在今年都降溫,并且不會(huì)有AI寒冬,升溫的是各種開源框架,2019年的AI,你認(rèn)為會(huì)是怎樣?
2018年,機(jī)器學(xué)習(xí)和人工智能領(lǐng)域最重要的突破是什么?
(這里給你留出充分思考的時(shí)間。)
看看其他的觀點(diǎn)。
之前,KDnuggets邀請了11位來自工業(yè)、學(xué)術(shù)和技術(shù)一線人員,回顧2018年AI的進(jìn)展。其中,呼吁阻止AI學(xué)術(shù)頂會(huì)向商業(yè)化淪陷的CMU助理教授Zachary C. Lipton認(rèn)為,2018年 (深度學(xué)習(xí)) 最大的進(jìn)展就是沒有進(jìn)展。
最近,F(xiàn)orbes則采訪了120位AI行業(yè)的創(chuàng)始人和高管,在2018年AI技術(shù)和產(chǎn)業(yè)現(xiàn)狀的基礎(chǔ)上,對2019年進(jìn)行展望,提出了120個(gè)預(yù)測。(里面有讓你覺得英雄所見略同的看法嗎?)
與往年一樣,Quora鼎鼎有名的大V、機(jī)器學(xué)習(xí)研究者、前Quora工程負(fù)責(zé)人Xavier Amatriain,也寫下了他認(rèn)為2018年機(jī)器學(xué)習(xí)和人工智能領(lǐng)域最大的進(jìn)展:
AI炒作和AI威脅論都有所降溫;
越來越多的人開始關(guān)注公平性、可解釋性或因果關(guān)系等問題;
深度學(xué)習(xí)不會(huì)再遇到寒冬,并且在圖像分類以外(尤其是自然語言處理)領(lǐng)域投入實(shí)用并產(chǎn)生效益;
AI框架方面的競爭正在升溫,要是你想做出點(diǎn)事情,最好發(fā)表幾個(gè)你自己的框架。
一起來看看。
深度學(xué)習(xí)寒冬不會(huì)到來,2018對AI的期望和恐懼都下降了
正如Xavier Amatriain說的那樣,深度學(xué)習(xí)的寒冬不會(huì)到來——這項(xiàng)技術(shù)已經(jīng)用到產(chǎn)業(yè)里并帶來了收益,現(xiàn)實(shí)讓人們收起了一部分對AI的期望和恐懼,業(yè)界開始思考數(shù)據(jù)的公平性、模型的可解釋性等更本質(zhì)的問題。
如果說2017年是人工智能炒作和威脅論的風(fēng)口浪尖,那么2018似乎是我們開始冷靜下來的一年。
雖然馬斯克等人確實(shí)還在繼續(xù)強(qiáng)調(diào)他們對人工智能的恐懼,但他們可能忙于處理其他事務(wù)而無暇顧及這個(gè)議題。
與此同時(shí),媒體和公眾看來也都意識到,雖然自動(dòng)駕駛汽車和類似的技術(shù)在推進(jìn),但不會(huì)很快到來。不過,仍然有聲音支持對AI本身進(jìn)行管制,Xavier Amatriain認(rèn)為這種觀點(diǎn)是錯(cuò)誤的,真正該管制的是AI所造成的結(jié)果。
深度學(xué)習(xí):可解釋性得到更多關(guān)注,NLP迎來ImageNet時(shí)刻
關(guān)于AI炒作和AI威脅論的降溫實(shí)際上前面已經(jīng)說過了,Xavier Amatriain表示他很高興看到今年的重點(diǎn)似乎已經(jīng)轉(zhuǎn)移到去解決更具體的問題上面。
例如,業(yè)內(nèi)圍繞公平性 (fairness)展開了大量的討論,不僅舉辦了多個(gè)相關(guān)主題的會(huì)議 (比如FATML、ACM FAT),甚至還出現(xiàn)了一些在線課程。
ACM FAT會(huì)議,2019年1月底在美國召開
關(guān)于可解釋性 (interpretability)、對算法或模型的理解 (explanation)和因果關(guān)系 (causality)。后者重新成為人們關(guān)注的焦點(diǎn),主要是因?yàn)镴udea Pearl出版了“The Book of Why”這本書。關(guān)于推薦系統(tǒng)的ACM Recsys會(huì)議,最佳論文獎(jiǎng)也頒給了一篇討論如何在嵌入中包含因果關(guān)系的論文 (Causal Embeddings for Recommendations)。
話雖如此,許多其他作者認(rèn)為,因果關(guān)系在某種程度上是對深度學(xué)習(xí)理論的干擾,我們應(yīng)該再次關(guān)注更具體的問題,比如 interpretability 或 explanation。說到 Explanation,這個(gè)領(lǐng)域的亮點(diǎn)之一可能是華盛頓大學(xué) Marco Tulio Ribeiro等人發(fā)表的 Anchor論文和代碼,這他們對自己提出的著名模型LIME的改進(jìn)。
雖然關(guān)于深度學(xué)習(xí)是最通用的AI范例這一點(diǎn),仍然存在許多疑問(提問者算我一個(gè));雖然Yann LeCun和Gary Marcus兩人已經(jīng)是第n次爭論這個(gè)問題,但很明顯,深度學(xué)習(xí)不僅僅停留于此。
在這一年里,深度學(xué)習(xí)方法在視覺以外的領(lǐng)域,包括語言、醫(yī)療、教育等領(lǐng)域取得了前所未有的成功。尤其是教育方面,國內(nèi)國外的自適應(yīng)學(xué)習(xí)(Adaptive Learning) 都愈發(fā)火熱,以中國的松鼠AI (乂學(xué)教育) 為代表的個(gè)性化自適應(yīng)教學(xué)平臺(tái),甚至請到了“機(jī)器學(xué)習(xí)教父”Tom Mitchell出任首席科學(xué)家。
事實(shí)上,在NLP領(lǐng)域,我們看到了今年最引人注目的進(jìn)展。如果讓我必須選擇今年最令人印象深刻的AI應(yīng)用程序,那么我的選擇都來自NLP領(lǐng)域(而且都來自谷歌)。第一個(gè)是谷歌的超級有用的Smart Compose智能撰寫郵件工具,第二個(gè)是Duplex對話系統(tǒng)。
使用語言模型的想法加速了NLP的進(jìn)步,這個(gè)想法在今年由Fast.ai的UMLFit推廣起來。接著,我們看到了其他(改進(jìn)的)方法,如艾倫研究所的ELMO,Open AI的transformers,以及最近谷歌發(fā)布的BERT,它在許多任務(wù)上擊敗了此前的SOTA結(jié)果。這些模型被描述為“NLP的ImageNet時(shí)刻”,因?yàn)樗鼈兲峁┝穗S時(shí)可用的預(yù)訓(xùn)練通用模型,也可以對特定任務(wù)進(jìn)行微調(diào)。
除了語言模型之外,還有許多其他有趣的改進(jìn),比如facebook的多語言嵌入。值得注意的是,我們還看到這些方法和其他方法是如何迅速地集成到更一般的NLP框架中,比如AllenNLP或Zalando的FLAIR。
生態(tài):AI框架戰(zhàn)升溫,要出成績你最好發(fā)表幾個(gè)自己的框架
說到框架,今年的“AI框架戰(zhàn)爭”可謂愈演愈烈。令人驚訝的是,隨著Pytorch 1.0的發(fā)布,Pytorch似乎正在趕上TensorFlow。
雖然在生產(chǎn)中使用Pytorch的情況仍然不夠理想,但是Pytorch在這方面的進(jìn)展似乎比TensorFlow在可用性、文檔和教育方面的進(jìn)展要快。有趣的是,選擇Pytorch作為實(shí)現(xiàn)Fast.ai library的框架很可能起了重要作用。
話雖如此,谷歌已經(jīng)意識到了這一切,并正在朝著正確的方向推進(jìn),例如將Keras納入框架。最后,我們都能從所有這些偉大的資源中獲益,所以請繼續(xù)迎接它們的到來吧!
pytorch 與 tensorflow 的搜索趨勢
在框架空間中,另一個(gè)進(jìn)展很快的是強(qiáng)化學(xué)習(xí)。
雖然我認(rèn)為RL的研究進(jìn)展并不像前幾年那樣令人印象深刻 (浮現(xiàn)在我腦海中的只有DeepMind最近的Impala工作),但令人驚訝的是,在一年時(shí)間里,我們看到所有主要AI玩家都發(fā)布了RL框架。
谷歌發(fā)布了用于研究的Dopamine框架,Deepmind發(fā)布了某種程度上與Dopamine競爭的TRFL框架。Facebook不甘落后,發(fā)布了Horizon,而微軟發(fā)布了TextWorld,后者更專門用于訓(xùn)練基于文本的智能體。希望2019年所有這些開源的優(yōu)勢能夠幫助RL領(lǐng)域取得更多進(jìn)步。
最后,我很高興看到谷歌最近在TensorFlow之上發(fā)布了TFRank。 Ranking是一個(gè)非常重要的ML應(yīng)用。
數(shù)據(jù):用合成數(shù)據(jù)訓(xùn)練DL模型
深度學(xué)習(xí)似乎最終消除了對數(shù)據(jù)的智能需求,但事實(shí)遠(yuǎn)非如此。
圍繞著改進(jìn)數(shù)據(jù)的想法,該領(lǐng)域仍有一些非常有趣的進(jìn)展。例如,雖然數(shù)據(jù)增強(qiáng)已經(jīng)存在了一段時(shí)間,并且對于許多DL應(yīng)用程序來說是關(guān)鍵,但谷歌今年發(fā)布了AutoAugment,這是一種深度強(qiáng)化學(xué)習(xí)方法,可以自動(dòng)增強(qiáng)訓(xùn)練數(shù)據(jù)。
一個(gè)更極端的想法是用合成數(shù)據(jù)訓(xùn)練DL模型。這已經(jīng)在實(shí)踐中嘗試了一段時(shí)間,被許多人視為AI未來的關(guān)鍵。NVidia在Training Deep Networks with Synthetic Data這篇論文中提出了有趣的新穎想法。在“Learning from the experts”這篇論文中,我們還展示了如何使用專家系統(tǒng)來生成合成數(shù)據(jù),然后將合成數(shù)據(jù)與實(shí)際數(shù)據(jù)相結(jié)合,使用這些數(shù)據(jù)來訓(xùn)練DL系統(tǒng)。
最后,還有一個(gè)有趣的想法,即使用“弱監(jiān)督”來減少對大量手工標(biāo)記數(shù)據(jù)的需求。Snorkel是一個(gè)非常有趣的項(xiàng)目,旨在通過提供一個(gè)通用框架來促進(jìn)這種方法。
基礎(chǔ)理論:AI沒有太多基礎(chǔ)性突破?
我并沒有看到太多AI更基礎(chǔ)性的突破。我并不完全同意Hinton的觀點(diǎn),他說這種創(chuàng)新的缺乏是由于該領(lǐng)域“資深人士太少,年輕人太多”,盡管在科學(xué)上確實(shí)存在這樣的趨勢,即突破性研究經(jīng)常是在更老的年紀(jì)完成的。
在我看來,目前缺乏突破的主要原因是,現(xiàn)有方法和變體仍然有許多有效的實(shí)際應(yīng)用,所以很難冒險(xiǎn)采用那些可能不太實(shí)際的方法。當(dāng)該領(lǐng)域的大部分研究由大公司贊助時(shí),這一點(diǎn)就更加重要了。
這方面,今年有一篇有趣的論文挑戰(zhàn)了某些假設(shè),題為“對用于序列建模的一般卷積和遞歸網(wǎng)絡(luò)的經(jīng)驗(yàn)評估”(An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling)。在高度經(jīng)驗(yàn)主義和使用已知方法的同時(shí),這篇論文打開了發(fā)現(xiàn)新方法的大門,因?yàn)樗C明了通常被認(rèn)為是最優(yōu)的方法實(shí)際上并不是最優(yōu)。
需要明確的是,我不同意Bored Yann LeCun的觀點(diǎn),他認(rèn)為卷積網(wǎng)絡(luò)是最終的“終極算法”(master algorithm),而且我認(rèn)為RNN也不是。
即使是序列建模,也有很大的研究空間!另一篇具有高度探索性的論文是最近的NeurIPS最佳論文“Neural Ordinary Differential Equations”,它挑戰(zhàn)了DL中的一些基本內(nèi)容,包括layers本身的概念。
2018年,機(jī)器學(xué)習(xí)和人工智能的發(fā)展卡在了數(shù)據(jù)集上面
在 Xavier Amatriain 的觀點(diǎn)之后,新智元也補(bǔ)充一點(diǎn):
2018年,機(jī)器學(xué)習(xí)和人工智能的進(jìn)展卡在了數(shù)據(jù)集上面。
為什么這么說?
昨天,創(chuàng)業(yè)公司Graphext在Reddit上發(fā)帖,公布了他們對2018年Reddit網(wǎng)站Machine Learning內(nèi)容分類里2509條帖子聚類分析的結(jié)果 (點(diǎn)擊“閱讀原文”查看大圖):
(Reddit上) 人們最關(guān)心的話題 (占比20%) 是數(shù)據(jù)集,包括訓(xùn)練數(shù)據(jù),大規(guī)模數(shù)據(jù)集,開源,新的數(shù)據(jù)、模型、樣本等等;其次是研究論文 (占比18%),包括復(fù)現(xiàn)結(jié)果、Kaggle競賽和谷歌、FB的工作;再次是訓(xùn)練 (占比16%)。
Graphext對2018年Reddit機(jī)器學(xué)習(xí)帖子聚類結(jié)果:最受關(guān)注的是數(shù)據(jù)
雖是一家之言,但這個(gè)聚類結(jié)果也在一定程度上反映了當(dāng)前機(jī)器學(xué)習(xí)和人工智能從業(yè)者的關(guān)注點(diǎn)——數(shù)據(jù)!大數(shù)據(jù)!開源大數(shù)據(jù)!
也難怪作為學(xué)者的Zachary Lipton要說,2018年深度學(xué)習(xí)最大的進(jìn)展就是沒有進(jìn)展——我們?nèi)耘f在依靠大數(shù)據(jù),手握大數(shù)據(jù)和大算力的谷歌、FB等巨頭最容易出成果,而迫切復(fù)現(xiàn)其算法和模型的其他機(jī)器學(xué)習(xí)工程師則關(guān)注訓(xùn)練的問題。
-
人工智能
+關(guān)注
關(guān)注
1796文章
47789瀏覽量
240547 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8446瀏覽量
133123 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5518瀏覽量
121603
原文標(biāo)題:2018機(jī)器學(xué)習(xí)和AI最大突破沒找到,但我發(fā)現(xiàn)了最大障礙!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論