近期,來自CMU和斯坦福的Zachary C. Lipton和Jacob Steinhardt兩位研究員為頂會ICML舉辦的Machine Learning: The Great Debate發(fā)表文章,并指出現(xiàn)在機(jī)器學(xué)習(xí)研究中的四大危機(jī):混淆闡述與推測、無法明確得到較好結(jié)果的原因、數(shù)學(xué)公式堆積以及語言誤用。
學(xué)術(shù)界在大家的印象里一般是很嚴(yán)肅的,但近期AI頂會ICML在斯德哥爾摩舉辦了一個辯論會—Machine Learning: The Great Debates (ML-GD),專供各家學(xué)者、研究人員積極探討領(lǐng)域內(nèi)技術(shù)的現(xiàn)狀、瓶頸及對社會的影響。
有AI小網(wǎng)紅之稱的Zachary C.Lipton攜手斯坦福研究員Jacob Steinhardt發(fā)表了參會的論文《Troubling Trends in Machine Learning Scholarship》,并發(fā)推文,引發(fā)了熱烈的討論。
觀點提出背景
機(jī)器學(xué)習(xí)(ML)研究人員正在致力于有關(guān)“數(shù)據(jù)驅(qū)動算法”知識的創(chuàng)建和傳播。據(jù)研究,許多研究人員都渴望實現(xiàn)以下目標(biāo):
理論性闡述可學(xué)習(xí)內(nèi)容
深入理解經(jīng)驗嚴(yán)謹(jǐn)?shù)膶嶒?/p>
構(gòu)建一個有高預(yù)測精度的工作系統(tǒng)
雖然確定哪些知識值得探究是很主觀的,但是一旦主題確定,當(dāng)論文為讀者服務(wù)時,它對社區(qū)最有價值,它能創(chuàng)造基礎(chǔ)知識并盡可能清楚地進(jìn)行闡述。
什么樣的論文更適合讀者呢?我們可以列出如下特征:這些論文應(yīng)該
(i)提供直觀感受以幫助讀者理解,但應(yīng)明確區(qū)別于已證明的強有力結(jié)論;
(ii)闡述考量和排除其他假設(shè)的實證調(diào)查 ;
(iii)明確理論分析與直覺或經(jīng)驗之間的關(guān)系 ;
(iv)利用語言幫助讀者理解,選擇術(shù)語以避免誤解或未經(jīng)證實的內(nèi)容,避免與其他定義沖突,或與其他相關(guān)但不同的概念混淆。
機(jī)器學(xué)習(xí)研究中的四大危機(jī)
盡管機(jī)器學(xué)習(xí)最近取得了一些進(jìn)展,但這些“理想”狀態(tài)往往與現(xiàn)實背離。在這篇文章中,我們將重點放在以下四種模式上,這些模式在ML學(xué)術(shù)(schoolar-ship)中似乎是最流行的:
1. 無法區(qū)分客觀闡述和推測。
2. 無法確定得到較好結(jié)果的原因,例如,當(dāng)實際上是因為對超參數(shù)微調(diào)而獲得好效果的時候,卻強調(diào)不必要修改神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
3. 數(shù)學(xué)公式堆積:使用令人混淆的數(shù)學(xué)術(shù)語而不加以澄清,例如混淆技術(shù)與非技術(shù)概念。
4. 語言誤用,例如,使用帶有口語的藝術(shù)術(shù)語,或者過多的使用既定的技術(shù)術(shù)語。
雖然這些模式背后的原因是不確定的,但會導(dǎo)致社區(qū)的迅速擴(kuò)張、評閱的人數(shù)不足,以及學(xué)術(shù)和短期成功衡量標(biāo)準(zhǔn)(如文獻(xiàn)數(shù)量、關(guān)注度、創(chuàng)業(yè)機(jī)會)之間經(jīng)常出現(xiàn)的不平衡。雖然每種模式都提供了相應(yīng)的補救措施(但不建議這么做),我們還將討論一些關(guān)于社區(qū)如何應(yīng)對這些趨勢的推測性建議。
有缺陷的學(xué)術(shù)研究可能會誤導(dǎo)大眾,并阻礙學(xué)術(shù)未來的研究。實際上,這些問題有許多是在人工智能的歷史(更廣泛地說,是在科學(xué)研究)中循環(huán)出現(xiàn)的。1976年,Drew Mc-Dermott[1]指責(zé)人工智能社區(qū)放棄了自律,并預(yù)言“如果我們不能批判自己,別人就會幫我們解決問題”。
類似的討論在整個80年代、90年代和2008年都反復(fù)出現(xiàn)[2,3,4]。在心理學(xué)等其他領(lǐng)域,糟糕的實驗標(biāo)準(zhǔn)削弱了人們對該學(xué)科權(quán)威的信任。當(dāng)今機(jī)器學(xué)習(xí)的強勁潮流歸功于迄今為止大量嚴(yán)謹(jǐn)?shù)难芯?,包括理論研究[5,6,7]和實證研究[8,9,10]。通過提高清晰明了的科學(xué)思維和交流,我們可以維持社區(qū)目前所享有的信任和投資。
總結(jié)
可能有人會認(rèn)為這些問題可以通過自律、自我糾正來改善。這個觀點雖然是正確的,但是機(jī)器學(xué)習(xí)社區(qū)需要反復(fù)討論如何構(gòu)建合理的學(xué)術(shù)標(biāo)準(zhǔn)以實現(xiàn)這種自我修正。
-
人工智能
+關(guān)注
關(guān)注
1796文章
47791瀏覽量
240561 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8446瀏覽量
133123
原文標(biāo)題:【ICML開杠】機(jī)器學(xué)習(xí)研究的四大危機(jī)
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論