2018年FIFA俄羅斯世界杯正式結(jié)束,法國(guó)隊(duì)獲得冠軍,克羅地亞和比利時(shí)隊(duì)分獲二三名。和2014年世界杯一樣,許多研究人員試圖提前預(yù)測(cè)結(jié)果一樣,今年也不例外,研究人員和科學(xué)家們?cè)噲D利用人工智能(AI)和統(tǒng)計(jì)知識(shí)來(lái)預(yù)測(cè)本屆FIFA世界杯64場(chǎng)比賽的結(jié)果。
近來(lái)人工智能(AI)的聲勢(shì)頗盛,被稱(chēng)為是未來(lái)的技術(shù)。如今,人工智能也正在成為每個(gè)大中型企業(yè)不可或缺的一部分,但它的可信度有多高?在這篇文章里為大家展示一個(gè)簡(jiǎn)單的示例 —— 分析AI在預(yù)測(cè)2018年世界杯結(jié)果中的表現(xiàn)。(注:這篇文章中是在最近的幾項(xiàng)研究中選取的,分析的方法和評(píng)價(jià)標(biāo)準(zhǔn)也是基于原研究進(jìn)行的。)
預(yù)測(cè)FIFA世界杯的結(jié)果有許多不同的方法。一種方法是針對(duì)團(tuán)隊(duì)能力和獲勝概率,通過(guò)成對(duì)比較來(lái)模擬每一場(chǎng)比賽結(jié)果。Zeileis,Leitner和Hornik使用相同的技術(shù)預(yù)測(cè)巴西將以 16.6% 的概率贏得本屆FIFA世界杯的冠軍,其次是德國(guó)(15.8%)和西班牙(12.5%)。
瑞士銀行瑞銀(UBS)也預(yù)測(cè)了本屆賽事的前 3 名的球隊(duì),他們的結(jié)果是:德國(guó)將以 24.0%的概率獲得冠軍,其次是巴西(19.80%)、西班牙(16.1%)。
他們的預(yù)測(cè)模型考慮了四個(gè)因素,分別是:
Elo評(píng)級(jí);
球隊(duì)在世界杯預(yù)選賽中的表現(xiàn);
球隊(duì)在往屆世界杯比賽中所取得的成績(jī);
主場(chǎng)優(yōu)勢(shì)。
該模型通過(guò)10,000次蒙特卡羅模擬進(jìn)行校準(zhǔn),以得到最終獲勝的概率和最近五次賽事的結(jié)果。
此外,2018年6月8日,來(lái)自德國(guó)的多特蒙德技術(shù)大學(xué),慕尼黑技術(shù)大學(xué)和比利時(shí)根特大學(xué)的四位研究人員(A. Groll等人)在arXiv上發(fā)表了一篇關(guān)于2018年世界杯冠軍預(yù)測(cè)結(jié)果的研究論文。論文中采用著名的人工智能算法——隨機(jī)森林算法和泊松排序算法,并在6月14日世界杯開(kāi)幕前公開(kāi)發(fā)表。他們使用的數(shù)據(jù)集是一個(gè)涵蓋了過(guò)去四屆FIFA世界杯(2002-2014)的所有比賽。他們預(yù)測(cè)西班牙將成為冠軍,其次是德國(guó)隊(duì)和巴西隊(duì)。
以上這三項(xiàng)研究預(yù)測(cè)的前三名結(jié)果都涉及西班牙,德國(guó)和巴西三支隊(duì)伍,不同就在于對(duì)他們名次先后的順序。他們分別采用了三種不同的預(yù)測(cè)方法,數(shù)據(jù)和數(shù)據(jù)特征,但最終產(chǎn)生的結(jié)果幾乎相似?,F(xiàn)在,世界杯結(jié)束了,我們可以來(lái)分析下這些預(yù)測(cè)失敗的模型。
在這些研究中,將會(huì)分析的是 A. Groll等人的研究方案。首先,他們使用了一個(gè)很好的數(shù)據(jù)源。其次,他們考慮了許多訓(xùn)練過(guò)程中的特征和參數(shù)。隨后,他們采用隨機(jī)森林算法。接下來(lái),我將逐個(gè)分析這項(xiàng)研究中所涉及的數(shù)據(jù)特征,誤差以及最終預(yù)測(cè)失敗的原因。
數(shù)據(jù)特征
Groll等人考慮了與團(tuán)隊(duì)自身相關(guān)的各種特征,比如:
經(jīng)濟(jì)因素(國(guó)家人均GDP,人口數(shù)量等);
運(yùn)動(dòng)因素(如ODDSET概率,F(xiàn)IFA排名等);
主場(chǎng)優(yōu)勢(shì)(如主辦方,大陸,聯(lián)邦等);
團(tuán)隊(duì)的組成結(jié)構(gòu)(如隊(duì)伍中同一俱樂(lè)部隊(duì)友的人數(shù),隊(duì)員的平均年齡,參加冠軍聯(lián)賽的球員數(shù)量等);
團(tuán)隊(duì)的教練因素(如教練的年齡,任期,國(guó)籍等)。
總的來(lái)說(shuō),他們總結(jié)了這16個(gè)數(shù)據(jù)特征來(lái)分析每支世界杯參賽隊(duì)。
分類(lèi)模型
正如之前提到的,他們使用一種眾所周知的算法--隨機(jī)森林算法,該算法的工作原理是基于決策樹(shù),在許多數(shù)據(jù)分類(lèi)任務(wù)中表現(xiàn)出很高的性能。此外,他們還引入泊松模型,根據(jù)當(dāng)前的實(shí)力對(duì)各支球隊(duì)進(jìn)行排名。
隨機(jī)森林算法預(yù)測(cè)的2018年FIFA世界杯比賽結(jié)果
預(yù)測(cè)
經(jīng)過(guò)了 10 萬(wàn)次賽事模擬后,他們的算法預(yù)測(cè)出西班牙隊(duì)有 28.9% 的機(jī)會(huì)晉級(jí)決賽,其次是德國(guó)(26.3%)和巴西隊(duì)(21.9%)。
錯(cuò)誤
但是根據(jù)今年的世界杯結(jié)果來(lái)看,預(yù)測(cè)的前兩支球隊(duì)都未能進(jìn)入四分之一決賽,更不用說(shuō)決賽(巴西隊(duì)進(jìn)入四分之一決賽)。根據(jù)世界杯的實(shí)際結(jié)果和預(yù)測(cè),模型的均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)計(jì)算結(jié)果如下:
這兩個(gè)指標(biāo)顯示了模型的錯(cuò)誤,以及它可以在多大程度上準(zhǔn)確地預(yù)測(cè)出最終的團(tuán)隊(duì)排名。盡管使用了 16 個(gè)特征以及大數(shù)據(jù)集(包含過(guò)去四屆世界杯的比賽數(shù)據(jù)),但最終得到的 RMSE和 MAE值都很高,這使得模型缺乏可信度,而基于機(jī)器學(xué)習(xí)的 AI方法(特別是隨機(jī)森林算法)也無(wú)法可靠地預(yù)測(cè)出結(jié)果。在本屆世界杯,俄羅斯,日本和伊朗的表現(xiàn)明顯好于預(yù)期,另一方面,德國(guó)也沒(méi)有晉級(jí)。
2018年 FIFA世界杯中每支球隊(duì)的預(yù)測(cè)排名、實(shí)際排名及預(yù)測(cè)差異結(jié)果(誤差)。
AI為什么失敗?
在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域,為模型訓(xùn)練和模型設(shè)計(jì)并提供適當(dāng)?shù)臄?shù)據(jù)是非常重要。但在這種情況下,盡管擁有適當(dāng)?shù)臄?shù)據(jù)(16個(gè)已清洗的特征),相對(duì)較大的數(shù)據(jù)量(過(guò)往四屆世界杯的比賽數(shù)據(jù))以及具有正確參數(shù)的優(yōu)秀算法,但即使這樣訓(xùn)練有素的模型最終仍會(huì)失敗。我認(rèn)為這種失敗的原因在于我們所預(yù)測(cè)的本質(zhì)。
FIFA世界杯和很多其他以人為本的事件一樣,比賽在賽前和比賽期間(最少90分鐘)有太多的因素(遠(yuǎn)不止是本研究考慮的16個(gè)),這些因素被稱(chēng)為混淆變量。為了能夠正準(zhǔn)確地預(yù)測(cè)結(jié)果,每場(chǎng)比賽的每一分鐘都要模擬出來(lái)。每分鐘甚至每秒鐘狀態(tài)的結(jié)果都取決先前的狀態(tài),這種現(xiàn)象也稱(chēng)為馬爾可夫鏈過(guò)程。錯(cuò)誤的模擬狀態(tài)很容易導(dǎo)致比賽產(chǎn)生不可靠的結(jié)果。
除了內(nèi)部因素外,足球比賽的結(jié)果也可能受到一些外部因素的影響,例如不公平的裁判,天氣,政治情況,甚至球員的個(gè)人問(wèn)題等。而這些重要特征通常很難被衡量和收集。此外,總有一些探索和不確定性的機(jī)會(huì),例如球員的一個(gè)致命失誤或進(jìn)球得分,這是不容易預(yù)測(cè)的。
簡(jiǎn)而言之,像 FIFA世界杯或者一些以人的活動(dòng)為基礎(chǔ)的領(lǐng)域,具有隨機(jī)和動(dòng)態(tài)環(huán)境是如今人工智能技術(shù)還無(wú)法很好駕馭的領(lǐng)域。這個(gè)例子就很好地說(shuō)明了我們必須非常注意 AI在類(lèi)似動(dòng)態(tài)環(huán)境領(lǐng)域的適用性。此外,通過(guò)具有非常復(fù)雜的數(shù)據(jù)結(jié)構(gòu),針對(duì)任何的潛在偏差可能非常難以修正我們已經(jīng)訓(xùn)練好的模型。存在的偏差會(huì)導(dǎo)致模型只適用于特定的群體決策。而實(shí)施這樣的系統(tǒng)也將會(huì)對(duì)個(gè)人和公司產(chǎn)生巨大的問(wèn)題,因此建議將人工智能應(yīng)用于這種隨機(jī)和動(dòng)態(tài)環(huán)境時(shí)作為補(bǔ)充的決策平臺(tái)。
-
AI
+關(guān)注
關(guān)注
87文章
31631瀏覽量
270446
原文標(biāo)題:這么多人用AI預(yù)測(cè)FIFA 2018,為什么總是會(huì)失???
文章出處:【微信號(hào):AI_Thinker,微信公眾號(hào):人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
聯(lián)想集團(tuán)與FIFA國(guó)際足聯(lián)達(dá)成合作
GD32用Embedded軟件debug在線(xiàn)調(diào)試失敗的原因?
華納云:企業(yè)遷移到云端的主要原因是什么?
用PCM2904做的聲卡,造成波形失真的原因是什么呢?
晶閘管逆變失敗的原因和解決方案
OPA828ID發(fā)燙的原因是什么?
HSM引導(dǎo)加載程序的HSM閃存寫(xiě)入請(qǐng)求失敗是什么原因導(dǎo)致的?
人臉識(shí)別模型訓(xùn)練失敗原因有哪些
對(duì)配置為從屬設(shè)備的PSoC4的寫(xiě)入操作失敗,原因是什么?
光纖熔接機(jī)熔接失敗的原因
cubemx ai導(dǎo)入onnx模型后壓縮失敗了怎么解決?
用stlink燒錄stm32H562失敗的原因?
GD32 MCU ISP失敗的原因
![GD32 MCU ISP<b class='flag-5'>失敗</b>的<b class='flag-5'>原因</b>](https://file1.elecfans.com/web2/M00/C1/B2/wKgZomXeix-AYt0QAAA9fb4pF5E360.png)
評(píng)論