馬爾科夫鏈、主成分分析以及條件概率等概念,是計(jì)算機(jī)學(xué)生必學(xué)的知識(shí)點(diǎn),然而理論的抽象性往往讓學(xué)生很難深入地去體會(huì)和理解。而本文,將這些抽象的理論概念,用可視化的方式來(lái)解釋?zhuān)€可調(diào)節(jié)相應(yīng)參數(shù)來(lái)改變結(jié)果,使這些抽象概念變得生動(dòng)而立體!
計(jì)算機(jī)相關(guān)概念太難、太抽象?別怕,往下看!
人類(lèi)對(duì)視覺(jué)信息的記憶要遠(yuǎn)遠(yuǎn)大于文字信息。使用圖表等形式的可視化,可以讓抽象、難懂的概念一目了然;在此基礎(chǔ)之上,添加可控的參數(shù)調(diào)節(jié)器,將更有助于對(duì)概念的深入學(xué)習(xí)與理解。
馬爾科夫鏈
馬爾科夫鏈?zhǔn)侵笖?shù)學(xué)中具有馬爾科夫性質(zhì)的離散事件隨機(jī)過(guò)程。在其每一步中,系統(tǒng)根據(jù)概率分布可以從一個(gè)狀態(tài)變到另一個(gè)狀態(tài),也可以保持當(dāng)前狀態(tài)。狀態(tài)的改變叫做轉(zhuǎn)移,與不同的狀態(tài)改變相關(guān)的概率叫做轉(zhuǎn)移概率。
這概念是不是看著有點(diǎn)暈?沒(méi)關(guān)系,我們來(lái)看下面這張圖:
2種狀態(tài)的馬爾科夫鏈
在狀態(tài)空間中有兩種狀態(tài),A和B。共有4種可能的轉(zhuǎn)換。如果我們?cè)贏,接下來(lái)可以過(guò)渡到B或留在A。如果我們?cè)贐,可以過(guò)渡到A或者留在B。在這張圖中,從任意狀態(tài)到任意狀態(tài)的轉(zhuǎn)移概率是0.5。
當(dāng)然,真正的建模工作者不會(huì)總是就畫(huà)一張馬爾科夫鏈圖。 相反,他們會(huì)使用“轉(zhuǎn)移矩陣”來(lái)計(jì)算轉(zhuǎn)移概率。狀態(tài)空間中的每個(gè)狀態(tài)都會(huì)出現(xiàn)在表格中的一列或者一行中。矩陣中的每個(gè)單元格都告訴你從行狀態(tài)轉(zhuǎn)換到列狀態(tài)的概率。因此,在矩陣中,單元格做的工作和圖中的箭頭所示是一樣。
如果狀態(tài)空間添加了一個(gè)狀態(tài),我們將添加一行和一列,向每個(gè)現(xiàn)有的列和行添加一個(gè)單元格。 這意味著當(dāng)我們向馬爾可夫鏈添加狀態(tài)時(shí),單元格的數(shù)量會(huì)呈二次方增長(zhǎng)。因此,轉(zhuǎn)換矩陣就起到了很大的作用(除非你想把法爾科夫鏈圖畫(huà)的跟叢林一樣)。
馬爾科夫鏈的一個(gè)作用是用計(jì)算機(jī)模擬現(xiàn)實(shí)世界中的現(xiàn)象。例如,可以用來(lái)檢測(cè)一個(gè)新建的水壩溢流的頻率(取決于連續(xù)下雨的天數(shù))。為建立這個(gè)模型,可以從下面的雨天(R)和晴天(S)開(kāi)始:
表述這種模擬天氣的方法就是:“有一半的天數(shù)是下雨天。所以模擬中的每一天都有50%的概率是下雨的?!边@個(gè)規(guī)則在模擬中所產(chǎn)生的序列如下:
你注意到上面的序列和原來(lái)的不太一樣了嗎?第二個(gè)序列似乎具有跳躍性,而第一個(gè)(真實(shí)數(shù)據(jù))似乎具有“粘性”。在真實(shí)的數(shù)據(jù)中,如果某一天是晴天,那么第二天也很可能是晴天。
可以通過(guò)兩個(gè)狀態(tài)的馬爾可夫鏈來(lái)消除這種“粘性”。當(dāng)馬爾科夫鏈處于狀態(tài)“R”時(shí),它保持在該狀態(tài)的概率是0.9,狀態(tài)改變的概率是0.1。同樣,“S”狀態(tài)保持不變的概率是0.9,過(guò)渡到“R”狀態(tài)的概率是0.1。
在許多需要對(duì)大規(guī)模的現(xiàn)象做研究的工作人員手中,馬爾科夫鏈的作用可以變得非常強(qiáng)大。例如,谷歌用于確定搜索結(jié)果順序的算法,稱(chēng)為PageRank,就是一種馬爾可夫鏈。
主成分分析(PCA)
主成分分析, 是一種統(tǒng)計(jì)方法。通過(guò)正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。PCA是最重要的降維方法之一,在數(shù)據(jù)壓縮消除冗余和數(shù)據(jù)噪音消除等領(lǐng)域都有廣泛的應(yīng)用。
2D示例
首先,只考慮兩個(gè)維度的數(shù)據(jù)集,比如高度和重量。這個(gè)數(shù)據(jù)集可以繪制成平面上的點(diǎn)。但如果想要整理出變量,PCA會(huì)找到一個(gè)新的坐標(biāo)系,其中每個(gè)點(diǎn)都有一個(gè)新的(x,y)值。坐標(biāo)軸實(shí)際上沒(méi)有任何物理意義。它們是高度和重量的組合,被稱(chēng)為“主分量”。
拖動(dòng)原始數(shù)據(jù)集中的點(diǎn),可以看到PC坐標(biāo)系統(tǒng)正在調(diào)整
PCA對(duì)于降維很有用。下面,我們將數(shù)據(jù)繪制成兩條直線:一條由x值組成,另一條由y值組成。
但是,如果我們只打算沿一個(gè)維度查看數(shù)據(jù),那么將該維度作為具有最大變化的主成分可能會(huì)更好。 通過(guò)減少PC2,不會(huì)造成太大損失,因?yàn)樗鼘?duì)數(shù)據(jù)集的變化貢獻(xiàn)最小。
3D示例
看透一個(gè)數(shù)據(jù)云是非常困難的,因此,在3D空間中,PCA顯得更為重要。在下面的示例中,原始數(shù)據(jù)以3D的形式繪制,但可以通過(guò)不同的視角,將其投射到2D空間。確定好角度之后,點(diǎn)擊“顯示PCA”按鈕,即可呈現(xiàn)2D的結(jié)果。在本例中,PCA變換確保水平軸PC1的變化量最大,垂直軸PC2的變化量次之,第三軸PC3的變化量最少。顯然,PC3是丟棄的。
應(yīng)用:吃喝在英國(guó)
如果數(shù)據(jù)集不僅僅是三維的,而是17個(gè)維度的呢?!如下表所示:
表中是英國(guó)每個(gè)地區(qū)平均每人每周17種食物的消費(fèi)量,單位為克。這張表顯示了不同食物類(lèi)型之間存在的一些有趣的差異,但總體差異并不顯著。讓我們看看PCA是否可以通過(guò)降維來(lái)強(qiáng)地區(qū)家之間的差異。
下圖是第一個(gè)主成分的數(shù)據(jù)圖。 我們可以看到一些有關(guān)北愛(ài)爾蘭的情況已經(jīng)發(fā)生了變化。
現(xiàn)在,看看第一和第二主成分,可以看到北愛(ài)爾蘭是一個(gè)主要的異常值。一旦回過(guò)頭來(lái)看看表格中的數(shù)據(jù),這就顯得很有道理了:北愛(ài)爾蘭人吃的新鮮土豆要很多,吃的新鮮水果、奶酪、魚(yú)和酒精飲料較少。這是一個(gè)很好的跡象,我們所看到的結(jié)構(gòu)反映了現(xiàn)實(shí)世界地理的一個(gè)重要事實(shí):北愛(ài)爾蘭是四個(gè)國(guó)家中唯一一個(gè)不在大不列顛島上的。
條件概率
條件概率是指一個(gè)事件在另外一個(gè)事件已經(jīng)發(fā)生條件下的發(fā)生概率。一個(gè)落下來(lái)的球可能落在紅色的架子上(稱(chēng)之為A事件),或者落在藍(lán)色架子上(稱(chēng)之為B事件),或者兩者兼而有之。
那么給定一個(gè)球,它擊中了紅色架子(A事件),而后擊中藍(lán)色架子(B事件)的概率會(huì)是多少呢?可以通過(guò)給定A的條件概率,即P(B | A)來(lái)回答這個(gè)問(wèn)題。
將抽象、難懂的計(jì)算機(jī)概念,以可視化的形式展現(xiàn)出來(lái),可以幫助學(xué)生、研究者更好的理解;甚至可以幫助教師們提高教學(xué)質(zhì)量。
無(wú)論如何,希望讀者們能從本文中得到或多或少的幫助。
-
PCA
+關(guān)注
關(guān)注
0文章
90瀏覽量
29713 -
可視化
+關(guān)注
關(guān)注
1文章
1203瀏覽量
21040 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24850
原文標(biāo)題:【“看見(jiàn)”理論】13張動(dòng)圖,徹底看懂馬爾科夫鏈、PCA和條件概率
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論