對于數(shù)據(jù)科學(xué)的藝術(shù),統(tǒng)計學(xué)可以說是一個強大的工具。從高層次的角度來看,統(tǒng)計是利用數(shù)學(xué)對數(shù)據(jù)進行技術(shù)分析。一個基本的可視化,如條形圖,可以給你提供一些高級的信息,但是通過統(tǒng)計學(xué),我們可以以一種更加以信息驅(qū)動和更有針對性的方式來操作數(shù)據(jù)。所用到的數(shù)學(xué)方法能幫助我們對數(shù)據(jù)形成具體的結(jié)論,而不是去靠猜測。
通過使用統(tǒng)計學(xué),我們可以更深入、更細致地了解我們的數(shù)據(jù)到底是如何構(gòu)造的,并基于這種結(jié)構(gòu),我們?nèi)绾巫罴训貞?yīng)用其他數(shù)據(jù)科學(xué)技術(shù)來獲取更多的信息?,F(xiàn)在,我們來看看數(shù)據(jù)科學(xué)家們需要知道的5個基本統(tǒng)計概念,以及如何才能最有效地應(yīng)用它們!
統(tǒng)計特征
統(tǒng)計特征可能是數(shù)據(jù)科學(xué)中最常用的統(tǒng)計概念。這通常是你在研究數(shù)據(jù)集時應(yīng)用的第一種統(tǒng)計技術(shù),包括偏差、方差、平均值、中位數(shù)、百分位數(shù)等。這一切都相當容易理解并在代碼中實現(xiàn)!看看下面的圖表。
一個簡單的箱型圖
中間的那條線是數(shù)據(jù)的中位數(shù)。由于中位數(shù)對離群值的魯棒性更強,因此中位數(shù)比平均值用得更多。第一個四分位數(shù)本質(zhì)上是第25百分位數(shù),表示數(shù)據(jù)中25%的點低于這個值。第三個四分位數(shù)是第75百分位數(shù),表示數(shù)據(jù)中75%的點都低于這個值。最小值和最大值表示數(shù)據(jù)范圍的上、下端。
一個箱型圖完美地闡述了我們能用基本統(tǒng)計特征做什么:
當框圖很短時,它意味著許多數(shù)據(jù)點是相似的,因為在小范圍內(nèi)有許多值
當框圖很長時,它意味著許多數(shù)據(jù)點是完全不同的,因為這些值分布在一個較廣的范圍內(nèi)
如果中值更接近底部,那么我們知道大多數(shù)數(shù)據(jù)的值更低。如果中值更接近頂部,那么我們知道大多數(shù)數(shù)據(jù)都有更高的值?;旧?,如果中值線不在方框中間,那么它就表示數(shù)據(jù)有偏斜。
是否有長尾?這意味著你的數(shù)據(jù)有很高的標準差和方差,說明這些值是分散的,高度不同。如果你在盒子的一邊有長尾而在另一邊沒有,那么你的數(shù)據(jù)可能只在一個方向上有很大的變化。
所有這些信息都來自一些簡單的統(tǒng)計特征,并且很容易計算!當你需要對數(shù)據(jù)進行快速而有效的查看時,請嘗試這些方法。
概率分布
我們可以將概率定義為某個事件發(fā)生的概率百分比。在數(shù)據(jù)科學(xué)中,通常在0到1之間進行量化,0表示我們確信不會發(fā)生,1表示我們確信它會發(fā)生。概率分布是一個函數(shù),表示實驗中所有可能值的概率。請看下面的圖表。
均勻分布是我們在這里展示的3個分布中最基本的。它只有一個值,這個值只出現(xiàn)在某個范圍內(nèi),而超出這個范圍的任何值都是0。這在很大程度上是一種“開關(guān)”分布。我們也可以把它看作是一個有兩個類別的分類變量:0或其他值。你的分類變量可能有多個非0的值,但我們?nèi)匀豢梢园阉胂蟪啥鄠€均勻分布的分段函數(shù)。
正態(tài)分布,通常被稱為高斯分布,由均值和標準差定義。均值在空間上平移分布,標準差控制分散程度。與其他分布的重要區(qū)別(比如泊松分布)是,其所有方向上的標準差都是一樣的。因此,對于高斯分布,我們知道數(shù)據(jù)集的平均值以及數(shù)據(jù)的發(fā)散程度(例如,它是廣泛分布的還是高度集中在少數(shù)幾個值)。
泊松分布與正態(tài)分布相似,但增加了偏斜因子。在偏態(tài)值較低的情況下,泊松分布會像正態(tài)分布一樣向各個方向均勻發(fā)散。但當偏度值較大時,我們的數(shù)據(jù)在不同方向的發(fā)散會不同;在一個方向,它將非常分散,在另一個方向,它將高度集中。
雖然有很多的分布可以深入研究,但這3個已經(jīng)給我們帶來了很多價值。我們可以用均勻分布快速地看到和解釋分類變量。如果我們看到一個高斯分布便知道有很多算法在默認情況下都能很好地處理高斯分布,所以我們應(yīng)該這樣做。有了泊松分布,我們會發(fā)現(xiàn)必須特別小心選擇一種對空間發(fā)散的變化具有魯棒性的算法。
降維
降維這個術(shù)語很容易理解。我們有一個數(shù)據(jù)集,希望減少它的維數(shù)。在數(shù)據(jù)科學(xué)中,它是特征變量的數(shù)量。請看下面的圖表。
降維
立方體代表我們的數(shù)據(jù)集,它有三個維度,總共有1000個點。雖然1000個點的計算在今天很容易處理,但是對于更大的范圍我們?nèi)匀粫龅絾栴}。然而,僅僅從二維的角度來看我們的數(shù)據(jù),例如從立方體的一邊,我們可以看到,從這個角度劃分所有的顏色是很容易的。通過降維,我們可以將三維數(shù)據(jù)投射到二維平面上。這有效地將我們需要計算的點數(shù)減少了100,大大節(jié)省了計算量!
另一種降維方法是特征剪枝。有了特征剪枝,我們可以刪除對分析不重要的任何特征。例如,在研究數(shù)據(jù)集之后,我們可能會發(fā)現(xiàn),在10個特性中,有7個特性與輸出的相關(guān)性很高,而其他3個特性的相關(guān)性很低。那么,這3個低相關(guān)特性可能不值得計算,不過我們只能根據(jù)分析在不影響輸出的情況下將它們刪除。
當前用于降維的最常見的技術(shù)是PCA,它本質(zhì)上是創(chuàng)建了特征的向量表示,顯示它們對輸出有多重要,比如他們的相關(guān)性。PCA可以用于上面討論的兩種降維方式。在此教程中可以了解到更多信息。
過采樣與欠采樣
過采樣和欠采樣是用于分類問題的技術(shù)。有時,我們的分類數(shù)據(jù)集可能會嚴重傾斜到一邊。例如,類1有2000個樣本,但類2只有200個。這將對很多我們常用于建模并預(yù)測的機器學(xué)習技術(shù)帶來影響!但過采樣和欠采樣可以與之對抗。請看下面的圖表。
欠采樣與過采樣
在上圖的左邊和右邊,我們的藍色類比橙色類擁有更多的樣本。在這種情況下,有兩個預(yù)處理選項可以幫助我們的機器學(xué)習模型的訓(xùn)練。
欠采樣意味著我們將只從多數(shù)類中選擇一部分數(shù)據(jù),只使用與少數(shù)類樣本數(shù)相同的數(shù)量。這個方案應(yīng)當保證采樣后類別的概率分布與之前相同。操作很容易,我們只是通過取更少的樣本來平衡數(shù)據(jù)集!
過采樣意味著我們將創(chuàng)建少數(shù)類的副本,以便擁有與多數(shù)類相同的樣本。創(chuàng)建副本時應(yīng)當保證少數(shù)類的分布不變。這個方案中,我們只是把我們的數(shù)據(jù)集變得更均衡,并沒有得到更多的數(shù)據(jù)!
貝葉斯統(tǒng)計
為了充分理解為什么我們要使用貝葉斯統(tǒng)計,需要首先了解頻率統(tǒng)計不足的地方。頻率統(tǒng)計是大多數(shù)人聽到“概率”這個詞時會想到的統(tǒng)計方法。它應(yīng)用數(shù)學(xué)來分析某些事件發(fā)生的概率,具體來說,我們使用的數(shù)據(jù)都是先驗的。
我們看一個例子。假設(shè)給你一個骰子然后問你擲出6的概率是多少,大多數(shù)人會說1 / 6。確實,如果我們做頻率分析,會通過一些數(shù)據(jù)比如某人擲骰子10000次,然后計算每個數(shù)字出現(xiàn)的頻率;大概是1 / 6!
但如果有人告訴你,給你的那個骰子是被改造過的并且落地后總會是6的那面朝上呢?頻率分析只考慮了先驗的數(shù)據(jù),并沒有考慮骰子被改造過這個因素。
貝葉斯統(tǒng)計確實考慮到了這個問題,可以用貝葉定理來說明這一點:
貝葉斯定律
方程中的概率P(H)基本上就是頻率分析;表示根據(jù)之前的先驗數(shù)據(jù),事件發(fā)生的概率是多少。方程中的P(E|H)被稱為似然,本質(zhì)上是根據(jù)頻率分析得到的信息的條件下,我們得到的結(jié)論是正確的概率。例如,滾動骰子10000次,而前1000次全部得到6,你會開始肯定,骰子是被改造過的!P(E)是實際結(jié)論成立的概率。如果我告訴你,骰子是改造過的,你能相信我并說它是真的嗎?
如果我們的頻率分析很好那么就會有一定的權(quán)重說明:是的,我們對6的猜測是正確的。與此同時,我們考慮了改造骰子的事實,它是否為真,同時基于它自己的先驗和頻率分析。從方程的布局可以看出,貝葉斯統(tǒng)計考慮了所有的因素。當你覺得之前的數(shù)據(jù)不能很好地代表未來的數(shù)據(jù)和結(jié)果時,就使用它。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7170瀏覽量
89708 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
167瀏覽量
10106
原文標題:數(shù)據(jù)科學(xué)家需要知道的 5 個基本統(tǒng)計學(xué)概念
文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論