欧美成人天天综合在线视色,中国av天堂资源网站

機器學(xué)習(xí)是大數(shù)據(jù)、人工智能的核心，是從事這個領(lǐng)域的必經(jīng)之路。但是懂得算法還遠(yuǎn)遠(yuǎn)不能體現(xiàn)機器學(xué)習(xí)的價值所在。如果你是開發(fā)者，方便的機器學(xué)習(xí)，為你涉入該領(lǐng)域提供了便捷。不過，能夠確定一套高商業(yè)價值的模型，你需要很長的積淀。總結(jié)八個機器學(xué)習(xí)的核心能力以供把控方向。

1、問題模型化能力

機器學(xué)習(xí)的最終目的是實現(xiàn)某種問題的利益最大化，所有實際問題最終都會轉(zhuǎn)化為一個數(shù)據(jù)科學(xué)的優(yōu)化問題，那么就需要你有較好的行業(yè)背景認(rèn)識。盡管海量數(shù)據(jù)會大量縮小你對行業(yè)熟知知識的要求，但數(shù)據(jù)往往不全是海量的，且熟悉的行業(yè)背景知識可大大提高效率。

2、復(fù)雜數(shù)據(jù)結(jié)構(gòu)化能力

喂入算法是數(shù)據(jù)是設(shè)計好的，結(jié)構(gòu)化了的數(shù)據(jù)，但實際數(shù)據(jù)往往有各種來源，如圖像數(shù)據(jù)、文本數(shù)據(jù)、空間、事件序列。..故而合理的結(jié)構(gòu)化數(shù)據(jù)的能力是很有必要的。

3、數(shù)據(jù)量、數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)合理預(yù)處理的能力

1）數(shù)據(jù)量VS異常值

所謂異常值，即不是缺失值，也不是錯誤值，同樣是真實情況的表現(xiàn)，之所以覺得一個數(shù)據(jù)異常，是因為我們能夠用到的數(shù)據(jù)量不夠大，無法準(zhǔn)確地代表整個此類數(shù)據(jù)的分布。故當(dāng)數(shù)據(jù)量足夠大時，異常值不再異常，且提升了數(shù)據(jù)的覆蓋面，如個性化推薦。

2）數(shù)據(jù)平衡VS采樣

如果數(shù)據(jù)分布均衡，應(yīng)盡可能避免采樣；因為上下采樣都有其不利影響，上采樣不得當(dāng)，使得數(shù)據(jù)中存在大量相同的數(shù)據(jù)，會導(dǎo)致模型過擬合；下采樣則必然減少數(shù)據(jù)信息量。

數(shù)據(jù)不平衡時，常見的處理方式有：

簡單粗暴地復(fù)制小樣本數(shù)量的樣本——容易過擬合；

調(diào)整權(quán)重——其效果基本近似于上一種；

隨機森林，使每棵樹訓(xùn)練時的樣本均衡；

觀察導(dǎo)致樣本不均衡的因素，或可在該因素下先分類，再分別訓(xùn)練模型。

4、理解特征、并可以有效轉(zhuǎn)換特征的能力

海量數(shù)據(jù)特征中，必然有很多特征存在相關(guān)性，常常通過降維有效合并相關(guān)數(shù)據(jù)，這樣，在防止了過擬合的同時，也緩解了計算機的負(fù)擔(dān)；

有時特征經(jīng)過轉(zhuǎn)換后，預(yù)測效果更佳。如連續(xù)變量離散化、重新劃分離散區(qū)間。..。

也可對特征重要性排序，繪制特征數(shù)量增加與模型預(yù)測結(jié)果的關(guān)系曲線。

5、選擇適當(dāng)算法的能力

1）算法不是越復(fù)雜越好的，記住：同樣的數(shù)據(jù)下，當(dāng)所有模型擬合效果相近時，復(fù)雜度越小的算法，帶來不必要的麻煩越小，可解釋性也相對更高。

2）在相同算法下，訓(xùn)練的效果會隨著數(shù)據(jù)的增加而增加，但超過一定程度后，訓(xùn)練效果將趨于穩(wěn)定，此時應(yīng)該考慮更換復(fù)雜度較高的算法。

可以參考下圖為數(shù)據(jù)選擇合理的算法。

6、優(yōu)化損失函數(shù)的能力

當(dāng)數(shù)據(jù)分布不均、或需要為某個類別增加權(quán)重時，就需要調(diào)整損失函數(shù)的權(quán)值參數(shù)，或增加懲罰項。如通過在特定的錯誤類型上，增加更多的懲罰來解釋它們的權(quán)重

7、模型訓(xùn)練與模型融合的能力

想要訓(xùn)練出一個好的模型參數(shù)也不簡單，最好對算法參數(shù)有較深的理解?？梢允褂脰鸥袼阉鳎℅ridSearchCV）輔助調(diào)參，但真正得到的好的參數(shù)，還需要與你長期的經(jīng)驗相結(jié)合。

有時單一的模型不能很好的擬合數(shù)據(jù)，此時可以將多個模型融合做訓(xùn)練，常見的模型融合有Boosting、Bagging兩種。典型的如Adaboost、隨機森林

8、區(qū)分經(jīng)驗誤差與泛化誤差

訓(xùn)練集上的效果不能代表實際效果，要得到好的實際預(yù)測效果，及減小泛化誤差。交叉驗證可以實現(xiàn)這一目的，不過最好還要準(zhǔn)備一套測試數(shù)據(jù)來驗證。通俗理解：交叉驗證是高考前的各種?？?，而最終測試數(shù)據(jù)的結(jié)果就是高考結(jié)果。

此外可以使用正則化來減小泛化誤差。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1796

文章
47791

瀏覽量
240572
大數(shù)據(jù)

大數(shù)據(jù)

+關(guān)注

關(guān)注
64

文章
8910

瀏覽量
137844

原文標(biāo)題：機器學(xué)習(xí)的八個核心能力

文章出處：【微信號：IV_Technology，微信公眾號：智車科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

解析關(guān)于機器學(xué)習(xí)的八個核心

評論

PLC梯形圖編程八個必須步驟

USB的八個問題和答案

labview八個項目

有關(guān)域名知識八個問題

有關(guān)域名的不可不t知的八個問題

輕松高效地設(shè)置PCB設(shè)計約束的八個步驟

確保PCB設(shè)計成功的八個步驟

確保 PCB 設(shè)計成功的八個步驟

輕松高效地設(shè)置PCB設(shè)計約束的八個步驟

PCB布線的八個經(jīng)典問答

可設(shè)置八個鬧時的智能時鐘

機器學(xué)習(xí)研究者必知的八個神經(jīng)網(wǎng)絡(luò)架構(gòu)

谷歌的AI鋼琴精靈：只需用八個按鈕，就可幫助人們即興創(chuàng)作

AMD銳龍4000有八個核心，性能提升56％

八個開關(guān) 輸入輸出只有Proteus圖