如果有一個(gè)包含數(shù)十個(gè)甚至數(shù)百個(gè)特征的數(shù)據(jù)集,每個(gè)特征都可能對(duì)你的機(jī)器學(xué)習(xí)模型的性能有所貢獻(xiàn)。但是并不是所有的特征都是一樣的。有些可能是冗余的或不相關(guān)的,這會(huì)增加建模的復(fù)雜性并可能導(dǎo)致過(guò)擬合。特征重要性分析可以識(shí)別并關(guān)注最具信息量的特征,從而帶來(lái)以下幾個(gè)優(yōu)勢(shì):
- 改進(jìn)的模型性能
- 減少過(guò)度擬合
- 更快的訓(xùn)練和推理
- 增強(qiáng)的可解釋性
下面我們深入了解在Python中的一些特性重要性分析的方法。
特征重要性分析方法
1、排列重要性 PermutationImportance
該方法會(huì)隨機(jī)排列每個(gè)特征的值,然后監(jiān)控模型性能下降的程度。如果獲得了更大的下降意味著特征更重要。
from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.inspection import permutation_importance
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=1)
rf = RandomForestClassifier(n_estimators=100, random_state=1)
rf.fit(X_train, y_train)
baseline = rf.score(X_test, y_test)
result = permutation_importance(rf, X_test, y_test, n_repeats=10, random_state=1, scoring='accuracy')
importances = result.importances_mean
# Visualize permutation importances
plt.bar(range(len(importances)), importances)
plt.xlabel('Feature Index')
plt.ylabel('Permutation Importance')
plt.show()
2、內(nèi)置特征重要性(coef_或feature_importances_)
一些模型,如線性回歸和隨機(jī)森林,可以直接輸出特征重要性分?jǐn)?shù)。這些顯示了每個(gè)特征對(duì)最終預(yù)測(cè)的貢獻(xiàn)。
from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
X, y = load_breast_cancer(return_X_y=True)
rf = RandomForestClassifier(n_estimators=100, random_state=1)
rf.fit(X, y)
importances = rf.feature_importances_
# Plot importances
plt.bar(range(X.shape[1]), importances)
plt.xlabel('Feature Index')
plt.ylabel('Feature Importance')
plt.show()
3、Leave-one-out
迭代地每次刪除一個(gè)特征并評(píng)估準(zhǔn)確性。
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
import numpy as np
# Load sample data
X, y = load_breast_cancer(return_X_y=True)
# Split data into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
# Train a random forest model
rf = RandomForestClassifier(n_estimators=100, random_state=1)
rf.fit(X_train, y_train)
# Get baseline accuracy on test data
base_acc = accuracy_score(y_test, rf.predict(X_test))
# Initialize empty list to store importances
importances = []
# Iterate over all columns and remove one at a time
for i in range(X_train.shape[1]):
X_temp = np.delete(X_train, i, axis=1)
rf.fit(X_temp, y_train)
acc = accuracy_score(y_test, rf.predict(np.delete(X_test, i, axis=1)))
importances.append(base_acc - acc)
# Plot importance scores
plt.bar(range(len(importances)), importances)
plt.show()
4、相關(guān)性分析
計(jì)算各特征與目標(biāo)變量之間的相關(guān)性。相關(guān)性越高的特征越重要。
import pandas as pd
from sklearn.datasets import load_breast_cancer
X, y = load_breast_cancer(return_X_y=True)
df = pd.DataFrame(X, columns=range(30))
df['y'] = y
correlations = df.corrwith(df.y).abs()
correlations.sort_values(ascending=False, inplace=True)
correlations.plot.bar()
5、遞歸特征消除 Recursive Feature Elimination
遞歸地刪除特征并查看它如何影響模型性能。刪除時(shí)會(huì)導(dǎo)致更大下降的特征更重要。
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import RFE
import pandas as pd
from sklearn.datasets import load_breast_cancer
import matplotlib.pyplot as plt
X, y = load_breast_cancer(return_X_y=True)
df = pd.DataFrame(X, columns=range(30))
df['y'] = y
rf = RandomForestClassifier()
rfe = RFE(rf, n_features_to_select=10)
rfe.fit(X, y)
print(rfe.ranking_)
輸出為[6 4 11 12 7 11 18 21 8 16 10 3 15 14 19 17 20 13 11 11 12 9 11 5 11]
6、XGBoost特性重要性
計(jì)算一個(gè)特性用于跨所有樹(shù)拆分?jǐn)?shù)據(jù)的次數(shù)。更多的分裂意味著更重要。
import xgboost as xgb
import pandas as pd
from sklearn.datasets import load_breast_cancer
import matplotlib.pyplot as plt
X, y = load_breast_cancer(return_X_y=True)
df = pd.DataFrame(X, columns=range(30))
df['y'] = y
model = xgb.XGBClassifier()
model.fit(X, y)
importances = model.feature_importances_
importances = pd.Series(importances, index=range(X.shape[1]))
importances.plot.bar()
7、主成分分析 PCA
對(duì)特征進(jìn)行主成分分析,并查看每個(gè)主成分的解釋方差比。在前幾個(gè)組件上具有較高負(fù)載的特性更為重要。
from sklearn.decomposition import PCA
import pandas as pd
from sklearn.datasets import load_breast_cancer
import matplotlib.pyplot as plt
X, y = load_breast_cancer(return_X_y=True)
df = pd.DataFrame(X, columns=range(30))
df['y'] = y
pca = PCA()
pca.fit(X)
plt.bar(range(pca.n_components_), pca.explained_variance_ratio_)
plt.xlabel('PCA components')
plt.ylabel('Explained Variance')
8、方差分析 ANOVA
使用f_classif()獲得每個(gè)特征的方差分析f值。f值越高,表明特征與目標(biāo)的相關(guān)性越強(qiáng)。
from sklearn.feature_selection import f_classif
import pandas as pd
from sklearn.datasets import load_breast_cancer
import matplotlib.pyplot as plt
X, y = load_breast_cancer(return_X_y=True)
df = pd.DataFrame(X, columns=range(30))
df['y'] = y
fval = f_classif(X, y)
fval = pd.Series(fval[0], index=range(X.shape[1]))
fval.plot.bar()
9、卡方檢驗(yàn)
使用chi2()獲得每個(gè)特征的卡方統(tǒng)計(jì)信息。得分越高的特征越有可能獨(dú)立于目標(biāo)。
from sklearn.feature_selection import chi2
import pandas as pd
from sklearn.datasets import load_breast_cancer
import matplotlib.pyplot as plt
X, y = load_breast_cancer(return_X_y=True)
df = pd.DataFrame(X, columns=range(30))
df['y'] = y
chi_scores = chi2(X, y)
chi_scores = pd.Series(chi_scores[0], index=range(X.shape[1]))
chi_scores.plot.bar()
為什么不同的方法會(huì)檢測(cè)到不同的特征?
不同的特征重要性方法有時(shí)可以識(shí)別出不同的特征是最重要的,這是因?yàn)椋?/p>
1、他們用不同的方式衡量重要性:
有的使用不同特特征進(jìn)行預(yù)測(cè),監(jiān)控精度下降
像XGBOOST或者回國(guó)模型使用內(nèi)置重要性來(lái)進(jìn)行特征的重要性排列
而PCA著眼于方差解釋
2、不同模型有不同模型的方法:
線性模型傾向于線性關(guān)系、樹(shù)模型傾向于接近根的特征
3、交互作用:
有的方法可以獲取特征之間的相互左右,而有一些則不行,這就會(huì)導(dǎo)致結(jié)果的差異
4、不穩(wěn)定:
使用不同的數(shù)據(jù)子集,重要性值可能在同一方法的不同運(yùn)行中有所不同,這是因?yàn)閿?shù)據(jù)差異決定的
5、Hyperparameters:
通過(guò)調(diào)整超參數(shù),如PCA組件或樹(shù)深度,也會(huì)影響結(jié)果
所以不同的假設(shè)、偏差、數(shù)據(jù)處理和方法的可變性意味著它們并不總是在最重要的特征上保持一致。
-
模型
+關(guān)注
關(guān)注
1文章
3336瀏覽量
49261 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8444瀏覽量
133115 -
python
+關(guān)注
關(guān)注
56文章
4809瀏覽量
85070 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24848
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
失效分析的重要性
Syncer模塊的重要性是什么?
使用ODDR原語(yǔ)的重要性是什么?
時(shí)鐘系統(tǒng)的重要性
UPS的重要性
討論紋理分析在圖像分類中的重要性及其在深度學(xué)習(xí)中使用紋理分析
RFE遞歸特征消除特征排序
射頻芯片測(cè)試的重要性及方法
Python如何進(jìn)行特征重要性分析
![<b class='flag-5'>Python</b>如何<b class='flag-5'>進(jìn)行</b><b class='flag-5'>特征</b><b class='flag-5'>重要性</b><b class='flag-5'>分析</b>](https://file1.elecfans.com/web2/M00/A7/FE/wKgaomUoyVeAKyOOAAA6wsBAEaU629.png)
評(píng)論