Kaggle知識點：使用大模型進行特征篩選

本文轉自：Coggle數(shù)據(jù)科學

數(shù)據(jù)挖掘的核心是是對海量數(shù)據(jù)進行有效的篩選和分析。傳統(tǒng)上數(shù)據(jù)篩選依賴于數(shù)據(jù)驅動的方法，如包裹式、過濾式和嵌入式篩選。隨著大模型的發(fā)展，本文將探討如何利用大模型進行特征篩選。

篩選思路

數(shù)據(jù)驅動方法依賴于數(shù)據(jù)集中的樣本點進行統(tǒng)計推斷，而基于文本的方法需要描述性的上下文以更好地在特征和目標變量之間建立語義關聯(lián)。

這種方法利用了大型語言模型（LLMs）中豐富的語義知識來執(zhí)行特征選擇。大模型將利用數(shù)據(jù)集描述（desd）和特征描述（desf），描述特征的重要性。

LLM生成的特征重要性得分（LLM-Score）
LLM生成的特征排名（LLM-Rank）
基于LLM的交叉驗證篩選（LLM-Seq）

實驗設置

模型：實驗中使用了不同參數(shù)規(guī)模的LLMs，包括LLaMA-2（7B和13B參數(shù)）、ChatGPT（約175B參數(shù)）和GPT-4（約1.7T參數(shù)）。
比較方法：將基于LLM的特征選擇方法與傳統(tǒng)的特征選擇基線方法進行比較，包括互信息過濾（MI）、遞歸特征消除（RFE）、最小冗余最大相關性選擇（MRMR）和隨機特征選擇。
數(shù)據(jù)集：使用了多個數(shù)據(jù)集進行分類和回歸任務的評估，包括Adult、Bank、Communities等。

實現(xiàn)細節(jié)：對于每個數(shù)據(jù)集，固定特征選擇比例為30%，并在16-shot、32-shot、64-shot和128-shot的不同數(shù)據(jù)可用性配置下進行評估。使用下游L2懲罰的邏輯/線性回歸模型來衡量測試性能，并使用AUROC和MAE作為評估指標。

實驗結果

將LLM-based特征選擇方法與傳統(tǒng)的特征選擇基線方法進行比較，包括LassoNet、LASSO、前向序貫選擇、后向序貫選擇、遞歸特征消除（RFE）、最小冗余最大相關性選擇（MRMR）、基于互信息（MI）的過濾和隨機特征選擇。

發(fā)現(xiàn)1：在小規(guī)模數(shù)據(jù)集上，基于文本的特征選擇方法比數(shù)據(jù)驅動的方法更有效。在幾乎所有的LLM和任務中，基于文本的特征選擇方法的性能都超過了數(shù)據(jù)驅動方法。
發(fā)現(xiàn)2：使用最先進的LLMs進行基于文本的特征選擇，在每種數(shù)據(jù)可用性設置下都能與傳統(tǒng)特征選擇方法相媲美。
發(fā)現(xiàn)3：當樣本數(shù)量增加時，使用LLMs的數(shù)據(jù)驅動特征選擇會遇到困難。特別是當樣本大小從64增加到128時，分類任務的性能顯著下降。
發(fā)現(xiàn)4：與數(shù)據(jù)驅動特征選擇相比，基于文本的特征選擇顯示出更強的模型規(guī)模擴展性。

GPT-4基于LLM-Score在folktables數(shù)據(jù)集上整體表現(xiàn)最佳，在MIMIC-IV數(shù)據(jù)集上顯著優(yōu)于LassoNet和隨機特征選擇基線。LLM-Score在選擇前10%和30%的特征時，與最佳數(shù)據(jù)驅動基線的性能相媲美，且明顯優(yōu)于隨機選擇。在醫(yī)療保健等復雜領域，LLM-Score即使在沒有訪問訓練數(shù)據(jù)的情況下，也能有效地進行特征選擇。