欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Kaggle知識點:使用大模型進行特征篩選

穎脈Imgtec ? 2024-12-03 01:06 ? 次閱讀

本文轉自:Coggle數(shù)據(jù)科學


數(shù)據(jù)挖掘的核心是是對海量數(shù)據(jù)進行有效的篩選和分析。傳統(tǒng)上數(shù)據(jù)篩選依賴于數(shù)據(jù)驅動的方法,如包裹式、過濾式和嵌入式篩選。隨著大模型的發(fā)展,本文將探討如何利用大模型進行特征篩選。

afea0562-b0cf-11ef-8084-92fbcf53809c.png

篩選思路

數(shù)據(jù)驅動方法依賴于數(shù)據(jù)集中的樣本點進行統(tǒng)計推斷,而基于文本的方法需要描述性的上下文以更好地在特征和目標變量之間建立語義關聯(lián)。

b01e086c-b0cf-11ef-8084-92fbcf53809c.png

這種方法利用了大型語言模型(LLMs)中豐富的語義知識來執(zhí)行特征選擇。大模型將利用數(shù)據(jù)集描述(desd)和特征描述(desf),描述特征的重要性。

  • LLM生成的特征重要性得分(LLM-Score)
  • LLM生成的特征排名(LLM-Rank)
  • 基于LLM的交叉驗證篩選(LLM-Seq)

實驗設置

  • 模型:實驗中使用了不同參數(shù)規(guī)模的LLMs,包括LLaMA-2(7B和13B參數(shù))、ChatGPT(約175B參數(shù))和GPT-4(約1.7T參數(shù))。
  • 比較方法:將基于LLM的特征選擇方法與傳統(tǒng)的特征選擇基線方法進行比較,包括互信息過濾(MI)、遞歸特征消除(RFE)、最小冗余最大相關性選擇(MRMR)和隨機特征選擇。
  • 數(shù)據(jù)集:使用了多個數(shù)據(jù)集進行分類和回歸任務的評估,包括Adult、Bank、Communities等。

實現(xiàn)細節(jié):對于每個數(shù)據(jù)集,固定特征選擇比例為30%,并在16-shot、32-shot、64-shot和128-shot的不同數(shù)據(jù)可用性配置下進行評估。使用下游L2懲罰的邏輯/線性回歸模型來衡量測試性能,并使用AUROC和MAE作為評估指標。


實驗結果

將LLM-based特征選擇方法與傳統(tǒng)的特征選擇基線方法進行比較,包括LassoNet、LASSO、前向序貫選擇、后向序貫選擇、遞歸特征消除(RFE)、最小冗余最大相關性選擇(MRMR)、基于互信息(MI)的過濾和隨機特征選擇。

b04b950c-b0cf-11ef-8084-92fbcf53809c.png
  • 發(fā)現(xiàn)1:在小規(guī)模數(shù)據(jù)集上,基于文本的特征選擇方法比數(shù)據(jù)驅動的方法更有效。在幾乎所有的LLM和任務中,基于文本的特征選擇方法的性能都超過了數(shù)據(jù)驅動方法。
  • 發(fā)現(xiàn)2:使用最先進的LLMs進行基于文本的特征選擇,在每種數(shù)據(jù)可用性設置下都能與傳統(tǒng)特征選擇方法相媲美。
  • 發(fā)現(xiàn)3:當樣本數(shù)量增加時,使用LLMs的數(shù)據(jù)驅動特征選擇會遇到困難。特別是當樣本大小從64增加到128時,分類任務的性能顯著下降。
  • 發(fā)現(xiàn)4:與數(shù)據(jù)驅動特征選擇相比,基于文本的特征選擇顯示出更強的模型規(guī)模擴展性。
b0700e78-b0cf-11ef-8084-92fbcf53809c.pngb0a18124-b0cf-11ef-8084-92fbcf53809c.png

GPT-4基于LLM-Score在folktables數(shù)據(jù)集上整體表現(xiàn)最佳,在MIMIC-IV數(shù)據(jù)集上顯著優(yōu)于LassoNet和隨機特征選擇基線。LLM-Score在選擇前10%和30%的特征時,與最佳數(shù)據(jù)驅動基線的性能相媲美,且明顯優(yōu)于隨機選擇。在醫(yī)療保健等復雜領域,LLM-Score即使在沒有訪問訓練數(shù)據(jù)的情況下,也能有效地進行特征選擇。

參考文獻

https://arxiv.org/pdf/2408.12025

  • https://arxiv.org/pdf/2407.02694


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    540

    瀏覽量

    10343
  • 海量數(shù)據(jù)

    關注

    0

    文章

    4

    瀏覽量

    907
  • 大模型
    +關注

    關注

    2

    文章

    2567

    瀏覽量

    3199
收藏 人收藏

    評論

    相關推薦

    C語言鏈表知識點(2)

    C語言鏈表知識點(2)
    發(fā)表于 08-22 10:38 ?355次閱讀
    C語言鏈表<b class='flag-5'>知識點</b>(2)

    使用PADS軟件進行PCB設計,有哪些基礎知識點?

    使用PADS軟件進行PCB設計,有哪些基礎知識點?發(fā)現(xiàn)知識點很多、很雜、很亂,有沒有聚合歸納統(tǒng)一的內容給到
    發(fā)表于 08-20 12:07

    BFC的基礎知識點有哪些?

    BFC的基礎知識點:css盒模型清除浮動 div水平垂直居中原型和原型鏈
    發(fā)表于 11-05 06:02

    計算機組成原理考研知識點歸納

    計算機組成原理考研知識點歸納 寫在前面的話:理科知識重在于理解知識點本身,對于每一個知識點,大家都有自己理解的方式。這篇
    發(fā)表于 04-13 14:06 ?1928次閱讀

    基于知識點的改進型遺傳組卷算法的研究

    為了實現(xiàn)無紙化考試系統(tǒng)題庫的自動組卷需求,提出了一種基于知識點的改進型遺傳組卷算法,該算法主要是先對知識點進行多次隨機篩選,然后利用改進型遺傳組卷算法對其它多個約
    發(fā)表于 01-08 15:28 ?0次下載
    基于<b class='flag-5'>知識點</b>的改進型遺傳組卷算法的研究

    高一數(shù)學知識點總結

    高一數(shù)學知識點總結高一數(shù)學知識點總結高一數(shù)學知識點總結
    發(fā)表于 02-23 15:27 ?0次下載

    高二數(shù)學知識點總結

    高二數(shù)學知識點總結高二數(shù)學知識點總結高二數(shù)學知識點總結
    發(fā)表于 02-23 15:27 ?0次下載

    SI、PI、EMC、RF知識點

    SI、PI、EMC、RF知識點
    發(fā)表于 01-14 02:53 ?17次下載

    PWM知識點詳解

    PWM知識點
    發(fā)表于 03-16 08:00 ?44次下載

    嵌入式知識點總結

    嵌入式知識點總結(arm嵌入式開發(fā)led過程)-嵌入式知識點總結? ? ? ? ? ? ? ? ? ??
    發(fā)表于 07-30 14:20 ?23次下載
    嵌入式<b class='flag-5'>知識點</b>總結

    電力基礎知識點合集

    電力基礎知識點合集
    發(fā)表于 03-14 16:35 ?0次下載

    詳解射頻微波基礎知識點

    詳解射頻微波基礎知識點
    的頭像 發(fā)表于 01-29 10:28 ?2478次閱讀

    C語言最重要的知識點

    C語言知識點總結.doc
    發(fā)表于 02-16 16:37 ?9次下載

    數(shù)字電路知識點總結

    本文整理了數(shù)字電路課程中的相關基本的知識點和較為重要的知識點,用于求職的數(shù)電部分的知識準備,差缺補漏。
    的頭像 發(fā)表于 05-30 15:07 ?5055次閱讀
    數(shù)字電路<b class='flag-5'>知識點</b>總結

    STM32 RTOS知識點

    電子發(fā)燒友網站提供《STM32 RTOS知識點.pdf》資料免費下載
    發(fā)表于 08-01 14:28 ?3次下載
    STM32 RTOS<b class='flag-5'>知識點</b>