欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

號(hào)稱(chēng)「碾壓」LLaMA的Falcon實(shí)測(cè)得分僅49.08,HuggingFace決定重寫(xiě)排行榜代碼

OpenCV學(xué)堂 ? 來(lái)源:機(jī)器之心 ? 2023-06-11 11:24 ? 次閱讀

LLaMA v.s. Falcon = 63.64 v.s. 49.08。評(píng)估結(jié)果表明,LLaMA 并未被「碾壓」。

267daa54-0798-11ee-962d-dac502259ad0.png

作為開(kāi)源模型界的扛把子,LLaMA 一直備受矚目。

這是一組由 Meta 開(kāi)源的大型語(yǔ)言模型,共有 7B、13B、33B、65B 四種版本。其中,LLaMA-13B 在大多數(shù)數(shù)據(jù)集上超過(guò)了 GPT-3(175B),LLaMA-65B 達(dá)到了和 Chinchilla-70B、PaLM-540B 相當(dāng)?shù)乃健?/p>

自 2 月份發(fā)布以來(lái),開(kāi)源社區(qū)一直在 LLaMA 的基礎(chǔ)上進(jìn)行二創(chuàng),先后推出了 Alpaca、Vicuna 等多個(gè)「羊駝」大模型,生物學(xué)羊駝屬的英文單詞都快被用光了。

不過(guò),也有人對(duì) LLaMA 發(fā)起了挑戰(zhàn)。5 月底,阿聯(lián)酋阿布扎比的技術(shù)創(chuàng)新研究所(TII)開(kāi)源了一個(gè) 400 億參數(shù)的因果解碼器模型「Falcon-40B」,該模型在 RefinedWeb 的 1 萬(wàn)億個(gè) token 上進(jìn)行了訓(xùn)練,并使用精選數(shù)據(jù)集增強(qiáng)。剛一發(fā)布,「Falcon-40B」就沖上了 Huggingface 的 OpenLLM 排行榜首位,「碾壓」了參數(shù)規(guī)模 1.5 倍的「LLaMA-65B」,也優(yōu)于 MPT、RedPajama 和 StableLM 等開(kāi)源大模型。

26941e74-0798-11ee-962d-dac502259ad0.png

后來(lái),F(xiàn)alcon-40B Instruct 版本占據(jù)了排行榜首位,F(xiàn)alcon-40B 則退到了第三,而 LLaMA-65B 已經(jīng)掉到了第六位。

不過(guò),仔細(xì)看過(guò)數(shù)據(jù)之后,圍觀(guān)者產(chǎn)生了疑問(wèn):為什么在 HuggingFace 的 Open LLM 排行榜上,LLaMA-65B 的 MMLU 這項(xiàng)分?jǐn)?shù)是 48.8,明顯低于官方數(shù)據(jù) 63.4?

26b6affc-0798-11ee-962d-dac502259ad0.png

HuggingFace 的 Open LLM 排行榜。地址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

26d346b2-0798-11ee-962d-dac502259ad0.png

LLaMA 論文中的 MMLU 數(shù)據(jù)。MMLU 是 Massive Multitask Language Understanding 的縮寫(xiě),是一個(gè)基準(zhǔn)數(shù)據(jù)集,旨在通過(guò)僅在零樣本和少樣本設(shè)置下評(píng)估模型來(lái)衡量預(yù)訓(xùn)練期間獲取的知識(shí)。它由一系列學(xué)術(shù)科目中類(lèi)似考試的問(wèn)題組成,用于測(cè)試模型對(duì)于世界理解的能力。

還有人表示,在測(cè) Falcon-40B 時(shí),他們也復(fù)現(xiàn)不了排行榜上的分?jǐn)?shù)。

26e54894-0798-11ee-962d-dac502259ad0.png

面對(duì)這樣的爭(zhēng)議,Karpathy 等大牛選擇了謹(jǐn)慎觀(guān)望。

26fd6154-0798-11ee-962d-dac502259ad0.png

愛(ài)丁堡大學(xué)博士生符堯等則選擇自己測(cè)一遍。

簡(jiǎn)而言之,他們?cè)?Chain-of-thought Hub 上重新寫(xiě)了開(kāi)源的 LLaMA eval 代碼,然后在同樣的設(shè)定下,用官方 prompt,fp16,HF 默認(rèn)代碼,公平比較了 Falcon 和 LLaMA 在 MMLU 上的表現(xiàn)。

「沒(méi)有花哨的 prompt 工程和解碼,一切都是在默認(rèn)設(shè)置下進(jìn)行的?!狗麍蛟谕莆闹袑?xiě)道。

6 月 8 日,他們公布了第一批結(jié)果:LLaMA 65B 的 MMLU 得分為 61.4,比較接近官方數(shù)字(63.4),明顯高于其 Open LLM Leaderboard 分?jǐn)?shù) 48.8,且遠(yuǎn)高于 Falcon-40B 的 Leaderboard 分?jǐn)?shù) 52.7。

270f7b6e-0798-11ee-962d-dac502259ad0.png

初步來(lái)看,「你大爺還是你大爺」。不過(guò),這還不是 LLaMA 65B 的真實(shí)實(shí)力。在 6 月 10 日凌晨公布的第二波結(jié)果中,符堯解釋說(shuō),他們?cè)诘谝徊y(cè)評(píng)中發(fā)現(xiàn)了一個(gè)「long prompt」引起的 bug,這個(gè) bug 導(dǎo)致 LLaMA 在高中歐洲歷史和高中美國(guó)歷史上得到 0 分。在修復(fù)了這個(gè) bug 后,LLaMA 得分變成了 63.64,與論文中報(bào)道的數(shù)字基本相同。

271d3ba0-0798-11ee-962d-dac502259ad0.png

公平起見(jiàn),使用相同的腳本,他們也測(cè)出了 Falcon-40B 的得分:49.08,低于 Leaderboard 分?jǐn)?shù) 52.7,只比 LLaMA 13B 好一點(diǎn)。

27286e1c-0798-11ee-962d-dac502259ad0.png

274360aa-0798-11ee-962d-dac502259ad0.png

由此,這次所謂的「碾壓」事件徹底反轉(zhuǎn)。

符堯團(tuán)隊(duì)的這一嘗試也吸引了 HuggingFace 研究科學(xué)家 Nathan Lambert 的注意,后者決定重寫(xiě) Open LLM Leaderboard 的代碼。

2751e06c-0798-11ee-962d-dac502259ad0.png

不過(guò),符堯?qū)iT(mén)指出,他們不打算在 LLaMA 和 Falcon 之間挑起戰(zhàn)爭(zhēng):「兩者都是偉大的開(kāi)源模型,并為該領(lǐng)域做出了重大貢獻(xiàn)!Falcon 還具有更簡(jiǎn)單的許可證優(yōu)勢(shì),這也賦予了它強(qiáng)大的潛力!」

為了方便大家檢查代碼和開(kāi)源結(jié)果,符堯公布了相關(guān)地址:https://github.com/FranxYao/chain-of-thought-hub/tree/main/MMLU

如果在檢查后有新的發(fā)現(xiàn),歡迎在評(píng)論區(qū)留言。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1152

    瀏覽量

    40955
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    540

    瀏覽量

    10343

原文標(biāo)題:徹底反轉(zhuǎn):號(hào)稱(chēng)「碾壓」LLaMA的Falcon實(shí)測(cè)得分僅49.08,HuggingFace決定重寫(xiě)排行榜代碼

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    HarmonyOS開(kāi)發(fā)案例:【排行榜頁(yè)面】

    本課程使用聲明式語(yǔ)法和組件化基礎(chǔ)知識(shí),搭建一個(gè)可刷新的排行榜頁(yè)面。在排行榜頁(yè)面中,使用循環(huán)渲染控制語(yǔ)法來(lái)實(shí)現(xiàn)列表數(shù)據(jù)渲染,使用@Builder創(chuàng)建排行列表布局內(nèi)容,使用裝飾器@State、@Prop、@Link來(lái)管理組件狀態(tài)。
    的頭像 發(fā)表于 04-30 16:16 ?2082次閱讀
    HarmonyOS開(kāi)發(fā)案例:【<b class='flag-5'>排行榜</b>頁(yè)面】

    中國(guó)IC設(shè)計(jì)公司排行榜

    作者:林曉林  中國(guó)IC設(shè)計(jì)公司排行榜:近日,市場(chǎng)調(diào)研公司iSuppli出臺(tái)了2005年度中國(guó)IC設(shè)計(jì)公司排行榜,與中國(guó)半導(dǎo)體協(xié)會(huì)的排名不同,此次名列榜首的是來(lái)自香港的晶門(mén)
    發(fā)表于 05-26 14:29

    2013年2月份編程軟件排行榜,LabVIEWTop27,進(jìn)步很大。

    本帖最后由 sushu 于 2013-2-13 10:58 編輯 剛剛上網(wǎng)發(fā)現(xiàn)編程軟件排名,關(guān)注的LabVIEW現(xiàn)在已經(jīng)是27位了,小開(kāi)心一下。TIOBE編程語(yǔ)言社區(qū)排行榜是編程語(yǔ)言流行趨勢(shì)
    發(fā)表于 11-06 12:40

    資料下載總排行榜

    資料下載總排行榜,怎么就那幾個(gè)啊,怎么下載到人氣高的資料?資料茫茫,我相信大家的眼睛雪亮的。求方法收集些好的資料。。。
    發(fā)表于 03-05 16:24

    各種排行榜匯總貼?。。。?!

    本帖最后由 dongyumin 于 2013-7-31 11:39 編輯 1.2012網(wǎng)上各地年終獎(jiǎng)排行榜,科技、電子企業(yè)全面領(lǐng)跑!https://bbs.elecfans.com
    發(fā)表于 07-30 11:55

    2014年4月方案公司出貨量排行榜

    。而其他方案廠(chǎng)商憑借海外市場(chǎng)以及國(guó)內(nèi)中小品牌、中低端市場(chǎng)持續(xù)穩(wěn)扎穩(wěn)守。2014年4月方案公司出貨量排行榜如下:(更多精彩關(guān)注公眾微信號(hào):ittbank)
    發(fā)表于 06-23 11:41

    2014年10月 TIOBE 編程語(yǔ)言排行榜發(fā)布

    2014年10月的 TIOBE 編程語(yǔ)言排行榜發(fā)布了,該版本最大的兩點(diǎn)是 Google 的 Dart 語(yǔ)言首次進(jìn)入前 20 名。其競(jìng)爭(zhēng)者包括 CoffeeScript 目前排名 133,TypeScript 排名 122.想知道完整的排名表格請(qǐng)回復(fù)
    發(fā)表于 12-08 13:46

    小米放出“手機(jī)電量排行榜” 為續(xù)航神機(jī)Max 2造勢(shì)

    小米手機(jī)家族的電量排行榜,并向網(wǎng)友征詢(xún):“你覺(jué)得小米Max2多大電量夠你用? ”從排行榜來(lái)看,現(xiàn)款小米Max以4850mAh的容量排名第一,其次是小米MIX(4400mAh)、紅米4(4100mAh
    發(fā)表于 06-03 14:20

    MapReduce框架音樂(lè)排行榜案例

    Hadoop綜合實(shí)戰(zhàn)之MapReduce運(yùn)算優(yōu)化——音樂(lè)排行榜
    發(fā)表于 10-16 12:20

    求職必知獨(dú)角獸公司排行榜

    世界第 3 的滴滴裁員,求職必知獨(dú)角獸公司排行榜
    發(fā)表于 06-18 07:30

    2019年2月編程語(yǔ)言排行榜分享

    2019年2月編程語(yǔ)言排行榜
    發(fā)表于 07-14 10:28

    2020年最新主板型號(hào)排行榜 精選資料推薦

    2020年最新主板型號(hào)排行榜2020主板型號(hào)天梯圖2020主板選購(gòu)指南一、Intel、AMD電腦主板的辨別二、主板芯片組級(jí)別三、板形四、主板對(duì)電腦性能有什么影響在使用電腦的時(shí)候,我們有時(shí)候會(huì)需要更換
    發(fā)表于 07-26 06:16

    華為榮獲手機(jī)推薦度排行榜第一

    近日,品牌評(píng)級(jí)權(quán)威機(jī)構(gòu)Chnbrand發(fā)布了手機(jī)推薦度排行榜,華為依然以27.8的C-NPS得分排在榜首;蘋(píng)果以16.5的C-NPS得分位居第二,相較去年排名提升了2位;小米則以12.8的C-NPS
    的頭像 發(fā)表于 01-21 14:40 ?3262次閱讀

    小米斬獲2020年手機(jī)推薦度排行榜前三

    近日,品牌評(píng)級(jí)權(quán)威機(jī)構(gòu)Chnbrand發(fā)布了手機(jī)推薦度排行榜,華為以27.8的C-NPS得分排在榜首。
    的頭像 發(fā)表于 01-22 09:13 ?2033次閱讀

    開(kāi)源大模型Falcon(獵鷹) 180B發(fā)布 1800億參數(shù)

    ? 世界最強(qiáng)開(kāi)源大模型 Falcon 180B 忽然火爆全網(wǎng),1800億參數(shù),Falcon 在 3.5 萬(wàn)億 token 完成訓(xùn)練,性能碾壓 Llama 2,登頂 Hugging Fa
    的頭像 發(fā)表于 09-18 09:29 ?1575次閱讀
    開(kāi)源大模型<b class='flag-5'>Falcon</b>(獵鷹) 180B發(fā)布 1800億參數(shù)