天堂精品国产aⅴ在线观看,亚洲av日韩av在线电影天堂

LLaMA v.s. Falcon = 63.64 v.s. 49.08。評(píng)估結(jié)果表明，LLaMA 并未被「碾壓」。

作為開(kāi)源模型界的扛把子，LLaMA 一直備受矚目。

這是一組由 Meta 開(kāi)源的大型語(yǔ)言模型，共有 7B、13B、33B、65B 四種版本。其中，LLaMA-13B 在大多數(shù)數(shù)據(jù)集上超過(guò)了 GPT-3（175B），LLaMA-65B 達(dá)到了和 Chinchilla-70B、PaLM-540B 相當(dāng)?shù)乃健?/p>

自 2 月份發(fā)布以來(lái)，開(kāi)源社區(qū)一直在 LLaMA 的基礎(chǔ)上進(jìn)行二創(chuàng)，先后推出了 Alpaca、Vicuna 等多個(gè)「羊駝」大模型，生物學(xué)羊駝屬的英文單詞都快被用光了。

不過(guò)，也有人對(duì) LLaMA 發(fā)起了挑戰(zhàn)。5 月底，阿聯(lián)酋阿布扎比的技術(shù)創(chuàng)新研究所（TII）開(kāi)源了一個(gè) 400 億參數(shù)的因果解碼器模型「Falcon-40B」，該模型在 RefinedWeb 的 1 萬(wàn)億個(gè) token 上進(jìn)行了訓(xùn)練，并使用精選數(shù)據(jù)集增強(qiáng)。剛一發(fā)布，「Falcon-40B」就沖上了 Huggingface 的 OpenLLM 排行榜首位，「碾壓」了參數(shù)規(guī)模 1.5 倍的「LLaMA-65B」，也優(yōu)于 MPT、RedPajama 和 StableLM 等開(kāi)源大模型。

后來(lái)，F(xiàn)alcon-40B Instruct 版本占據(jù)了排行榜首位，F(xiàn)alcon-40B 則退到了第三，而 LLaMA-65B 已經(jīng)掉到了第六位。

不過(guò)，仔細(xì)看過(guò)數(shù)據(jù)之后，圍觀(guān)者產(chǎn)生了疑問(wèn)：為什么在 HuggingFace 的 Open LLM 排行榜上，LLaMA-65B 的 MMLU 這項(xiàng)分?jǐn)?shù)是 48.8，明顯低于官方數(shù)據(jù) 63.4？

HuggingFace 的 Open LLM 排行榜。地址：https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

LLaMA 論文中的 MMLU 數(shù)據(jù)。MMLU 是 Massive Multitask Language Understanding 的縮寫(xiě)，是一個(gè)基準(zhǔn)數(shù)據(jù)集，旨在通過(guò)僅在零樣本和少樣本設(shè)置下評(píng)估模型來(lái)衡量預(yù)訓(xùn)練期間獲取的知識(shí)。它由一系列學(xué)術(shù)科目中類(lèi)似考試的問(wèn)題組成，用于測(cè)試模型對(duì)于世界理解的能力。

還有人表示，在測(cè) Falcon-40B 時(shí)，他們也復(fù)現(xiàn)不了排行榜上的分?jǐn)?shù)。

面對(duì)這樣的爭(zhēng)議，Karpathy 等大牛選擇了謹(jǐn)慎觀(guān)望。

愛(ài)丁堡大學(xué)博士生符堯等則選擇自己測(cè)一遍。

簡(jiǎn)而言之，他們?cè)?Chain-of-thought Hub 上重新寫(xiě)了開(kāi)源的 LLaMA eval 代碼，然后在同樣的設(shè)定下，用官方 prompt，fp16，HF 默認(rèn)代碼，公平比較了 Falcon 和 LLaMA 在 MMLU 上的表現(xiàn)。

「沒(méi)有花哨的 prompt 工程和解碼，一切都是在默認(rèn)設(shè)置下進(jìn)行的?！狗麍蛟谕莆闹袑?xiě)道。

6 月 8 日，他們公布了第一批結(jié)果：LLaMA 65B 的 MMLU 得分為 61.4，比較接近官方數(shù)字（63.4），明顯高于其 Open LLM Leaderboard 分?jǐn)?shù) 48.8，且遠(yuǎn)高于 Falcon-40B 的 Leaderboard 分?jǐn)?shù) 52.7。

初步來(lái)看，「你大爺還是你大爺」。不過(guò)，這還不是 LLaMA 65B 的真實(shí)實(shí)力。在 6 月 10 日凌晨公布的第二波結(jié)果中，符堯解釋說(shuō)，他們?cè)诘谝徊y(cè)評(píng)中發(fā)現(xiàn)了一個(gè)「long prompt」引起的 bug，這個(gè) bug 導(dǎo)致 LLaMA 在高中歐洲歷史和高中美國(guó)歷史上得到 0 分。在修復(fù)了這個(gè) bug 后，LLaMA 得分變成了 63.64，與論文中報(bào)道的數(shù)字基本相同。

公平起見(jiàn)，使用相同的腳本，他們也測(cè)出了 Falcon-40B 的得分：49.08，低于 Leaderboard 分?jǐn)?shù) 52.7，只比 LLaMA 13B 好一點(diǎn)。

由此，這次所謂的「碾壓」事件徹底反轉(zhuǎn)。

符堯團(tuán)隊(duì)的這一嘗試也吸引了 HuggingFace 研究科學(xué)家 Nathan Lambert 的注意，后者決定重寫(xiě) Open LLM Leaderboard 的代碼。

不過(guò)，符堯?qū)ｉT(mén)指出，他們不打算在 LLaMA 和 Falcon 之間挑起戰(zhàn)爭(zhēng)：「兩者都是偉大的開(kāi)源模型，并為該領(lǐng)域做出了重大貢獻(xiàn)！Falcon 還具有更簡(jiǎn)單的許可證優(yōu)勢(shì)，這也賦予了它強(qiáng)大的潛力！」

為了方便大家檢查代碼和開(kāi)源結(jié)果，符堯公布了相關(guān)地址：https://github.com/FranxYao/chain-of-thought-hub/tree/main/MMLU

如果在檢查后有新的發(fā)現(xiàn)，歡迎在評(píng)論區(qū)留言。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴