?背景?
近一年,大模型發(fā)展迅速,帶動(dòng)了?系列通用人工智能技術(shù)的迅速發(fā)展,對(duì)大模型性能的評(píng)測(cè)隨之涌現(xiàn)。
從評(píng)測(cè)能力上來(lái)看,由于目前的評(píng)測(cè)數(shù)據(jù)集主要是利用人類(lèi)試題及其標(biāo)準(zhǔn)答案進(jìn)行評(píng)測(cè),這種評(píng)價(jià)方式更偏向?qū)ν评砟芰Φ脑u(píng)估,存在評(píng)估結(jié)果和模型真實(shí)能力有?定偏差。例如,英文數(shù)據(jù)集中,HELM1使用16個(gè)NLP數(shù)據(jù)集,MMLU2用57項(xiàng)?類(lèi)考試科目來(lái)評(píng)測(cè)大模型。中文數(shù)據(jù)集中,GAOKAO3、C-Eval4等也采用人類(lèi)試題,他們?cè)谧詣?dòng)化評(píng)測(cè)流程中都只包含有標(biāo)準(zhǔn)答案的問(wèn)題,無(wú)法全面衡量生成式大模型的綜合能力。
此外,目前也有一些工作關(guān)注到了模型的開(kāi)放式問(wèn)答,由斯坦福大學(xué)提出的的AlpacaEval被廣泛認(rèn)可,但僅由英文問(wèn)題組成,決定了只能評(píng)估模型在英文上的表現(xiàn)。包含中文開(kāi)放式問(wèn)答的SuperCLUE數(shù)據(jù)集是首個(gè)提出開(kāi)放式問(wèn)答的中文數(shù)據(jù)集,但其數(shù)據(jù)集閉源,且也僅由中文問(wèn)題組成。可以看到,目前已有的開(kāi)放式問(wèn)題數(shù)據(jù)集都是在單一語(yǔ)言上進(jìn)行評(píng)測(cè)的,用來(lái)衡量模型的多語(yǔ)言能力的開(kāi)源的開(kāi)放式問(wèn)答數(shù)據(jù)集仍然空缺。
綜上所述,構(gòu)建一個(gè)多語(yǔ)言的開(kāi)放式問(wèn)答數(shù)據(jù)集用以全面評(píng)測(cè)大模型的綜合能力是有必要的。我們將從中文入手,逐漸遷移至其他語(yǔ)言。
?介紹?
多語(yǔ)言開(kāi)放式問(wèn)答數(shù)據(jù)集(OMGEval: An Open Multilingual Generative Evaluation Benchmark for Foundation Models)由北京語(yǔ)言大學(xué)、清華大學(xué)、東北大學(xué)、上海財(cái)經(jīng)大學(xué)等高校組成的團(tuán)隊(duì)共同發(fā)布。主要項(xiàng)目參與人員有劉洋、朱琳、余婧思、徐萌、王譽(yù)杰、常鴻翔、袁佳欣、孔存良、安紀(jì)元、楊天麟、王碩、劉正皓、陳云、楊爾弘、劉洋、孫茂松等。
本數(shù)據(jù)集已在GitHub開(kāi)源,網(wǎng)址為:https://github.com/blcuicall/OMGEval
?數(shù)據(jù)集構(gòu)建過(guò)程
1. 翻譯
用ChatGPT將AlpacaEval中所有的句子翻譯成中文。我們使用的prompt是:
2. 本地化
對(duì)大模型語(yǔ)言能力的評(píng)測(cè)不僅僅體現(xiàn)在提問(wèn)和作答的語(yǔ)言是中文,還有語(yǔ)言背后蘊(yùn)含的文化信息。我們對(duì)AlpacaEval中包含文化元素的句子進(jìn)行本地化,包括但不限于人物、電影書(shū)籍等作品、節(jié)日等。本地化的目的是使這些問(wèn)題都更加契合中國(guó)文化。
以下是幾個(gè)本地化的例子:
經(jīng)統(tǒng)計(jì),源數(shù)據(jù)集中29.73%,即239個(gè)句子做了本地化的修改。 ?
3.人工校驗(yàn)
對(duì)經(jīng)過(guò)翻譯和本地化的句子進(jìn)行人工校驗(yàn),每個(gè)句子由2名標(biāo)注員,1名審核員校驗(yàn),標(biāo)注員和審核員均由語(yǔ)言學(xué)專業(yè)的碩士研究生擔(dān)任。
?數(shù)據(jù)集分析
我們最終得到一個(gè)包含804個(gè)中文問(wèn)題的開(kāi)放式問(wèn)答數(shù)據(jù)集。 ? 我們將模型能力劃分為9個(gè)類(lèi)別,分別如下 ?
數(shù)據(jù)集在評(píng)估能力上的分布如下: ?
可以看到,目前的數(shù)據(jù)集中評(píng)估各項(xiàng)能力的題目數(shù)量分布還不是太均衡,后續(xù)我們會(huì)新增開(kāi)放式題目使得數(shù)據(jù)均衡。
評(píng)估方法
AlpacaEval 是斯坦福大學(xué)發(fā)布的用于自動(dòng)評(píng)估大語(yǔ)言模型的排行榜,它包括了從測(cè)評(píng)數(shù)據(jù)集、模型回答生成,到自動(dòng)評(píng)估的完整評(píng)測(cè)流程,目前榜單已經(jīng)包含了來(lái)自全球各個(gè)機(jī)構(gòu)的多個(gè)代表性模型。具體而言,該排行榜主要評(píng)估大模型遵從指令的能力以及回答質(zhì)量,其中排行榜所使用的數(shù)據(jù)集共計(jì) 805 條指令,集成了來(lái)自于 Self-instruct,Open Assistant, Vicuna 等項(xiàng)目發(fā)布的測(cè)評(píng)數(shù)據(jù)。如上圖所示,排行榜的具體指標(biāo)計(jì)算方式為使用一個(gè)大模型作為考官(通常為GPT-4),自動(dòng)評(píng)估當(dāng)前模型的回答與選取的基準(zhǔn)模型(通常為Text-Davinci-003) 的回答,統(tǒng)計(jì)當(dāng)前模型的勝率。
AlpacaEval 的實(shí)驗(yàn)表明,榜單所采用的 GPT-4 評(píng)估與人類(lèi)標(biāo)注結(jié)果的皮爾遜相關(guān)系數(shù)達(dá)到 94%,說(shuō)明該評(píng)估方式可靠性較高。同時(shí),研究人員對(duì)評(píng)估的成本也做了一定的分析,說(shuō)明了當(dāng)前評(píng)估方式大幅降低了人工評(píng)估所花費(fèi)的經(jīng)濟(jì)成本和時(shí)間成本。
參考AlpacaEval 的評(píng)估方法,我們同樣采用Text-Davinci-003的輸出作為基準(zhǔn),采用GPT-4作為評(píng)估器,為待評(píng)估模型和基準(zhǔn)輸出哪個(gè)更優(yōu)做出判斷,計(jì)算勝率和標(biāo)準(zhǔn)差。具體來(lái)看,為了保證模型對(duì)OMGEval數(shù)據(jù)集中的問(wèn)題的輸出都為中文,我們?cè)趐rompt中使用中文提問(wèn),此外,我們對(duì)GPT-4評(píng)估模型輸出的prompt也做了相應(yīng)修改,如下:
評(píng)估榜單
根據(jù)上述評(píng)估方法,采用Text-Davinci-003的輸出作為基準(zhǔn),采用GPT-4作為評(píng)估器,我們得到以下榜單:
此外,我們對(duì)239個(gè)做了本地化的問(wèn)題做了單獨(dú)的評(píng)測(cè),目的是評(píng)測(cè)不同語(yǔ)言的大模型在涉及到中文文化上的表現(xiàn),榜單如下:
可以看到,ChatGPT在本地化的問(wèn)題集上得分低于在問(wèn)題全集上的得分。 更多模型仍在評(píng)測(cè)中,敬請(qǐng)期待。
參考文獻(xiàn)
[1] Liang P, Bommasani R, Lee T, et al. Holistic evaluation of language models. arXiv preprint arXiv:2211.09110, 2022.
[2] Hendrycks D, Burns C, Basart S, et al. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300, 2020.
[3] Zhang X, Li C, Zong Y, et al. Evaluating the Performance of Large Language Models on GAOKAO Benchmark. arXiv preprint arXiv:2305.12474, 2023.
[4] Huang Y, Bai Y, Zhu Z, et al. C-eval: A multi-level multi-discipline Chinese evaluation suite for foundation models. arXiv preprint arXiv:2305.08322, 2023.
[5] Dubois Y, Li X, Taori R, et al. Alpacafarm: A simulation framework for methods that learn from human feedback. arXiv preprint arXiv:2305.14387, 2023.
[6] Xu L, Li A, Zhu L, et al. SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark. arXiv preprint arXiv:2307.15020, 2023.
審核編輯:黃飛
?
評(píng)論