近日,上海AI實(shí)驗(yàn)室和上海市數(shù)字醫(yī)學(xué)創(chuàng)新中心聯(lián)合推出的MedBench評(píng)測(cè)更新榜單,云知聲山海大模型醫(yī)療行業(yè)版(UNIGPT-MED) 以綜合得分54.7的優(yōu)異成績(jī)登頂榜首,充分彰顯其硬核醫(yī)療實(shí)力。
醫(yī)療領(lǐng)域中文大模型不斷涌現(xiàn),如何對(duì)它們進(jìn)行專業(yè)、科學(xué)的評(píng)測(cè)成為行業(yè)眼下亟待解決的問(wèn)題。在此背景下,上海AI實(shí)驗(yàn)室和上海市數(shù)字醫(yī)學(xué)創(chuàng)新中心基于OpenCompass大模型開放評(píng)測(cè)體系,聯(lián)合推出中文醫(yī)療大語(yǔ)言模型開放評(píng)測(cè)平臺(tái)MedBench,吸引了螞蟻、商湯、百川、智譜等諸多大模型企業(yè)和研究機(jī)構(gòu)參與其中,共同推進(jìn)醫(yī)療大語(yǔ)言模型全面、專業(yè)、互認(rèn)的評(píng)測(cè)體系建設(shè)。
基于醫(yī)學(xué)語(yǔ)言理解、醫(yī)學(xué)語(yǔ)言生成、醫(yī)學(xué)知識(shí)問(wèn)答、復(fù)雜醫(yī)學(xué)推理、醫(yī)療安全和倫理5大維度,MedBench設(shè)置15項(xiàng)任務(wù)、20個(gè)數(shù)據(jù)集及30萬(wàn)道題目,為中文醫(yī)療大模型提供了客觀科學(xué)的性能評(píng)測(cè)參考。
此次云知聲參與評(píng)測(cè)的醫(yī)學(xué)行業(yè)版大模型UNIGPT-MED在山海大模型升級(jí)的基礎(chǔ)上,通過(guò)多年深耕醫(yī)療行業(yè)所積累的海量行業(yè)數(shù)據(jù)進(jìn)行增量訓(xùn)練,并結(jié)合RLHF和RLAIF方法,生成大量符合偏好的醫(yī)學(xué)數(shù)據(jù),顯著提升了模型在醫(yī)學(xué)領(lǐng)域的專業(yè)性能和準(zhǔn)確性,使其在MedBench的多個(gè)評(píng)測(cè)維度中展現(xiàn)出出色的實(shí)力,并在醫(yī)學(xué)知識(shí)問(wèn)答、醫(yī)學(xué)語(yǔ)言理解兩大關(guān)鍵維度中拔得頭籌。
醫(yī)學(xué)知識(shí)問(wèn)答評(píng)測(cè)得分
醫(yī)學(xué)語(yǔ)言理解評(píng)測(cè)得分
這一成績(jī)的取得,是云知聲在大模型賽道持續(xù)深耕、不斷技術(shù)創(chuàng)新的成果體現(xiàn)。
作為中國(guó)AGI技術(shù)產(chǎn)業(yè)化的先行者,云知聲于2016年開始打造Atlas人工智能基礎(chǔ)設(shè)施,并以此為基礎(chǔ),構(gòu)建云知大腦(UniBrain)技術(shù)中臺(tái)——以山海(UniGPT)通用認(rèn)知大模型為核心,結(jié)合多模態(tài)感知與生成、知識(shí)圖譜、物聯(lián)平臺(tái)等智能組件,為云知聲智慧物聯(lián)、智慧醫(yī)療、智慧座艙、智慧交通等業(yè)務(wù)提供高效的產(chǎn)品化支撐,持續(xù)推動(dòng)“U(云知大腦)+X(應(yīng)用場(chǎng)景)”戰(zhàn)略布局,致力推動(dòng)千行百業(yè)的智慧化升級(jí)。
作為云知大腦的核心,山海大模型具備語(yǔ)言生成、語(yǔ)言理解、知識(shí)問(wèn)答、邏輯推理、代碼能力、數(shù)學(xué)能力、安全合規(guī)能力七項(xiàng)通用能力及插件擴(kuò)展、領(lǐng)域增強(qiáng)、企業(yè)定制三項(xiàng)行業(yè)落地能力,且目前已由大語(yǔ)言模型升級(jí)至多模態(tài)大模型,拓展出文生圖、文生視頻、圖片問(wèn)答等多模態(tài)能力,能夠滿足更多場(chǎng)景的應(yīng)用需求。
目前,最新版本的山海大模型通用大模型能力已超越GPT-3.5,并在上個(gè)月的OpenCompass大模型評(píng)測(cè)中排名國(guó)產(chǎn)大模型廠商第四、全球大模型廠商第六,其在中英文雙語(yǔ)客觀評(píng)測(cè)中的語(yǔ)言、知識(shí)、推理能力,在綜合性中文主觀評(píng)測(cè)中的創(chuàng)作能力更是超越了GPT-4,躋身通用大模型第一梯隊(duì)。
在醫(yī)療專業(yè)能力上,山海大模型于2023年6月的MedQA任務(wù)中超越Med-PaLM 2,取得87.1%的優(yōu)異成績(jī);在臨床執(zhí)業(yè)醫(yī)師資格考試中提升至523(總分600分),超過(guò)99%的考生水平。其基于山海大模型孵化的醫(yī)療大模型,也在CCKS 2023 PromptCBLUE醫(yī)療大模型評(píng)測(cè)中奪得通用賽道一等獎(jiǎng)。
此次登頂MedBench評(píng)測(cè)榜,再次證實(shí)了云知聲山海大模型在醫(yī)療領(lǐng)域的突出實(shí)力,也將鞭策云知聲持續(xù)迭代大模型技術(shù)底座,實(shí)現(xiàn)大模型技術(shù)在多領(lǐng)域場(chǎng)景下的滲透和應(yīng)用,以技術(shù)創(chuàng)新為各行各業(yè)帶來(lái)更多智能化變革。
-
人工智能
+關(guān)注
關(guān)注
1796文章
47734瀏覽量
240415 -
GPT
+關(guān)注
關(guān)注
0文章
360瀏覽量
15523 -
云知聲
+關(guān)注
關(guān)注
0文章
196瀏覽量
8428 -
大模型
+關(guān)注
關(guān)注
2文章
2567瀏覽量
3193
原文標(biāo)題:登頂上海AI實(shí)驗(yàn)室權(quán)威大模型評(píng)測(cè)榜,云知聲醫(yī)療專業(yè)能力再獲認(rèn)可
文章出處:【微信號(hào):云知聲,微信公眾號(hào):云知聲】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
阿里云與零一萬(wàn)物戰(zhàn)略合作,成立產(chǎn)業(yè)大模型聯(lián)合實(shí)驗(yàn)室
云知聲山海大模型多項(xiàng)評(píng)測(cè)名列前茅
云知聲榮登甲子光年“2024中國(guó)AI大模型領(lǐng)域最具商業(yè)潛力榜”
云知聲榮登2024大模型企業(yè)TOP50榜單
名單公布!【書籍評(píng)測(cè)活動(dòng)NO.49】大模型啟示錄:一本AI應(yīng)用百科全書
云知聲成立智慧空港聯(lián)合創(chuàng)新實(shí)驗(yàn)室
云知聲山海大模型多項(xiàng)能力全球領(lǐng)跑
![<b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>聲</b><b class='flag-5'>山海</b>大<b class='flag-5'>模型</b>多項(xiàng)能力全球領(lǐng)跑](https://file1.elecfans.com/web2/M00/09/57/wKgZomcKF9SAFfIDAAAY0HHK2ww790.png)
云知聲山海大模型的訓(xùn)練優(yōu)化方法及應(yīng)用實(shí)踐
云知聲山海多模態(tài)大模型UniGPT-mMed登頂MMMU測(cè)評(píng)榜首
![<b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>聲</b><b class='flag-5'>山海</b>多模態(tài)大<b class='flag-5'>模型</b>UniGPT-mMed<b class='flag-5'>登頂</b>MMMU測(cè)評(píng)榜首](https://file1.elecfans.com/web1/M00/F2/C2/wKgaoWcKE1CAAPGWAAAR5o7IQS0976.png)
評(píng)論