久久青青无码亚洲av黑人,91精品国产综合久久男男

編者按：日前，中文大模型測評(píng)基準(zhǔn)SuperCLUE發(fā)布最新榜單，對(duì)商湯科技全新升級(jí)「日日新SenseNova 5.0」大模型進(jìn)行了全方位綜合性測評(píng)，結(jié)果顯示在SuperCLUE綜合基準(zhǔn)上，日日新 5.0表現(xiàn)不俗，以總分80.03分的優(yōu)異成績刷新國內(nèi)最好成績，并在中文綜合成績上超過GPT-4-Turbo-0125。

SuperCLUE是由創(chuàng)立于2019年的CLUE學(xué)術(shù)社區(qū)最新發(fā)布的中文通用大模型綜合性評(píng)測基準(zhǔn)，是被行業(yè)廣泛認(rèn)可的AI大模型權(quán)威評(píng)測榜單。以下評(píng)測報(bào)告轉(zhuǎn)載自 SuperCLUE官方發(fā)布報(bào)道。

4月23日，商湯科技正式發(fā)布全新大模型日日新5.0（SenseChat V5），采用混合專家架構(gòu)（MoE），參數(shù)量高達(dá)6000億，支持200K的上下文窗口。據(jù)官方披露，SenseChat V5具備更強(qiáng)的知識(shí)、數(shù)學(xué)、推理及代碼能力，綜合性能全面對(duì)標(biāo)GPT-4 Turbo。

那么，SenseChat V5在SuperCLUE中文基準(zhǔn)上的表現(xiàn)如何？與國內(nèi)外代表性大模型相比處于什么位置？在各項(xiàng)基礎(chǔ)能力上如計(jì)算推理、長文本、代碼生成、生成創(chuàng)作上會(huì)有怎樣的表現(xiàn)？

SuperCLUE團(tuán)隊(duì)對(duì)SenseChat V5在SuperCLUE通用大模型綜合性中文測評(píng)基準(zhǔn)上，進(jìn)行了全方位綜合性測評(píng)。

測評(píng)環(huán)境

參考標(biāo)準(zhǔn)：SuperCLUE綜合性測評(píng)標(biāo)準(zhǔn)

評(píng)測模型：SenseChat V5（官方于5月11日提供的內(nèi)測API版本）

評(píng)測集：SuperCLUE綜合性測評(píng)基準(zhǔn)4月評(píng)測集，2194道多輪簡答題，包括計(jì)算、邏輯推理、代碼、長文本在內(nèi)的基礎(chǔ)十大任務(wù)。

模型GenerationConfig配置：

temperature=0.01

repetition_penalty=1.0

top_p=0.8

max_new_tokens=2048

stream=false

測評(píng)方法：

本次測評(píng)為自動(dòng)化評(píng)測，具體評(píng)測方案可點(diǎn)擊查閱SuperCLUE綜合性測評(píng)標(biāo)準(zhǔn)。本次測評(píng)經(jīng)過人工抽樣校驗(yàn)。

先說結(jié)論

結(jié)論1：在SuperCLUE綜合基準(zhǔn)上，SenseChat V5表現(xiàn)不俗，以總分80.03分的優(yōu)異成績刷新國內(nèi)最好成績，并且在中文綜合成績上超過GPT-4-Turbo-0125有0.9分。

結(jié)論2：在本次測評(píng)中，理科任務(wù)上SenseChat V5取得國內(nèi)最好成績，較GPT-4-Turbo-0125低4.35分，還有一定提升空間；文科任務(wù)上SenseChat V5表現(xiàn)十分出色，以82.20分取得國內(nèi)外最高分。

結(jié)論3：在本次測評(píng)中，SenseChat V5在各項(xiàng)能力上表現(xiàn)較為均衡，尤其在長文本、生成創(chuàng)作、角色扮演、安全能力、工具使用上處于全球領(lǐng)先位置，適用于智能體、內(nèi)容創(chuàng)作、長程對(duì)話等應(yīng)用場景。代碼能力還有一定提升空間。

對(duì)比模型數(shù)據(jù)來源： SuperCLUE, 2024年4月30日

以下是我們從定量和定性兩個(gè)角度對(duì)模型進(jìn)行的測評(píng)分析。

測評(píng)分析

1定量分析

在SuperCLUE測評(píng)中，SenseChat V5總體表現(xiàn)如下：

SenseChat V5總體表現(xiàn)

注：對(duì)比模型數(shù)據(jù)均來源于SuperCLUE，SenseChat V5和Yi-Large取自2024年5月11日，其余所有模型取自2024年4月30日。由于部分模型分?jǐn)?shù)較為接近，為了減少問題波動(dòng)對(duì)排名的影響，本次測評(píng)將相距0.25分區(qū)間的模型定義為并列，以上排序不代表實(shí)際排名。

在SuperCLUE通用綜合測評(píng)基準(zhǔn)上，SenseChat V5取得80.03分，表現(xiàn)出色，刷新國內(nèi)大模型最好成績。并且，SenseChat V5在中文綜合能力上較GPT-4-Turbo-0125高0.9分。

SenseChat V5在理科任務(wù)上的表現(xiàn)

對(duì)比模型數(shù)據(jù)來源：SuperCLUE SenseChat V5在理科任務(wù)上表現(xiàn)不俗，取得76.78分，國內(nèi)模型中排名第一，較GPT-4-Turbo-0125低4.35分，還有一定提升空間。其中，計(jì)算（80.6）、邏輯推理（73.8）、工具使用（80.8）均刷新國內(nèi)最好成績；在代碼能力上還有一定優(yōu)化空間。

SenseChat V5在文科任務(wù)上的表現(xiàn)

對(duì)比模型數(shù)據(jù)來源：SuperCLUE SenseChat V5在文科任務(wù)上表現(xiàn)出色，取得82.20的高分，國內(nèi)外模型中排名第一，較GPT-4-Turbo-0125高4.40分。其中，知識(shí)百科（82.4）、長文本（79.2）、角色扮演（80.4）、語義理解（81.6）、生成創(chuàng)作（79.4）、傳統(tǒng)安全（90.2）均刷新國內(nèi)最好成績；

對(duì)比數(shù)據(jù)來源：SuperCLUE, 2024年4月30日將SenseChat V5與國內(nèi)大模型平均得分對(duì)比，我們可以發(fā)現(xiàn)，SenseChat V5在所有能力上均高于平均線，展現(xiàn)出較均衡的綜合能力。尤其在計(jì)算（+16.15）、邏輯推理（+18.89）、代碼（+19.06）、長文本（+21.16）能力上遠(yuǎn)高出平均線15分以上。

SenseChat V5與國外代表模型對(duì)比

將SenseChat V5與國外代表大模型對(duì)比，SenseChat V5在文科類中文任務(wù)上好于國外大模型，尤其在長文本、生成創(chuàng)作能力較為領(lǐng)先。在理科如計(jì)算、邏輯推理、代碼能力上與GPT-4-Turbo-0125還有一定提升空間。

小結(jié)：

從評(píng)測結(jié)果我們發(fā)現(xiàn)，SenseChat V5綜合能力上表現(xiàn)不俗，在總分上刷新了國內(nèi)外最好成績，其中文科任務(wù)上有超過GPT-4 Turbo的表現(xiàn)，理科任務(wù)上刷新國內(nèi)最好成績，與GPT-4 Turbo還有一定距離。 2定性分析

通過一些典型示例，對(duì)比定性分析SenseChat V5的特點(diǎn)。

示例1：長文本

示例2：生成創(chuàng)作

示例3：邏輯推理

模型技術(shù)特點(diǎn)

據(jù)官方介紹，SenseChat V5模型能力顯著提升，其背后是訓(xùn)練數(shù)據(jù)的全面升級(jí)與訓(xùn)練方法的有效提升。

在數(shù)據(jù)方面，SenseChat V5采用了新一代數(shù)據(jù)生產(chǎn)管線，生產(chǎn)了10T tokens的高質(zhì)量訓(xùn)練數(shù)據(jù)。通過多個(gè)模型進(jìn)行數(shù)據(jù)的過濾和提煉，顯著提升了預(yù)料質(zhì)量和信息密度；基于精細(xì)聚類的均衡采樣確保對(duì)世界知識(shí)覆蓋的完整性。同時(shí)，SenseChat V5還大規(guī)模采用了思維型的合成數(shù)據(jù)（數(shù)千億tokens量級(jí)），這對(duì)于模型在邏輯推理、數(shù)學(xué)和編程等方面的能力提升起到了關(guān)鍵作用。

SenseChat V5采用了自研的多階段訓(xùn)練鏈路，包括三階段預(yù)訓(xùn)練、雙階段SFT和在線RLHF。通過在每個(gè)階段設(shè)定更加清晰聚焦的目標(biāo)，實(shí)現(xiàn)更敏捷的調(diào)優(yōu)，也避免了不同目標(biāo)之間的相互干擾。其中在預(yù)訓(xùn)練階段，分階段培養(yǎng)模型的基礎(chǔ)語言和知識(shí)能力、長文建模能力、以及復(fù)雜邏輯推理能力（規(guī)?；捎煤铣蓴?shù)據(jù)）；在 SFT 階段，把任務(wù)指令遵循和對(duì)話體驗(yàn)優(yōu)化分解到雙階段進(jìn)行；在 RLHF 階段，采用統(tǒng)一的多維度獎(jiǎng)勵(lì)模型和動(dòng)態(tài)系統(tǒng)提示詞對(duì)多維度偏好進(jìn)行打分，從而更好地實(shí)現(xiàn)模型在多個(gè)維度和人類期望對(duì)齊。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

GPT

GPT

+關(guān)注

關(guān)注
0

文章
360

瀏覽量
15523
AI大模型

AI大模型

+關(guān)注

關(guān)注
0

文章
321

瀏覽量
352

原文標(biāo)題：中文大模型測評(píng)基準(zhǔn)SuperCLUE：商湯「日日新5.0」總分80.03刷新最好成績，文科能力領(lǐng)跑

文章出處：【微信號(hào)：SenseTime2017，微信公眾號(hào)：商湯科技SenseTime】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

商湯“日日新”融合大模型榮獲雙料冠軍

技術(shù)領(lǐng)域取得了重大進(jìn)展。值得一提的是，“日日新”融合大模型在兩大權(quán)威評(píng)測榜單上均表現(xiàn)優(yōu)異，一舉奪得雙料冠軍。在國內(nèi)權(quán)威大模型測評(píng)機(jī)構(gòu)

發(fā)表于 01-13 16:10 ?200次閱讀

商湯科技推出“日日新”融合大模型

剛剛，商湯正式推出“日日新”融合大模型，領(lǐng)先實(shí)現(xiàn)原生融合模態(tài)，深度推理能力與多模態(tài)信息處理能力均大幅提升，并在兩大權(quán)威評(píng)測榜單奪得第一，成為“雙冠王”。

發(fā)表于 01-10 15:59 ?275次閱讀

商湯日日新多模態(tài)大模型權(quán)威評(píng)測第一

剛剛，商湯科技日日新SenseNova多模態(tài)大模型，在權(quán)威綜合評(píng)測權(quán)威平臺(tái)OpenCompass的多模態(tài)評(píng)測中取得榜單第一。

發(fā)表于 12-20 10:39 ?360次閱讀

商湯日日新·商量大模型位列國內(nèi)大模型第一梯隊(duì)

剛剛，中文大模型測評(píng)基準(zhǔn)SuperCLUE發(fā)布《中文大模型

發(fā)表于 11-08 15:38 ?474次閱讀

商湯日日新大模型中標(biāo)上海電信訂單

近日，中國電信上海公司公布《產(chǎn)數(shù)開發(fā)代碼助手》項(xiàng)目采購結(jié)果：憑借「日日新」大模型出色的代碼能力，商湯科技中標(biāo)。由「商湯?小浣熊家族」系列產(chǎn)品團(tuán)隊(duì)提供相關(guān)業(yè)務(wù)產(chǎn)品服務(wù)支持。

發(fā)表于 07-29 14:25 ?608次閱讀

商湯“日日新”大模型全面賦能2024 WAIC

7月6日，WAIC 2024迎來第三天。商湯科技全新升級(jí)的「日日新SenseNova 5.5」備受熱議，作為國內(nèi)首個(gè)具備流式原生多模態(tài)交互能力的大模型，交互效果和多項(xiàng)核心指標(biāo)實(shí)現(xiàn)

發(fā)表于 07-08 15:54 ?694次閱讀

商湯科技發(fā)布日日新5.5大模型體系

商湯科技近日震撼發(fā)布其最新的日日新5.5大模型體系，標(biāo)志著人工智能領(lǐng)域又邁出了堅(jiān)實(shí)的一步。該體系以6000億參數(shù)的超大規(guī)模基礎(chǔ)模型——日日新

發(fā)表于 07-08 15:05 ?656次閱讀

商湯宣布將免費(fèi)向粵語區(qū)用戶推出粵語大模型Web版及App版

繼4月發(fā)布「日日新SenseNova 5.0」以來，商湯大模型繼續(xù)日日精進(jìn)，新技頻出！

發(fā)表于 05-31 10:51 ?976次閱讀

商湯發(fā)布日日新大模型5.0粵語版

近日，人工智能領(lǐng)軍企業(yè)商湯科技正式對(duì)外發(fā)布了其最新研發(fā)成果——日日新大模型5.0粵語版。該模型針對(duì)粵語用戶進(jìn)行了深度優(yōu)化，旨在提供更精準(zhǔn)、更

發(fā)表于 05-30 09:21 ?678次閱讀

商湯科技即將推出日日新大模型5.0粵語版本

在盛大的“新質(zhì)企業(yè)家聯(lián)合會(huì)”成立典禮上，商湯科技副總裁、智慧城市與商業(yè)事業(yè)群總裁張果琲宣布了一項(xiàng)重要消息。商湯科技即將推出日日新大模型5.0

發(fā)表于 05-13 10:58 ?629次閱讀

商湯將發(fā)布日日新大模型5.0粵語版本

商湯科技即將迎來一項(xiàng)重要更新，他們將發(fā)布日日新大模型5.0的粵語版本。這一版本是基于商湯科技現(xiàn)有的大裝置和

發(fā)表于 05-08 09:33 ?543次閱讀

商湯科技發(fā)布“日日新SenseNova 5.0”大模型

商湯科技近日隆重推出全新升級(jí)的“日日新SenseNova 5.0”大模型，其卓越性能贏得了業(yè)界的廣泛贊譽(yù)。憑借這一行業(yè)領(lǐng)先的技術(shù)實(shí)力，商湯絕

發(fā)表于 05-07 14:13 ?616次閱讀

商湯科技發(fā)布日新5.0大模型，對(duì)標(biāo)GPT-4 Turbo，預(yù)計(jì)2024年落地端側(cè)

據(jù)了解，4月23日，商湯科技在上海舉行了技術(shù)交流日活動(dòng)，公布了“云、端、邊”全棧大模型產(chǎn)品矩陣，并對(duì)“日日新SenseNova 5.0”大模型

發(fā)表于 04-25 09:30 ?622次閱讀

商湯科技新升級(jí)大模型，對(duì)標(biāo)GPT-4 Turbo?

昨日，商湯科技在滬舉辦技術(shù)交流日活動(dòng)，公布了其“云、端、邊”全棧大模型產(chǎn)品矩陣，并對(duì)“日日新SenseNova 5.0”大模型體系進(jìn)行了全面

發(fā)表于 04-24 17:17 ?736次閱讀

商湯科技發(fā)布5.0多模態(tài)大模型，綜合能力全面對(duì)標(biāo)GPT-4 Turbo

場景應(yīng)用需求；升級(jí)“日日新SenseNova 5.0”大模型體系，綜合能力全面對(duì)標(biāo)GPT-4 Turbo。此外對(duì)于文生視頻徐立也表示商湯科技很快就會(huì)發(fā)布相關(guān)的平臺(tái)產(chǎn)品。備受矚目的

發(fā)表于 04-24 16:49 ?1184次閱讀

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

中文大模型測評(píng)基準(zhǔn)SuperCLUE：商湯日日新5.0，刷新國內(nèi)最好成績

評(píng)論

商湯“日日新”融合大模型榮獲雙料冠軍

商湯科技推出“日日新”融合大模型

商湯日日新多模態(tài)大模型權(quán)威評(píng)測第一

商湯日日新·商量大模型位列國內(nèi)大模型第一梯隊(duì)

商湯日日新大模型中標(biāo)上海電信訂單

商湯“日日新”大模型全面賦能2024 WAIC

商湯科技發(fā)布日日新5.5大模型體系

商湯宣布將免費(fèi)向粵語區(qū)用戶推出粵語大模型Web版及App版

商湯發(fā)布日日新大模型5.0粵語版

商湯科技即將推出日日新大模型5.0粵語版本

商湯將發(fā)布日日新大模型5.0粵語版本

商湯科技發(fā)布“日日新SenseNova 5.0”大模型

商湯科技發(fā)布日新5.0大模型，對(duì)標(biāo)GPT-4 Turbo，預(yù)計(jì)2024年落地端側(cè)

商湯科技新升級(jí)大模型，對(duì)標(biāo)GPT-4 Turbo?

商湯科技發(fā)布5.0多模態(tài)大模型，綜合能力全面對(duì)標(biāo)GPT-4 Turbo

搜索歷史

中文大模型測評(píng)基準(zhǔn)SuperCLUE：商湯日日新5.0，刷新國內(nèi)最好成績

評(píng)論

中文大模型測評(píng)基準(zhǔn)SuperCLUE：商湯日日新5.0，刷新國內(nèi)最好成績