欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

完善資料讓更多小伙伴認(rèn)識(shí)你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

AI初創(chuàng)企業(yè)推MoE混合專家模型架構(gòu)新品abab 6.5

4 月 17 日，國(guó)內(nèi)人工智能初創(chuàng)公司 MiniMax 稀宇科技宣布推出采用混合專家模型架構(gòu)的 losoev 6.5 系列模型，其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。

losoev 6.5 系列包含兩款模型：

losoev 6.5：擁有萬(wàn)億級(jí)別的參數(shù)，可處理 200k tokens 的上下文長(zhǎng)度；

losoev 6.5s：與 losoev 6.5 共享相同的訓(xùn)練技術(shù)和數(shù)據(jù)，但效率更高，同樣支持 200k tokens 的上下文長(zhǎng)度，且能夠在 1 秒鐘內(nèi)處理近 3 萬(wàn)字的文本。

自今年 1 月份推出國(guó)內(nèi)首款基于 MoE 架構(gòu)的 losoev 6 模型以來(lái)，MiniMax 通過(guò)優(yōu)化模型架構(gòu)、重建數(shù)據(jù)管道、改進(jìn)訓(xùn)練算法以及實(shí)施并行訓(xùn)練策略等手段，在加速模型擴(kuò)展方面取得了顯著進(jìn)展。

在 200k token 的范圍內(nèi)，官方對(duì) losoev 6.5 進(jìn)行了業(yè)內(nèi)常見(jiàn)的“大海撈針”測(cè)試，即將一句與原文無(wú)關(guān)的句子插入長(zhǎng)文本中，然后通過(guò)自然語(yǔ)言詢問(wèn)模型，觀察其能否準(zhǔn)確識(shí)別出這句話。經(jīng)過(guò) 891 次測(cè)試，losoev 6.5 均能準(zhǔn)確回答問(wèn)題。

losoev 6.5 和 losoev 6.5s 模型將逐步應(yīng)用于 MiniMax 旗下的產(chǎn)品，如海螺 AI 和 MiniMax 開(kāi)放平臺(tái)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4631

瀏覽量
93417
人工智能

人工智能

+關(guān)注

關(guān)注
1796

文章
47768

瀏覽量
240477
模型

模型

+關(guān)注

關(guān)注
1

文章
3336

瀏覽量
49260

評(píng)論

相關(guān)推薦

DeepSeek:引領(lǐng)全球AI競(jìng)賽的中國(guó)新范式

的價(jià)值重估，DeepSeek現(xiàn)象折射出中國(guó)AI產(chǎn)業(yè)發(fā)展的新邏輯。這家成立僅兩年的初創(chuàng)企業(yè)，不僅連續(xù)推出性能對(duì)標(biāo)GPT-4的MoE（混合

發(fā)表于 02-09 10:31 ?273次閱讀

DeepSeek對(duì)芯片算力的影響

DeepSeek模型，尤其是其基于MOE（混合專家）架構(gòu)的DeepSeek-V3，對(duì)芯片算力的要求產(chǎn)生了深遠(yuǎn)影響。為了更好地理解這一影響，我

發(fā)表于 02-07 10:02 ?187次閱讀

解析DeepSeek MoE并行計(jì)算優(yōu)化策略

本期Kiwi Talks將從集群Scale Up互聯(lián)的需求出發(fā)，解析DeepSeek在張量并行及MoE專家并行方面采用的優(yōu)化策略。DeepSeek大模型的工程優(yōu)化以及國(guó)產(chǎn)AI 產(chǎn)業(yè)鏈的

發(fā)表于 02-07 09:20 ?361次閱讀

解析DeepSeek <b class='flag-5'>MoE</b>并行計(jì)算優(yōu)化策略

企業(yè)AI模型托管怎么做的

當(dāng)下，越來(lái)越多的企業(yè)選擇將AI模型托管給專業(yè)的第三方平臺(tái)，以實(shí)現(xiàn)高效、靈活和安全的模型運(yùn)行。下面，AI部落小編為您介紹

發(fā)表于 01-15 10:10 ?89次閱讀

企業(yè)AI模型部署攻略

當(dāng)下，越來(lái)越多的企業(yè)開(kāi)始探索和實(shí)施AI模型，以提升業(yè)務(wù)效率和競(jìng)爭(zhēng)力。然而，AI模型的部署并非易事，需要企

發(fā)表于 12-23 10:31 ?186次閱讀

獵戶星空發(fā)布Orion-MoE 8×7B大模型及AI數(shù)據(jù)寶AirDS

。 Orion-MoE 8×7B是獵戶星空精心打造的開(kāi)源混合架構(gòu)專家大模型，該模型擁有高達(dá)8×7

發(fā)表于 11-29 13:57 ?316次閱讀

騰訊發(fā)布開(kāi)源MoE大語(yǔ)言模型Hunyuan-Large

近日，騰訊公司宣布成功推出業(yè)界領(lǐng)先的開(kāi)源MoE(Mixture of Experts，專家混合)大語(yǔ)言模型——Hunyuan-Large。這款模型

發(fā)表于 11-06 10:57 ?377次閱讀

浪潮信息發(fā)布“源2.0-M32”開(kāi)源大模型

浪潮信息近日推出了革命性的“源2.0-M32”開(kāi)源大模型。該模型在源2.0系列基礎(chǔ)上，引入了“基于注意力機(jī)制的門(mén)控網(wǎng)絡(luò)”技術(shù)，構(gòu)建了一個(gè)包含32個(gè)專家的混合

發(fā)表于 05-29 09:08 ?725次閱讀

騰訊云大模型價(jià)格調(diào)整：混元-lite、混元-standard免費(fèi)，混元-pro降價(jià)

據(jù)了解，騰訊混元大模型是騰訊全鏈路自研的萬(wàn)億參數(shù)大模型，采用混合專家模型（MoE）結(jié)構(gòu)，

發(fā)表于 05-23 17:05 ?1092次閱讀

人大系初創(chuàng)公司智子引擎發(fā)布全新多模態(tài)大模型Awaker 1.0

人大系初創(chuàng)公司智子引擎近日震撼發(fā)布了新一代多模態(tài)大模型Awaker 1.0，這一里程碑式的成果標(biāo)志著公司在通用人工智能（AGI）領(lǐng)域取得了重要突破。與前代ChatImg序列模型相比，Awaker 1.0憑借其獨(dú)特的

發(fā)表于 05-06 09:59 ?672次閱讀

MOE與MOT：提升LLM效能的關(guān)鍵策略比較

MoE 與 MoT：在專家混合中（左），每個(gè)令牌都被路由到不同的專家前饋層。在令牌混合（右）中，每組內(nèi)的令牌被

發(fā)表于 04-15 09:53 ?980次閱讀

AI初創(chuàng)企業(yè)Suno發(fā)布首款音樂(lè)AI生成模型SunoV3

美國(guó)人工智能初創(chuàng)企業(yè)Suno近日震撼發(fā)布其首款音樂(lè)AI生成模型——SunoV3。這款創(chuàng)新產(chǎn)品已正式登陸其官方網(wǎng)站，并向所有用戶免費(fèi)開(kāi)放使用，標(biāo)志著音樂(lè)創(chuàng)作領(lǐng)域邁入了全新的智能化時(shí)代。

發(fā)表于 03-26 09:17 ?1212次閱讀

英特爾與Arm聯(lián)手助力初創(chuàng)企業(yè)開(kāi)發(fā)Arm架構(gòu)SoC

據(jù)介紹，此次合作旨在聯(lián)合推動(dòng)使用Intel 18A制程工藝研發(fā)Arm架構(gòu)SoC的初創(chuàng)企業(yè)發(fā)展。英特爾和Arm將攜手提供IP和制造及相關(guān)金融支持，助力初創(chuàng)

發(fā)表于 03-25 15:34 ?477次閱讀

微軟支付6.5億美元獲得Inflection AI的AI模型授權(quán)

微軟近日宣布向人工智能初創(chuàng)公司Inflection AI支付高達(dá)6.5億美元的巨額資金，這一舉動(dòng)在業(yè)內(nèi)引起了廣泛關(guān)注。據(jù)悉，這筆資金主要用于獲得Inflection AI的

發(fā)表于 03-25 10:39 ?547次閱讀

微軟攜手法國(guó)AI初創(chuàng)企業(yè)Mistral推動(dòng)AI模型商業(yè)化

微軟近日與法國(guó)人工智能初創(chuàng)企業(yè)Mistral達(dá)成合作協(xié)議，旨在推動(dòng)AI模型的商業(yè)化應(yīng)用。據(jù)悉，微軟將提供全方位支持，幫助這家成立僅10個(gè)月的公司將其先進(jìn)的

發(fā)表于 02-28 10:23 ?624次閱讀

微云疏影
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁(yè)

Hot 對(duì)比各家主流MCU指標(biāo)，國(guó)產(chǎn)MCU真的品質(zhì)不佳？
Hot 模擬信號(hào)和數(shù)字信號(hào)的區(qū)別和特點(diǎn)

New 方正電機(jī)成為小鵬汽車驅(qū)動(dòng)電機(jī)供應(yīng)商，總需求量預(yù)計(jì)達(dá)35萬(wàn)臺(tái)
New 雷諾-吉利動(dòng)力總成合資企業(yè)HORSE在倫敦成立

精選推薦
更多

文章

資料

帖子

何必把DeepSeek推上神壇？

腦極體
2小時(shí)前

70 閱讀

云廠商的DeepSeek大捷

腦極體
2小時(shí)前

136 閱讀

“輕松上手！5分鐘學(xué)會(huì)用京東云打造你自己的專屬DeepSeek”

京東云
4小時(shí)前

127 閱讀

電源模塊的EMC設(shè)計(jì)與干擾抑制技術(shù)

海凌科物聯(lián)
4小時(shí)前

138 閱讀

電機(jī)項(xiàng)目中瑞薩RA-T系列波形輸出占空比詳解

瑞薩MCU小百科
9小時(shí)前

225 閱讀

TMP441/TMP442 Family IBIS Mode

張麗
61

5積分

29下載

華為編程開(kāi)發(fā)規(guī)范與案例

atry
156 KB

免費(fèi)

0下載

openharmony第三方組件適配移植的浮動(dòng)操作按鈕教程

姚小熊27
2.15 MB

免費(fèi)

1下載

EasyImage簡(jiǎn)單圖床程序

李霞
3.45 MB

2積分

1下載

Zblog 2 Java博客系統(tǒng)

維生素B2
3.37 MB

2積分

1下載

PCB上這種指紋的圖案露銅是怎么實(shí)現(xiàn)的？

QWE4562009
22小時(shí)前

114 閱讀

2k0300先鋒派執(zhí)行qt程序出現(xiàn)Illegal instruction

jf_21720371
22小時(shí)前

107 閱讀

采用DeepSeek協(xié)助調(diào)試PLC通訊

autoctrl
22小時(shí)前

126 閱讀

一看就懂！動(dòng)畫(huà)圖解常見(jiàn)串行通訊協(xié)議：SPI、I2C、UART、紅外

早知
22小時(shí)前

208 閱讀

來(lái)吧，拆個(gè)比亞迪！

遠(yuǎn)風(fēng)
22小時(shí)前

199 閱讀

推薦專欄
更多

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

AI初創(chuàng)企業(yè)推MoE混合專家模型架構(gòu)新品abab 6.5

評(píng)論

DeepSeek:引領(lǐng)全球AI競(jìng)賽的中國(guó)新范式

DeepSeek對(duì)芯片算力的影響

解析DeepSeek MoE并行計(jì)算優(yōu)化策略

企業(yè)AI模型托管怎么做的

企業(yè)AI模型部署攻略

獵戶星空發(fā)布Orion-MoE 8×7B大模型及AI數(shù)據(jù)寶AirDS

騰訊發(fā)布開(kāi)源MoE大語(yǔ)言模型Hunyuan-Large

浪潮信息發(fā)布“源2.0-M32”開(kāi)源大模型

騰訊云大模型價(jià)格調(diào)整：混元-lite、混元-standard免費(fèi)，混元-pro降價(jià)

人大系初創(chuàng)公司智子引擎發(fā)布全新多模態(tài)大模型Awaker 1.0

MOE與MOT：提升LLM效能的關(guān)鍵策略比較

AI初創(chuàng)企業(yè)Suno發(fā)布首款音樂(lè)AI生成模型SunoV3

英特爾與Arm聯(lián)手助力初創(chuàng)企業(yè)開(kāi)發(fā)Arm架構(gòu)SoC

微軟支付6.5億美元獲得Inflection AI的AI模型授權(quán)

微軟攜手法國(guó)AI初創(chuàng)企業(yè)Mistral推動(dòng)AI模型商業(yè)化