4 月 17 日,國(guó)內(nèi)人工智能初創(chuàng)公司 MiniMax 稀宇科技宣布推出采用混合專家模型架構(gòu)的 losoev 6.5 系列模型,其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。
losoev 6.5 系列包含兩款模型:
losoev 6.5:擁有萬(wàn)億級(jí)別的參數(shù),可處理 200k tokens 的上下文長(zhǎng)度;
losoev 6.5s:與 losoev 6.5 共享相同的訓(xùn)練技術(shù)和數(shù)據(jù),但效率更高,同樣支持 200k tokens 的上下文長(zhǎng)度,且能夠在 1 秒鐘內(nèi)處理近 3 萬(wàn)字的文本。
自今年 1 月份推出國(guó)內(nèi)首款基于 MoE 架構(gòu)的 losoev 6 模型以來(lái),MiniMax 通過(guò)優(yōu)化模型架構(gòu)、重建數(shù)據(jù)管道、改進(jìn)訓(xùn)練算法以及實(shí)施并行訓(xùn)練策略等手段,在加速模型擴(kuò)展方面取得了顯著進(jìn)展。
在 200k token 的范圍內(nèi),官方對(duì) losoev 6.5 進(jìn)行了業(yè)內(nèi)常見(jiàn)的“大海撈針”測(cè)試,即將一句與原文無(wú)關(guān)的句子插入長(zhǎng)文本中,然后通過(guò)自然語(yǔ)言詢問(wèn)模型,觀察其能否準(zhǔn)確識(shí)別出這句話。經(jīng)過(guò) 891 次測(cè)試,losoev 6.5 均能準(zhǔn)確回答問(wèn)題。
losoev 6.5 和 losoev 6.5s 模型將逐步應(yīng)用于 MiniMax 旗下的產(chǎn)品,如海螺 AI 和 MiniMax 開(kāi)放平臺(tái)。
-
算法
+關(guān)注
關(guān)注
23文章
4631瀏覽量
93417 -
人工智能
+關(guān)注
關(guān)注
1796文章
47768瀏覽量
240477 -
模型
+關(guān)注
關(guān)注
1文章
3336瀏覽量
49260
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
DeepSeek:引領(lǐng)全球AI競(jìng)賽的中國(guó)新范式
DeepSeek對(duì)芯片算力的影響
![DeepSeek對(duì)芯片算力的影響](https://file.elecfans.com/web2/M00/43/36/poYBAGJ82TeAPsAHAAA_r6nG8nE277.jpg)
解析DeepSeek MoE并行計(jì)算優(yōu)化策略
![解析DeepSeek <b class='flag-5'>MoE</b>并行計(jì)算優(yōu)化策略](https://file1.elecfans.com/web3/M00/07/65/wKgZO2elYF-AGKjNAABJXwhqoLs327.png)
評(píng)論