91亚洲一线产区二线,国产野外无码理论片免费

幻方量化旗下組織深度求索發(fā)布了國內首個開源 MoE 大模型 ——DeepSeekMoE，全新架構，免費商用。

今年 4 月，幻方量化發(fā)布公告稱，公司將集中資源和力量，全力投身到服務于全人類共同利益的人工智能技術之中，成立新的獨立研究組織，探索 AGI 的本質。幻方將這個新組織命名為 “深度求索 (DeepSeek)”。

DeepSeekMoE 的模型、代碼、論文均已同步發(fā)布。

模型下載：https://huggingface.co/deepseek-ai

微調代碼：https://github.com/deepseek-ai/DeepSeek-MoE

技術報告：https://github.com/deepseek-ai/DeepSeek-MoE/blob/main/DeepSeekMoE.pdf

據介紹，DeepSeekMoE 的多尺度（2B->16B->145B）模型效果均領先：

DeepSeekMoE-2B 可接近 MoE 模型的理論上限2B Dense 模型性能（即相同 Attention/FFN 參數配比的 2B Dense 模型），僅用了 17.5% 計算量

DeepSeekMoE-16B 性能比肩 LLaMA2 7B 的同時，僅用了 40% 計算量，也是本次主力開源模型，40G 顯存可單卡部署

DeepSeekMoE-145B 上的早期實驗進一步證明該 MoE 架構明顯領先于 Google 的 MoE 架構 GShard，僅用 28.5%（甚至 18.2%）計算量即可匹配 67B Dense 模型的性能

混合專家模型 (Mixed Expert Models，簡稱 MoEs)是用于提高大語言模型效率和準確度的技術。這種方法的核心是將復雜任務劃分為更小、更易管理的子任務，每個子任務由專門的小型模型或 “專家” 負責，然后根據輸入數據的特性選擇性地激活這些 “專家”。 MoE 核心組成：

專家 (Experts)：訓練有素的小型神經網絡，擅長特定領域。每個專家通常專注于處理一種特定類型的數據或任務。專家的設計可以是多種形式，如完全連接的網絡、卷積網絡等。

門控機制 (Gating Mechanism)：MoE 架構決策者，這是一個智能路由系統(tǒng)，負責決定哪些專家應該被激活來處理當前的輸入數據。門控機制基于輸入數據的特性，動態(tài)地將數據分配給不同的專家。

官方稱 DeepSeekMoE 是自研的全新 MoE 框架，主要包含兩大創(chuàng)新：

細粒度專家劃分：不同于傳統(tǒng) MoE 直接從與標準 FFN 大小相同的 N 個專家里選擇激活 K 個專家（如 Mistral 7B8 采取 8 個專家選 2 專家），DeepSeekMoE把 N 個專家粒度劃分更細，在保證激活參數量不變的情況下，從 mN 個專家中選擇激活 mK 個專家（如 DeepSeekMoE 16B 采取 64 個專家選 8 個專家），如此可以更加靈活地組合多個專家

共享專家分離：DeepSeekMoE 把激活專家區(qū)分為共享專家（Shared Expert）和獨立路由專家（Routed Expert），此舉有利于將共享和通用的知識壓縮進公共參數，減少獨立路由專家參數之間的知識冗余

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4783

瀏覽量
101236
智能路由

智能路由

+關注

關注
0

文章
9

瀏覽量
7160
卷積網絡

卷積網絡

+關注

關注
0

文章
42

瀏覽量
2212
DeepSeek

DeepSeek

+關注

關注
1

文章
208

瀏覽量
78

原文標題：幻方量化開源國內首個MoE大模型，全新架構、免費商用

文章出處：【微信號：OSC開源社區(qū)，微信公眾號：OSC開源社區(qū)】歡迎添加關注！文章轉載請注明出處。

Meta組建四大專研小組，深入探索DeepSeek模型

近日，據報道，臉書母公司Meta為了提升其大模型Llama的性能，專門成立了四個研究小組，深入探索量化巨頭幻方量化旗下的國產大

發(fā)表于 02-05 14:02 ?131次閱讀

字節(jié)跳動發(fā)布豆包大模型1.5 Pro

字節(jié)跳動正式發(fā)布了豆包大模型1.5 Pro。全新的Doubao -1.5 - pro模型綜合能力顯著增強，在知識、代碼、推理、中文等多個測評基準上，綜合得分優(yōu)于GPT - 4o、Cl

發(fā)表于 01-23 10:24 ?186次閱讀

獵戶星空發(fā)布Orion-MoE 8×7B大模型及AI數據寶AirDS

近日，獵戶星空攜手聚云科技在北京共同舉辦了一場發(fā)布會。會上，獵戶星空正式揭曉了其自主研發(fā)的Orion-MoE 8×7B大模型，并與聚云科技聯(lián)合推出了基于該大

發(fā)表于 11-29 13:57 ?320次閱讀

騰訊發(fā)布開源MoE大語言模型Hunyuan-Large

近日，騰訊公司宣布成功推出業(yè)界領先的開源MoE(Mixture of Experts，專家混合)大語言模型——Hunyuan-Large。這款模型不僅在參數量上刷新

發(fā)表于 11-06 10:57 ?377次閱讀

全球首個開源AI標準正式發(fā)布

近日，在備受矚目的2024年ALL THINGS OPEN大會上，開源組織Open Source Initiative（OSI）宣布了一項重大突破——正式發(fā)布了

發(fā)表于 10-31 10:59 ?323次閱讀

Meta發(fā)布Llama 3.2量化版模型

近日，Meta在開源Llama 3.2的1B與3B模型后，再次為人工智能領域帶來了新進展。10月24日，Meta正式推出了這兩個模型的量化版本，旨在進一步優(yōu)化

發(fā)表于 10-29 11:05 ?483次閱讀

深開鴻聯(lián)合深天使發(fā)布國內首個開源鴻蒙產業(yè)加速營

近日，深圳開鴻數字產業(yè)發(fā)展有限公司（深開鴻）、深圳市天使投資引導基金管理有限公司（深天使）與深圳市天使投資協(xié)會攜手發(fā)布國內首個開源鴻蒙(OpenHarmony)產業(yè)加速營。本次加速營旨

發(fā)表于 10-01 08:10 ?336次閱讀

深開鴻聯(lián)合深天使<b class='flag-5'>發(fā)布</b><b class='flag-5'>國內</b><b class='flag-5'>首個</b><b class='flag-5'>開源</b>鴻蒙產業(yè)加速營

深開鴻聯(lián)合中軟國際、粵科金融集團發(fā)布國內首個開源鴻蒙創(chuàng)業(yè)投資基金

在近期舉辦的2024開放原子開源生態(tài)大會上，深圳開鴻數字產業(yè)發(fā)展有限公司（以下簡稱“深開鴻”）攜手中軟國際、粵科金融集團正式發(fā)布國內首個專注于開源

發(fā)表于 09-30 08:07 ?868次閱讀

深開鴻聯(lián)合深天使發(fā)布國內首個開源鴻蒙產業(yè)加速營

近日，深圳開鴻數字產業(yè)發(fā)展有限公司(深開鴻)、深圳市天使投資引導基金管理有限公司(深天使)與深圳市天使投資協(xié)會攜手發(fā)布國內首個開源鴻蒙(OpenHarmony)產業(yè)加速營。本次加速營旨

發(fā)表于 09-29 15:28 ?329次閱讀

全球首個芯片設計開源大模型SemiKong正式發(fā)布

在科技日新月異的今天，全球首個芯片設計開源大模型SemiKong的正式發(fā)布，無疑為半導體行業(yè)投下了一枚震撼彈，預示著一場深刻的行業(yè)變革即將拉開序幕。這款由Aitomatic與FPT S

發(fā)表于 07-14 10:01 ?1024次閱讀

“燃鴻”重磅發(fā)布！國內首個燃氣行業(yè)開源鴻蒙化智能產品及解決方案

“鴻蒙賦能智創(chuàng)未來”為主題的燃氣行業(yè)燃鴻技術推介與產品發(fā)布會在四川成都成功舉辦。會上，三方聯(lián)合發(fā)布了“燃鴻”，這是國內

發(fā)表于 06-28 08:33 ?791次閱讀

昆侖萬維開源2千億稀疏大模型Skywork-MoE

近日，昆侖萬維公司宣布開源一款名為Skywork-MoE的稀疏大模型，該模型擁有高達2千億參數，不僅性能強勁，而且推理成本更低，為人工智能領域帶來了新的突破。

發(fā)表于 06-04 14:44 ?626次閱讀

浪潮信息發(fā)布“源2.0-M32”開源大模型

浪潮信息近日推出了革命性的“源2.0-M32”開源大模型。該模型在源2.0系列基礎上，引入了“基于注意力機制的門控網絡”技術，構建了一個包含32個專家的混合專家模型（

發(fā)表于 05-29 09:08 ?726次閱讀

通義千問推出1100億參數開源模型

通義千問近日震撼發(fā)布1100億參數的開源模型Qwen1.5-110B，這一舉措標志著通義千問在AI領域邁出了重大步伐。該模型成為通義千問全系列首個

發(fā)表于 05-06 10:49 ?643次閱讀

思必馳參編，國內第一個“汽車大模型標準”正式發(fā)布

4月28日，中國信通院發(fā)布了由思必馳等多家單位共同編制的國內首個“汽車大模型標準”，該標準聚焦汽車行業(yè)高質量發(fā)展，受到央視報道。

發(fā)表于 04-30 14:49 ?2268次閱讀

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

幻方量化發(fā)布了國內首個開源MoE大模型—DeepSeekMoE

評論

Meta組建四大專研小組，深入探索DeepSeek模型

字節(jié)跳動發(fā)布豆包大模型1.5 Pro

獵戶星空發(fā)布Orion-MoE 8×7B大模型及AI數據寶AirDS

騰訊發(fā)布開源MoE大語言模型Hunyuan-Large

全球首個開源AI標準正式發(fā)布

Meta發(fā)布Llama 3.2量化版模型

深開鴻聯(lián)合深天使發(fā)布國內首個開源鴻蒙產業(yè)加速營

深開鴻聯(lián)合中軟國際、粵科金融集團發(fā)布國內首個開源鴻蒙創(chuàng)業(yè)投資基金

深開鴻聯(lián)合深天使發(fā)布國內首個開源鴻蒙產業(yè)加速營

全球首個芯片設計開源大模型SemiKong正式發(fā)布

“燃鴻”重磅發(fā)布！國內首個燃氣行業(yè)開源鴻蒙化智能產品及解決方案

昆侖萬維開源2千億稀疏大模型Skywork-MoE

浪潮信息發(fā)布“源2.0-M32”開源大模型

通義千問推出1100億參數開源模型

思必馳參編，國內第一個“汽車大模型標準”正式發(fā)布