https日韩在线中文,国内国产精品久久久久久

★AI Agent；人工智能體，RPA；大語言模型；prompt；Copilot；AGI；ChatGPT；LLM；AIGC；CoT；Cortex；Genius；MetaGPT；大模型；人工智能；通用人工智能；數(shù)據(jù)并行；模型并行；流水線并行；混合精度訓(xùn)練；梯度累積；Nvidia；A100;H100；A800;H800;L40s；混合專家；910B；HGX H20；L20 PCIe；L2 PCIe

AI Agent是一種智能實(shí)體，能夠感知環(huán)境、決策并執(zhí)行動作，具有獨(dú)立思考和執(zhí)行任務(wù)的能力。與傳統(tǒng)大模型相比，AI Agent能夠獨(dú)立思考目標(biāo)并采取行動，而不僅僅依賴于提示。AI Agent基于大模型，具備上下文學(xué)習(xí)、推理和思考的能力，因此是通往AGI（通用人工智能）的主要研究方向。

AI Agent由大模型、規(guī)劃、記憶和工具使用四個(gè)部分組成，其中大模型是核心，提供推理和規(guī)劃等能力。近期在AI Agent領(lǐng)域涌現(xiàn)出多個(gè)研究成果，包括在游戲、個(gè)人任務(wù)助理和情感陪伴方面表現(xiàn)優(yōu)異的產(chǎn)品。雖然目前AI Agent研究主要集中在學(xué)術(shù)和開發(fā)者領(lǐng)域，商業(yè)化產(chǎn)品較少，但在企業(yè)環(huán)境中，AI Agent建立對某一垂直領(lǐng)域的認(rèn)知的場景更為適合。一些初創(chuàng)公司已經(jīng)在以企業(yè)級Agent平臺為核心進(jìn)行產(chǎn)品研發(fā)，未來幾年內(nèi)預(yù)計(jì)將有更多以Agent為核心的產(chǎn)品涌現(xiàn)。

當(dāng)然，AI Agent的訓(xùn)練離不開算力，服務(wù)器作為一個(gè)強(qiáng)大的計(jì)算中心，為AI Agent提供算力基礎(chǔ)，支持其進(jìn)行復(fù)雜計(jì)算和處理大規(guī)模數(shù)據(jù)的任務(wù)，包括模型訓(xùn)練、推理和處理大規(guī)模數(shù)據(jù)集。

藍(lán)海大腦大模型訓(xùn)練平臺基于開放加速模組高速互聯(lián)的AI加速器，提供強(qiáng)大的算力支持。配置高速內(nèi)存且支持全互聯(lián)拓?fù)洌瑵M足大模型訓(xùn)練中張量并行的通信需求。支持高性能I/O擴(kuò)展，同時(shí)可以擴(kuò)展至萬卡AI集群，滿足大模型流水線和數(shù)據(jù)并行的通信需求。強(qiáng)大的液冷系統(tǒng)熱插拔及智能電源管理技術(shù)，當(dāng)BMC收到PSU故障或錯(cuò)誤警告（如斷電、電涌，過熱），自動強(qiáng)制系統(tǒng)的CPU進(jìn)入U(xiǎn)LFM（超低頻模式，以實(shí)現(xiàn)最低功耗）。致力于通過“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計(jì)算解決方案。主要應(yīng)用于深度學(xué)習(xí)、學(xué)術(shù)教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領(lǐng)域。

大模型引領(lǐng)前行：AI Agent

自主智能體在AGI之路的探索

一、AI Agent：探索 AGI 的真實(shí)形態(tài)

1、什么是 AI Agent？

AI Agent是一種智能實(shí)體，具備感知環(huán)境、決策和執(zhí)行動作的能力。與傳統(tǒng)人工智能不同，AI Agent通過獨(dú)立思考和調(diào)用工具逐步完成給定目標(biāo)，實(shí)現(xiàn)自主操作。雖然AI Agent在人工智能和計(jì)算機(jī)領(lǐng)域成為研究熱點(diǎn)，但由于數(shù)據(jù)和算力限制，實(shí)現(xiàn)真正智能的AI Agents仍面臨挑戰(zhàn)。

Hyperwrite 研發(fā)的 AI Agent 個(gè)人助理插件實(shí)現(xiàn)自動預(yù)訂航班機(jī)票

AI Agent與大語言模型和RPA的區(qū)別在于，具備獨(dú)立思考和行動的能力，相較于大模型需要基于明確的prompt進(jìn)行交互，而RPA則僅能在預(yù)設(shè)流程下工作。AI Agent的工作僅需目標(biāo)就能獨(dú)立思考并采取行動，拆解任務(wù)并根據(jù)反饋?zhàn)灾鲃?chuàng)建prompt。與RPA相比，AI Agent能處理未知信息和復(fù)雜環(huán)境，使其成為更靈活的自主智能體。

AI Agent 的工作流程

2、AIAgent 的最終發(fā)展目標(biāo)：通用人工智能 AGI

AI Agent并非新概念，早在多年前已有研究，如2014年AlphaGo和2017年OpenAI Five。這些AI能通過實(shí)時(shí)信息分析規(guī)劃操作，滿足AI Agent基本定義。當(dāng)時(shí)主要應(yīng)用在具有對抗性和明顯輸贏場景的游戲中，采用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。然而，通用性在真實(shí)世界中難以實(shí)現(xiàn)。

近年來，大語言模型的崛起推動AI Agent相關(guān)研究的快速發(fā)展。這些模型基于龐大的訓(xùn)練數(shù)據(jù)集，包括豐富的人類行為數(shù)據(jù)，為模擬類人交互提供堅(jiān)實(shí)基礎(chǔ)。大模型的快速發(fā)展使其具有上下文學(xué)習(xí)、推理和思維鏈等類似人類思考方式的能力，成為AI Agent的核心。

大模型的能力涌現(xiàn)現(xiàn)象

盡管大模型在全球范圍內(nèi)引起熱潮，但隨著時(shí)間推移，人們對大模型實(shí)際能力的認(rèn)識更為清晰。大模型仍存在幻覺、上下文容量限制等。因此，AI Agent成為新的研究焦點(diǎn)。通過讓大模型結(jié)合一個(gè)或多個(gè)Agent，構(gòu)建具備自主思考、決策和執(zhí)行能力的智能體，繼續(xù)探索通往AGI之路。

研究 AI Agent 的最終目標(biāo)是通向 AGI

AI Agent的發(fā)展可以類比為自動駕駛的L4階段，盡管已取得一定進(jìn)展，但距離真正的實(shí)現(xiàn)仍存在一定差距。據(jù)甲子光年報(bào)告，與人類的協(xié)作程度可以與自動駕駛的不同級別相媲美。對話機(jī)器人（如ChatGPT）可視為L2級別，人類向AI尋求意見，但AI不直接參與工作；副駕駛工具（如Copilot）相當(dāng)于L3級別，人類和AI共同協(xié)作完成工作，AI生成初稿，人類進(jìn)行修改；而AI Agent則相當(dāng)于L4，人類給定目標(biāo)，Agent自行完成任務(wù)規(guī)劃和工具調(diào)用。然而，類似于L4級別的自動駕駛尚未真正實(shí)現(xiàn)，AI Agent雖易于想象和演示，但在真實(shí)應(yīng)用中仍存在一定挑戰(zhàn)，其真正的應(yīng)用前景仍是未知。

將 AI 和人類協(xié)作的程度類比自動駕駛的不同階段

3、應(yīng)用兩大方向：自動化（自主智能體）、擬人化（智能體模擬）

AI Agent的發(fā)展在基于大語言模型（LLM）的應(yīng)用中呈現(xiàn)出兩大主要趨勢：

1）自主智能體

這類AI Agent致力于實(shí)現(xiàn)復(fù)雜流程的自動化。當(dāng)賦予自主智能體一個(gè)目標(biāo)時(shí)，能夠自主創(chuàng)建、執(zhí)行、調(diào)整任務(wù)，并根據(jù)目標(biāo)優(yōu)先級不斷重復(fù)這個(gè)過程，直至完成目標(biāo)。由于對準(zhǔn)確性要求較高，通常需要外部工具輔助，以減少大模型不確定性。

2）智能體模擬

這一類Agent致力于更加擬人和可信的表現(xiàn)。分為強(qiáng)調(diào)情感和情商的智能體，以及注重交互的智能體。后者通常在多智能體環(huán)境中操作，在預(yù)期之外展現(xiàn)出場景和能力。由于具備多樣性的特點(diǎn)，使其能夠充分利用大模型生成不確定性。

當(dāng)然這兩個(gè)方向并非完全獨(dú)立，相反自動化和擬人化作為AI Agent的兩大核心能力將同步發(fā)展。隨著底層模型的不斷成熟和對不同行業(yè)的深入探索，AI Agent的適用范圍和實(shí)用性有望進(jìn)一步擴(kuò)大。

二、AI Agent 拆解：大模型、規(guī)劃、記憶與工具

基于大型語言模型的AI Agent可分為四個(gè)主要組件：大型語言模型（LLM）、規(guī)劃、記憶和工具使用。

由 LLM 驅(qū)動的自主智能體系統(tǒng)的架構(gòu)

1、大模型+規(guī)劃：Agent 的“大腦”，通過思維鏈能力實(shí)現(xiàn)任務(wù)分解

Agent可以有效引導(dǎo)和激發(fā)LLM的邏輯推理能力。當(dāng)模型規(guī)模足夠大時(shí)，LLM本身就具備推理能力，在簡單推理問題上展現(xiàn)出良好的表現(xiàn)。然而，在處理復(fù)雜推理問題時(shí)，LLM有時(shí)可能會出現(xiàn)錯(cuò)誤，導(dǎo)致用戶無法獲得理想回答。這主要是因?yàn)閜rompt不夠合適，無法充分激發(fā)LLM的推理能力。通過追加輔助推理prompt，可以顯著提高LLM在推理問題上的效果。在《Large language models are zero-shot reasoners》一文中的測試中，通過在提問時(shí)追加“Let’s think step by step”prompt，數(shù)學(xué)推理測試集GSM8K上的推理準(zhǔn)確率從10.4%提升到40.7%。作為智能體Agent能夠自主創(chuàng)建適當(dāng)?shù)膒rompt，更好地引發(fā)大型模型的推理能力。

通過調(diào)整 prompt 可以提升大模型推理效果

在處理復(fù)雜任務(wù)時(shí)，Agent可以調(diào)用LLM的思維鏈進(jìn)行任務(wù)分解和規(guī)劃。在AI Agent架構(gòu)中，任務(wù)分解和規(guī)劃過程依賴于大模型能力。大模型具有思維鏈（CoT）能力，通過提示模型“逐步思考”，充分利用計(jì)算時(shí)間，將復(fù)雜任務(wù)逐步分解為更小、更簡單的步驟，從而降低每個(gè)子任務(wù)難度。

AI Agent 的反思框架

通過反思與自省框架，Agent不斷提升任務(wù)規(guī)劃能力。其具有對過去行為的自我評估機(jī)制，從中學(xué)習(xí)并改進(jìn)未來步驟，以提高最終結(jié)果質(zhì)量。自省框架允許Agent修正決策和改正之前錯(cuò)誤，實(shí)現(xiàn)性能不斷優(yōu)化。在任務(wù)執(zhí)行中，嘗試和錯(cuò)誤是常態(tài)，而反思和自省在這個(gè)過程中發(fā)揮著核心作用。

2、記憶：用有限的上下文長度實(shí)現(xiàn)更多的記憶

AI智能體系統(tǒng)的輸入成為系統(tǒng)記憶，與人類的記憶模式一一對應(yīng)。記憶是獲取、存儲、保留和檢索信息的過程，包括感覺記憶、短期記憶和長期記憶。對于AI Agent系統(tǒng)而言，與用戶的交互生成內(nèi)容被視為Agent的記憶。感覺記憶是學(xué)習(xí)嵌入表示的原始輸入，包括文本、圖像或其他模態(tài)；短期記憶是上下文受到有限上下文窗口長度限制；長期記憶可看作是Agent在工作中查詢外部向量數(shù)據(jù)庫，通過快速檢索進(jìn)行訪問。目前，Agent主要利用外部長期記憶完成復(fù)雜任務(wù)，如閱讀PDF、聯(lián)網(wǎng)搜索實(shí)時(shí)新聞等。任務(wù)與結(jié)果存儲在記憶模塊中，當(dāng)信息被調(diào)用時(shí)，存儲在記憶中的信息將回到與用戶的對話中，創(chuàng)造更加緊密的上下文環(huán)境。

人類記憶與 AI Agent 記憶映射

向量數(shù)據(jù)庫通過將數(shù)據(jù)轉(zhuǎn)化為向量形式，解決大模型海量知識存儲、檢索和匹配問題。向量成為AI理解世界的通用數(shù)據(jù)形式，而大模型為獲取豐富語義和上下文信息需要龐大訓(xùn)練數(shù)據(jù)，導(dǎo)致數(shù)據(jù)量呈指數(shù)級增長。通過Embedding方法，向量數(shù)據(jù)庫將非結(jié)構(gòu)化數(shù)據(jù)如圖像、音視頻等抽象為多維向量，實(shí)現(xiàn)結(jié)構(gòu)化管理，從而實(shí)現(xiàn)高效數(shù)據(jù)存儲和檢索過程，為Agent提供“長期記憶”。同時(shí)，將多模態(tài)數(shù)據(jù)映射到低維空間，大幅降低存儲和計(jì)算成本，向量數(shù)據(jù)庫存儲成本較存儲在神經(jīng)網(wǎng)絡(luò)中的成本低2到4個(gè)數(shù)量級。

Embedding技術(shù)將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可識別的語言，如地圖對地理信息的Embedding。通過Embedding技術(shù)，將文本等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為向量后，使用數(shù)學(xué)方法計(jì)算兩個(gè)向量之間的相似度，從而實(shí)現(xiàn)對文本的比較。向量數(shù)據(jù)庫基于向量相似度計(jì)算實(shí)現(xiàn)強(qiáng)大的檢索功能，通過相似性檢索特性，找出近似匹配結(jié)果，為模糊匹配提供支持，適用于更廣泛的應(yīng)用場景。

不同文本在向量空間中的相似度計(jì)算

3、工具：懂得使用工具才會更像人類

AI Agent與大模型的一個(gè)顯著區(qū)別在于，AI Agent能夠利用外部工具拓展模型能力。與人類使用工具相似，為大模型配備外部工具，使其完成原本無法處理的任務(wù)。例如，ChatGPT的缺陷是其訓(xùn)練數(shù)據(jù)截止到2021年底，無法直接回答關(guān)于更新知識的問題。雖然OpenAI為ChatGPT添加插件功能，允許調(diào)用瀏覽器插件以獲取最新信息，但仍需用戶明確指定是否需要使用插件，不能實(shí)現(xiàn)完全自然回答。相比之下，AI Agent具備自主調(diào)用工具能力，對于每個(gè)子任務(wù)，Agent會判斷是否需要調(diào)用外部工具來完成，并將外部工具返回信息提供給LLM，以繼續(xù)下一步子任務(wù)。此外，OpenAI在6月為GPT-4和GPT-3.5引入函數(shù)調(diào)用功能，使開發(fā)者能夠描述函數(shù)，并讓模型智能地選擇輸出函數(shù)調(diào)用參數(shù)的JSON對象。

GPT 模型函數(shù)調(diào)用功能示例

以HuggingGPT為例，將模型社區(qū)HuggingFace和ChatGPT緊密結(jié)合，構(gòu)建成一個(gè)綜合AI Agent。在2023年4月，浙江大學(xué)和微軟聯(lián)合團(tuán)隊(duì)推出HuggingGPT，這一系統(tǒng)能夠連接不同的AI模型來解決用戶提出的各種任務(wù)。HuggingGPT整合HuggingFace社區(qū)中的眾多模型和GPT，可應(yīng)對24種任務(wù)，包括文本分類、對象檢測、語義分割、圖像生成、問答、文本語音轉(zhuǎn)換以及文本視頻轉(zhuǎn)換。其工作流程分為四步：

1）任務(wù)規(guī)劃：通過使用ChatGPT獲取用戶的請求；

2）模型選擇：基于HuggingFace中函數(shù)描述選擇適當(dāng)模型，并使用選中模型執(zhí)行AI任務(wù)；

3）任務(wù)執(zhí)行：執(zhí)行由第2步選擇模型完成的任務(wù)，將結(jié)果總結(jié)成回答返回給ChatGPT；

4）回答生成：利用ChatGPT整合所有模型推理，生成回答并返回給用戶。

HuggingGPT 的工作步驟流程

AI Agent智探視野

應(yīng)用領(lǐng)域深入剖析與龍頭公司

一、自主智能體：自動化，新一輪生產(chǎn)力革命

1、軟件新范式，非大模型玩家亦有機(jī)會

自主智能體力圖實(shí)現(xiàn)復(fù)雜流程自動化，被類比為自動駕駛的L4階段，在任務(wù)執(zhí)行中不僅能夠減輕人類負(fù)擔(dān)，還需外部輔助和監(jiān)督。這一新型智能體有望引發(fā)軟件行業(yè)的交互方式和商業(yè)模式變革。交互方式方面，Agent決策、規(guī)劃、執(zhí)行等環(huán)節(jié)要更深刻理解用戶需求，需要設(shè)計(jì)更智能架構(gòu)解決問題。商業(yè)模式上，服務(wù)內(nèi)容收費(fèi)可能會向按token收費(fèi)轉(zhuǎn)變，對Agent功能實(shí)用性提出更高要求。雖然基座大模型能力重要，但在實(shí)際應(yīng)用中，自主智能體架構(gòu)設(shè)計(jì)、工程能力、垂類數(shù)據(jù)質(zhì)量同樣至關(guān)重要。在企業(yè)應(yīng)用中，準(zhǔn)確度和效率是關(guān)鍵指標(biāo)，同時(shí)也存在對低門檻定制Agent的需求。

2、實(shí)驗(yàn)性 VS 實(shí)操性，單智能體 VS 多智能體

行業(yè)內(nèi)對自主智能體的探索可分為實(shí)驗(yàn)性VS實(shí)操性、單智能體VS多智能體兩大類。實(shí)驗(yàn)性項(xiàng)目如AutoGPT雖可能在運(yùn)行中出錯(cuò)，但對開發(fā)者提供創(chuàng)意、思路和經(jīng)驗(yàn)的啟發(fā)。實(shí)操性應(yīng)用更注重與實(shí)際場景的適配。在單智能體和多智能體之間，單智能體適用于簡單任務(wù)，在C端應(yīng)用上有潛力，但在B端場景中面臨評估不足、任務(wù)繁重和大模型幻覺等挑戰(zhàn)，而多智能體在解決復(fù)雜工作上具有更突出優(yōu)勢。

1）單智能體1：實(shí)驗(yàn)性項(xiàng)目

AutoGPT

AutoGPT是由游戲開發(fā)者Toran Bruce Richards于2023年3月開源的實(shí)驗(yàn)性AI Agent項(xiàng)目。該項(xiàng)目在GitHub上線5個(gè)月，星標(biāo)數(shù)量已超過149K，成為代表性實(shí)驗(yàn)性項(xiàng)目，對后續(xù)Agent發(fā)展有啟發(fā)意義。AutoGPT可以根據(jù)用戶目標(biāo)自動生成提示，利用GPT-4和多種工具API執(zhí)行多步驟項(xiàng)目，無需人類干預(yù)。使用多個(gè)外部工具，包括克隆GitHub倉庫、啟動其他Agent、發(fā)言、發(fā)送推文和生成圖片等，同時(shí)支持各種矢量數(shù)據(jù)庫、LLM提供商、文本到圖片模型和瀏覽器。該項(xiàng)目應(yīng)用場景主要涉及辦公和開發(fā)領(lǐng)域，包括自動化流程、市場研究、代碼編寫和網(wǎng)站/App開發(fā)等，但實(shí)際效果一般。

代碼開發(fā)類 GPTEngineer

GPT Engineer是由Anton Osika于6月11日推出的開源代碼生成工具，基于GPT模型，根據(jù)用戶的指示生成高質(zhì)量代碼，包括創(chuàng)建新函數(shù)、修復(fù)代碼錯(cuò)誤等，支持多種編程語言。截至2023年9月，其在GitHub上的星星數(shù)量接近44k。

科研類 GPT Researcher

GPT Researcher是哥倫比亞大學(xué)研究團(tuán)隊(duì)推出的網(wǎng)絡(luò)科研任務(wù)專用的AI Agent項(xiàng)目，致力于生成詳盡、精確和客觀的研究報(bào)告。該項(xiàng)目已在GitHub上開源，截至2023年9月，星星數(shù)量超過4k。

GPT Researcher生成一系列研究問題，通過網(wǎng)絡(luò)爬蟲Agent從在線資源中收集與任務(wù)相關(guān)信息。每個(gè)獲取資源都會被概括，并追蹤其來源。當(dāng)然所有資源都會被篩選、匯總，形成一份完整的研究報(bào)告。

創(chuàng)作類 ShortGPT

ShortGPT 可實(shí)現(xiàn)自動編輯框架、編輯腳本和提、創(chuàng)建配音/內(nèi)容、生成字幕、從互聯(lián)網(wǎng)上獲取圖像和視頻片段等功能，并根據(jù)需要與網(wǎng)絡(luò)和 Pexels API 連接；確保使用 TinyDB 自動編輯變量的長期持久性等功能。

2）單智能體 2：實(shí)現(xiàn)交互變革，中心化應(yīng)用

功能升級后的 ChatGPT

ChatGPT在2023年經(jīng)歷多項(xiàng)功能增強(qiáng)：

- 增加近900個(gè)插件，覆蓋多個(gè)領(lǐng)域，但每次最多只能啟動3個(gè)插件。

- 推出高級數(shù)據(jù)分析功能，允許編寫和執(zhí)行Python代碼，并能處理文件上傳，提高處理復(fù)雜任務(wù)和數(shù)學(xué)推理準(zhǔn)確度。

- 自定義指令功能允許用戶預(yù)設(shè)身份和指令，提高ChatGPT的個(gè)性化水平。

- 9月引入多模態(tài)輸入，支持語音對話和圖像輸入，降低使用門檻，使其更具廣泛應(yīng)用性。

- 企業(yè)版本提供更多功能和支持，有望推動ChatGPT在B端應(yīng)用和商業(yè)領(lǐng)域的發(fā)展。

Adept AI

AI初創(chuàng)公司Adept于2022年9月發(fā)布大型行動模型ACT-1。ACT-1以桌面對話框形式存在，用戶通過自然語言與其進(jìn)行交互，改變過去鼠標(biāo)/鍵盤的操作方式。用戶可通過在文本框中輸入命令，在電腦上隨時(shí)調(diào)用ACT-1，一步步完成操作，并在需要時(shí)跨多個(gè)工具進(jìn)行協(xié)調(diào)。用戶可以即時(shí)反饋和修改錯(cuò)誤。使用示例包括在Google Sheet中創(chuàng)建損益欄、更新收入總值、添加新產(chǎn)品和聯(lián)系人，以及在交易平臺上尋找適合商品。

3）單智能體 3：實(shí)現(xiàn)交互變革，可定制、平臺化

Cortex

Cortex是由Kinesys AI推出產(chǎn)品，允許用戶在其私有數(shù)據(jù)上構(gòu)建AI合作伙伴，提供按使用量計(jì)費(fèi)的定制AI助手服務(wù)。Cortex整合多個(gè)大型模型并通過調(diào)用向量數(shù)據(jù)、實(shí)時(shí)聯(lián)網(wǎng)搜索和API等方式增強(qiáng)專業(yè)領(lǐng)域的實(shí)用性。在同一公司內(nèi)，Cortex根據(jù)不同業(yè)務(wù)部門的需求，輸出適應(yīng)每個(gè)人崗位關(guān)鍵點(diǎn)信息，實(shí)現(xiàn)個(gè)性化服務(wù)。Cortex的客戶群體主要包括個(gè)人開發(fā)者和早期初創(chuàng)企業(yè)，旨在減少從調(diào)試開始的工作量。已有10多家付費(fèi)用戶和上千個(gè)個(gè)人用戶。

MindOS

MindOS是心識宇宙發(fā)布的多功能AI Agent引擎和平臺，用戶能在短短3分鐘內(nèi)開發(fā)獨(dú)特記憶、個(gè)性和專業(yè)知識的可定制Genius。平臺提供1000多個(gè)具有性格和功能的預(yù)置Genius，其準(zhǔn)確推斷意圖的準(zhǔn)確率高達(dá)97%。功能包括Marketplace（分享和發(fā)現(xiàn)Genius）、Workflow（通過拖放和簡單配置構(gòu)建Genius）、Structured Memory（從對話中提取結(jié)構(gòu)化信息），未來還將增加Deep Thinking（深度思考）、Self Learning（自主學(xué)習(xí)）和Teamwork（團(tuán)隊(duì)協(xié)作）等板塊。

4）多智能體：AGENT 團(tuán)隊(duì)完成復(fù)雜開發(fā)任務(wù)

MetaGPT

MetaGPT是深度賦智于7月開源的多智能體框架，旨在幫助用戶快速搭建虛擬公司。虛擬公司中的員工都是智能體，涵蓋工程師、產(chǎn)品經(jīng)理、架構(gòu)師和項(xiàng)目經(jīng)理等角色。用戶只需輸入簡短需求，MetaGPT能輸出整個(gè)軟件公司的工作流程和詳細(xì)的SOP，如創(chuàng)作故事、競品分析等。

該框架包括基礎(chǔ)組件層和協(xié)作層?；A(chǔ)組件層構(gòu)建單個(gè)Agent操作和全系統(tǒng)信息交換所需的核心構(gòu)件，包括環(huán)境、記憶、角色和工具。協(xié)作層在基礎(chǔ)組件層之上建立，協(xié)調(diào)單個(gè)Agent協(xié)同解決復(fù)雜問題，實(shí)現(xiàn)知識共享和封裝工作流程。知識共享允許Agent交換信息，而封裝工作流則利用SOP將任務(wù)分解為易于管理的組件，確保符合總體目標(biāo)。

MetaGPT在橫向?qū)Ρ戎姓宫F(xiàn)出較高的實(shí)操價(jià)值，在GitHub上開源兩個(gè)月內(nèi)獲得超過24K的STAR數(shù)量。與大模型相比，MetaGPT基于GPT4-32k，利用4個(gè)Agent（工程師、產(chǎn)品經(jīng)理、架構(gòu)師、項(xiàng)目經(jīng)理），在MBPP和HumanEval開源數(shù)據(jù)集上的單次嘗試通過率明顯優(yōu)于其他代碼生成LLM，包括GPT4和CODEX等。MetaGPT的獨(dú)特之處在于其能夠生成產(chǎn)品需求文檔和技術(shù)設(shè)計(jì)，展示出在不同場景下具有更強(qiáng)通用性項(xiàng)目執(zhí)行方法。實(shí)驗(yàn)證明，在低成本和低門檻下MetaGPT可以開發(fā)簡易軟件項(xiàng)目，平均每個(gè)項(xiàng)目消耗26.6k token用于prompt，完成任務(wù)后總成本為1.09美元耗時(shí)8-9分鐘，遠(yuǎn)低于傳統(tǒng)軟件工程開發(fā)成本和時(shí)間。但MetaGPT偶爾會引用不存在資源文件，容易在執(zhí)行復(fù)雜任務(wù)時(shí)調(diào)用未定義或未導(dǎo)入的類或變量，這些問題可以通過更清晰、更高效的AGENT協(xié)作工作流程來處理。

ChatDev

ChatDev是由清華大學(xué)NLP實(shí)驗(yàn)室孫茂松教授指導(dǎo)，與面壁智能、北京郵電大學(xué)、布朗大學(xué)研究人員聯(lián)合發(fā)布全流程自動化軟件開發(fā)框架。

ChatDev采用gpt3.5-turbo-16k版本ChatGPT API，從Camel指令跟隨對話數(shù)據(jù)集中隨機(jī)選擇70個(gè)任務(wù)，作為CHATDEV軟件開發(fā)分析基礎(chǔ)。

該框架驅(qū)動智能體對話的關(guān)鍵機(jī)制包括：

- 角色專業(yè)化通過角色扮演確保每個(gè)智能體在專業(yè)角色下完成相應(yīng)方案提議和決策討論；

- 記憶流保存每輪對話記錄以確保思路連貫性；

- 自反思當(dāng)智能體未能滿足要求時(shí)，生成一個(gè)“偽我”向instructor反饋問題和相關(guān)對話。

CHATDEV為軟件開發(fā)提供一種高效、無需培訓(xùn)且具有成本效益新方法。與傳統(tǒng)軟件開發(fā)相比，CHATDEV平均生產(chǎn)時(shí)間不到7分鐘，成本不到0.3美元，遠(yuǎn)低于傳統(tǒng)軟件開發(fā)費(fèi)用和周期（通常需要數(shù)周或數(shù)月）。然而，在使用CHATDEV時(shí)提供更具體的說明可以更好地發(fā)揮其功能，尤其適用于中小型軟件項(xiàng)目。

二、智能體模擬：擬人化，新的精神消費(fèi)品

1、陪伴類，提供情緒價(jià)值

陪伴類智能體強(qiáng)調(diào)人類特征，包括情感情商和個(gè)性化"人格"，具備記憶用戶歷史交流能力。隨著大模型情商的不斷迭代和多模態(tài)技術(shù)的發(fā)展，預(yù)計(jì)未來陪伴類智能體將更加立體擬人，能夠提供更高情感價(jià)值。

當(dāng)前，國內(nèi)情感消費(fèi)市場仍有巨大的發(fā)展空間，尤其在社會婚姻觀念轉(zhuǎn)變和現(xiàn)代工作生活緊張的情況下，人們對陪伴的需求不斷增加。陪伴類智能體有望成為LLM時(shí)代的重要原生應(yīng)用。從商業(yè)角度出發(fā)，預(yù)計(jì)陪伴類智能體的主要商業(yè)價(jià)值將集中在知名IP上。當(dāng)前，那些擁有豐富IP儲備或允許用戶定制智能體的平臺將在市場上有廣闊前景。

具體而言，陪伴類智能體商業(yè)應(yīng)用包括在線社交和秀場直播，但需要注意在線社交可能面臨用戶在建立情感聯(lián)系后轉(zhuǎn)向主流社交平臺問題，而秀場直播用戶價(jià)值可能更加集中在熱門主播而非平臺。

1）InflectionAI：高情商個(gè)人 AI——Pi

Inflection AI推出名為Pi的個(gè)人AI產(chǎn)品于2023年5月正式上線。該初創(chuàng)公司成立于2022年估值已達(dá)40億美元，僅次于OpenAI在人工智能領(lǐng)域的地位。Pi與ChatGPT有所不同，并非以專業(yè)性或替代人工方式進(jìn)行宣傳。Pi無法編寫代碼或生成原創(chuàng)內(nèi)容，與通用聊天機(jī)器人不同，Pi專注于友好對話、提供簡潔建議，甚至只是傾聽。其主要特點(diǎn)包括富有同情心、謙虛好奇、幽默創(chuàng)新，具備較高的情商。Pi的定位是個(gè)人智能（Personal Intelligence），旨在提供個(gè)性化知識和陪伴，而非僅僅是輔助人工作的工具。

Inflection-1 可媲美 GPT-3.5 和 LLaMA(65B）

Pi的核心是Inflection AI開發(fā)的Inflection-1大模型其性能與GPT-3.5相當(dāng)。Inflection-1在多任務(wù)語言理解和常識問題等方面表現(xiàn)略勝于GPT-3.5和LLaMA等常見大模型，但在代碼方面稍顯不足。然而，這正是公司的差異化競爭之處，因?yàn)镻i作為以情感陪伴為主的Agent，無需具備強(qiáng)大的代碼和輔助工作能力。

與輔助工作的Agent不同，Pi更能滿足情感陪伴需求。作為一個(gè)情商高的AI Agent，Pi能夠使用更日常和生活化的語言與用戶進(jìn)行交流。Pi的回復(fù)貼近生活，語氣得體，關(guān)心用戶當(dāng)前狀態(tài)和事態(tài)發(fā)展，就像心理醫(yī)生或最好的朋友一樣。在回答可能涉及負(fù)面情緒問題時(shí)，Pi避免使用冒犯用戶的俏皮表情或輕松口吻。甚至使用表情來增強(qiáng)對話人性化感覺，使用戶感覺像在與真正的人類進(jìn)行交流。此外，Pi還能記住與用戶的對話，隨著時(shí)間的推移更好地理解用戶。Pi填補(bǔ)傳統(tǒng)人工智能對人類情感需求忽視，類似于Pi這樣提供情感陪伴的個(gè)人AI Agent在市場上具有巨大潛力。

2）平臺化娛樂化，如 Character.AI、Glow 等

Character.AI成立于2021年10月，創(chuàng)始團(tuán)隊(duì)專注于深度學(xué)習(xí)、大型語言模型和對話領(lǐng)域，團(tuán)隊(duì)成員曾在Google Brain和Meta AI工作。在2022年9月推出Beta版本，采用GPT-3大模型，通過大量虛構(gòu)人物數(shù)據(jù)進(jìn)行訓(xùn)練，使聊天機(jī)器人能夠根據(jù)人物的個(gè)性和特征生成對話和文本響應(yīng)。據(jù)Character.AI官方透露，Beta版本推出2個(gè)月后，每天生成10億個(gè)單詞，截至2022年12月，用戶已創(chuàng)建超過35萬個(gè)機(jī)器人，涵蓋信息檢索、教練、教育、娛樂等多個(gè)領(lǐng)域。類似的產(chǎn)品還包括Replika、Glow等。

2、重交互，提高用戶體驗(yàn)

交互智能體著重于強(qiáng)化與環(huán)境的互動能力，使智能體能夠與其他智能體或虛擬世界內(nèi)的事物進(jìn)行實(shí)質(zhì)性互動。這種能力可能導(dǎo)致超越設(shè)計(jì)者規(guī)劃的場景和能力，尤其在開放世界游戲等領(lǐng)域，創(chuàng)造可信的智能體（主要是可信NPC）是為了賦予虛擬世界以生命的感覺。這些智能體能夠做出決策并根據(jù)自己的意愿行動，從而創(chuàng)造出更真實(shí)的游戲體驗(yàn)，提升玩家的沉浸感，同時(shí)解決開放世界游戲中內(nèi)容消耗過快的問題。隨著可信智能體技術(shù)的成熟，可能會孕育出新的游戲品類，并在AIGC中扮演重要角色。

1）單智能體：游戲世界 AI 玩家，如 Voyager

Voyager是英偉達(dá)推出的首個(gè)大模型游戲智能體于2023年5月開源。該智能體在《我的世界》中應(yīng)用，該游戲以無限可能性的虛擬世界而著稱。沒有預(yù)定的最終目標(biāo)或故事情節(jié)。Voyager被設(shè)計(jì)成一個(gè)高效的終身學(xué)習(xí)Agent類似于人類玩家的能力，可以根據(jù)當(dāng)前技能水平和世界狀態(tài)發(fā)現(xiàn)適當(dāng)?shù)娜蝿?wù)，并通過反饋學(xué)習(xí)和改進(jìn)技能，持續(xù)探索世界。英偉達(dá)采用“無梯度”的訓(xùn)練方法，使基于GPT-4的Voyager在游戲中表現(xiàn)出色，獨(dú)特物品增加3.3倍，行進(jìn)距離增加2.3倍，解鎖科技樹里程碑的速度更是提高15.3倍。

Voyager 玩游戲的水平相比之前的方法大幅提升

Voyager引入三個(gè)創(chuàng)新組件：自動課程、技能庫和迭代prompt機(jī)制。自動課程設(shè)定開放性探索目標(biāo)，由GPT-4生成，根據(jù)探索進(jìn)度和Agent狀態(tài)最大程度地實(shí)現(xiàn)探索。技能庫存儲有助于解決任務(wù)行動程序，使Voyager能夠逐步建立起一個(gè)技能庫，并隨時(shí)間增強(qiáng)其能力，有效緩解“災(zāi)難性遺忘”問題。迭代prompt機(jī)制通過環(huán)境反饋、執(zhí)行錯(cuò)誤和自我驗(yàn)證來更新prompt，使GPT-4能夠自主迭代，直到生成足夠完成當(dāng)前任務(wù)的prompt。

Voyager由三大新型組件組成

Voyager在探索性能、科技樹掌握速度和地圖覆蓋率等方面顯著優(yōu)于其他Agent框架，特別是在解鎖科技樹和拓展地圖范圍方面表現(xiàn)突出。然而，與此強(qiáng)大性能相比，Voyager的高昂成本成為一大制約因素。其使用GPT-4的代碼生成能力導(dǎo)致成本居高不下。此外，存在“幻覺”問題，例如自動課程可能提出無法完成的任務(wù)。盡管如此，學(xué)界普遍認(rèn)為Voyager是AI Agent領(lǐng)域的一項(xiàng)重大突破，使得實(shí)現(xiàn)真正的AGI更為接近。

Voyager 的探索范圍遠(yuǎn)大于其他 Agent 框架

2）多智能體：Smallville 小鎮(zhèn)、網(wǎng)易《逆水寒》手游、昆侖萬維《ClubKoala》虛擬世界

多智能體：Smallville 小鎮(zhèn)，類西部世界的模擬社會

斯坦福大學(xué)研究者們在2023年4月首次創(chuàng)造一個(gè)虛擬的西部小鎮(zhèn)，其中包含25個(gè)生成式AI代理，構(gòu)成一個(gè)交互式沙盒環(huán)境。這些智能體展現(xiàn)出類似人類行為，如在公園散步、在咖啡館喝咖啡，甚至規(guī)劃舉辦情人節(jié)派對。這些Agent具有人類特質(zhì)、獨(dú)立決策和長期記憶等功能，被稱為“原生AI Agent”。在這個(gè)虛擬環(huán)境中，這些Agent不僅服務(wù)于人類工具，還能夠在數(shù)字世界中相互合作，建立社交關(guān)系。

在西部世界小鎮(zhèn)的AI Agents架構(gòu)中，記憶流是核心要素，包含三大基本要素：記憶、反思和規(guī)劃。記憶流（MemoryStream）存儲Agent的所有經(jīng)歷記錄，每個(gè)觀察包含事件描述、創(chuàng)建時(shí)間和最近訪問的時(shí)間戳。檢索過程考慮最近性、重要性和相關(guān)性三個(gè)因素，通過分?jǐn)?shù)確定權(quán)重最高記憶，作為prompt傳遞給大模型，決定Agent下一步動作。

網(wǎng)易《逆水寒》手游，AINPC 提高玩家體驗(yàn)

《逆水寒》手游于2023年6月30日上線，首日登頂iOS游戲免費(fèi)榜，截至7月3日仍位居榜首。在iOS游戲暢銷榜上，公測當(dāng)天晚間躍升至第3名，次日晚上進(jìn)一步升至第2名。游戲引入百位AINPC，這些NPC不僅與玩家互動自如，還具有記憶功能，極大增加游戲的趣味性。AINPC提供豐富的探索劇情，使游戲內(nèi)容更加豐富多彩。通過與NPC互動，玩家可以深入了解游戲世界，獲取寶貴信息，例如了解boss的弱點(diǎn)。此外，NPC之間的關(guān)系網(wǎng)還能幫助玩家巧妙解決難題。

昆侖萬維《ClubKoala》虛擬世界更可信

引入AI NPC，賦予虛擬世界更真實(shí)的體驗(yàn)。采用Play for Fun的Atom AI系統(tǒng)，每個(gè)AI NPC都具備獨(dú)特的性格和行為模式，自主安排日程并相互影響。加入記憶系統(tǒng)后，AI NPC能夠記住與玩家的互動，根據(jù)玩家行為調(diào)整自身，展現(xiàn)出逐漸發(fā)展的“自我意識”，實(shí)現(xiàn)更自然、真實(shí)的動作和對話。與AI NPC的互動將被NPC牢記，分析玩家行為并在后續(xù)互動中反映，構(gòu)建真正的玩家與NPC紐帶。

三、AI Agent 應(yīng)用領(lǐng)域

1、AI Agent 有望多個(gè)領(lǐng)域?qū)崿F(xiàn)落地應(yīng)用

AI Agent是釋放大型語言模型（LLM）潛能的關(guān)鍵，未來將與人類合作更加密切。當(dāng)前的大模型如GPT-4擁有強(qiáng)大的能力，但其性能仍受用戶prompt質(zhì)量限制。AI Agent出現(xiàn)將用戶從prompt工程中解放出來，只需提供任務(wù)目標(biāo)，以大模型為核心的AI Agent即可為其提供行動能力，實(shí)現(xiàn)任務(wù)完成。雖然目前AI Agent主要處理簡單任務(wù)，但隨著研究的深入，人類與AI Agent的合作將不斷增多，形成一個(gè)自動化的合作體系，推動人類社會的生產(chǎn)結(jié)構(gòu)變革。AI Agent有望在多個(gè)領(lǐng)域?qū)崿F(xiàn)實(shí)際應(yīng)用，一些演示產(chǎn)品已經(jīng)表現(xiàn)出色。AI Agent已初步應(yīng)用于各領(lǐng)域，并有望成為AI應(yīng)用的基礎(chǔ)架構(gòu)，涵蓋toC、toB等產(chǎn)品領(lǐng)域。

Al Agent 可能的應(yīng)用領(lǐng)域

2、2B+垂類 Agent 認(rèn)知正在形成，有望率先落地

AI Agents在2B和垂直領(lǐng)域有望率先實(shí)現(xiàn)實(shí)際應(yīng)用。由于Agent對環(huán)境反饋的依賴性，特定的企業(yè)環(huán)境更適合Agent建立對某一垂直領(lǐng)域認(rèn)知。傳統(tǒng)企業(yè)與AI結(jié)合應(yīng)用主要集中在流程任務(wù)自動化，而Agent能夠進(jìn)一步提升一線員工工作質(zhì)量。通過將企業(yè)在私域業(yè)務(wù)上的知識傳授給Agent，使其成為領(lǐng)域的虛擬專家，指導(dǎo)并幫助一線員工。從時(shí)間角度看，經(jīng)驗(yàn)豐富的高級員工需要長時(shí)間培養(yǎng)，而訓(xùn)練得到的垂類Agent可以低成本規(guī)模化復(fù)制。

大模型時(shí)代的到來加速AI技術(shù)平民化，未來5-10年內(nèi)AI智能成本有望迅速降低，從而實(shí)現(xiàn)企業(yè)為每一位員工搭配Agent愿景。用戶對Agent的認(rèn)知逐漸形成，初創(chuàng)企業(yè)正在積極布局。盡管AI Agent的未來形態(tài)尚未確定，但用戶對Agent的關(guān)注度正在上升，對于提升效率的認(rèn)知也在形成。未來幾年可能涌現(xiàn)出大量以Agent為核心的產(chǎn)品應(yīng)用于各行各業(yè)。

四、龍頭企業(yè)公司

大模型賦能讓進(jìn)一步智能化的 AI Agent 成為可能。具備底層大模型算法技術(shù)的公司以及相關(guān)的應(yīng)用軟件公司有望基于 AI Agent 實(shí)現(xiàn)應(yīng)用的落地。

1、OpenAI：OpenAI GPTs 展現(xiàn) AI Agent 初級形態(tài)

GPTs+Assistants API為用戶提供創(chuàng)建自定義AI Agent的簡便途徑。通過自然語言構(gòu)建專屬GPT，整合個(gè)性化知識，并通過API調(diào)用外部功能，使每個(gè)人都有可能擁有自己的人工智能助理。

在GPTs方面，OpenAI推出自定義GPT功能，用戶可添加知識、操作和說明，并選擇私有、專屬或公開發(fā)布。企業(yè)版用戶還可為特定客戶或部門創(chuàng)建專屬ChatGPT。通過GPT Builder，用戶可以以自然語言交互方式創(chuàng)建自定義的GPT，大幅降低開發(fā)門檻，GPT應(yīng)用生態(tài)正在迅速發(fā)展。

另一方面，Assistants API是OpenAI專為開發(fā)者設(shè)計(jì)的全面API開發(fā)助手。提供代碼解釋器、檢索和函數(shù)調(diào)用等功能，代碼解釋器支持在沙盒中編寫和運(yùn)行Python代碼，檢索功能增強(qiáng)助手的知識，而函數(shù)調(diào)用允許助手調(diào)用開發(fā)者定義的函數(shù)，并將函數(shù)響應(yīng)合并到消息中。

OpenAl發(fā)布的官方 GPTs

OpenAI即將推出GPT Store成為官方應(yīng)用商店，為用戶提供GPT iPhone時(shí)代可能性。在插件系統(tǒng)基礎(chǔ)上升級，GPT Store將允許開發(fā)者分享和提交自定義GPTs，驗(yàn)證后可供用戶下載使用，并由此創(chuàng)造收入將與OpenAI共享。插件系統(tǒng)已經(jīng)開放70多個(gè)插件，包括網(wǎng)頁創(chuàng)建、視頻編輯、數(shù)據(jù)分析等功能。自ChatGPT推出以來，已有超過200萬開發(fā)者使用API，92%的財(cái)富500強(qiáng)公司也在使用API，周活躍用戶已超過1億。

2、科大訊飛：訊飛構(gòu)建星火助手生態(tài)

訊飛星火插件推出AI工具集市，將第三方生產(chǎn)力工具整合到訊飛星火SparkDesk和星火App中。這些插件實(shí)現(xiàn)對大模型的即時(shí)信息更新和互聯(lián)網(wǎng)接入，消除數(shù)據(jù)集滯后問題有很大幫助。同時(shí)，插件擴(kuò)展模型應(yīng)用場景，使其適應(yīng)更多場景和需求，并支持企業(yè)私有化部署，確保內(nèi)部信息隱私和安全。目前，訊飛星火已接入8款插件，包括PPT生成、文檔問答、簡歷生成、ProcessOn、智能翻譯、內(nèi)容運(yùn)營、AI面試官、郵件生成等，覆蓋18個(gè)主要應(yīng)用場景，如營銷、工具、旅游、購物、教育和招聘。

星火插件為大模型賦能助力

3、昆侖萬維：昆侖發(fā)布天工 SkyAgents

昆侖萬維于12月1日正式發(fā)布基于“天工大模型”的全新平臺“天工 SkyAgents”，旨在幫助用戶構(gòu)建具有自主學(xué)習(xí)和獨(dú)立思考能力的AI個(gè)人助理。該平臺涵蓋從感知到?jīng)Q策再到執(zhí)行的全方位智能，用戶可以通過自然語言構(gòu)建個(gè)性化的“私人助理”，實(shí)現(xiàn)協(xié)同作業(yè)，跨部門和業(yè)務(wù)流程進(jìn)行信息整合與傳遞，為每個(gè)用戶提供智能管理助手。此外，平臺采用任務(wù)模塊化的方式，類似操作系統(tǒng)的模塊，覆蓋問題預(yù)設(shè)、指定回復(fù)、知識庫創(chuàng)建與檢索、意圖識別、文本提取、HTTP請求等多個(gè)任務(wù)方面。

SkyAgents 六大優(yōu)勢

SkyAgents的使用無需編碼，用戶能夠通過可視化設(shè)計(jì)自主定義和配置AI Agent的行為，使搭建過程變得簡單高效。昆侖萬維通過簡化開發(fā)流程和降低技術(shù)門檻，讓所有開發(fā)者都能輕松創(chuàng)建自己的個(gè)性化AI。平臺提供多種AI能力模塊組件，覆蓋工作、編輯、金融、寫作、助手、翻譯、營銷、生活等多個(gè)應(yīng)用場景。用戶還可以建立個(gè)人的“我的Agents”列表，方便管理和使用。

4、拓爾思：“拓天大模型”發(fā)布，AIGC 業(yè)務(wù)加速進(jìn)展及落地

公司專注于NLP、知識圖譜、OCR、圖像視頻結(jié)構(gòu)化等多模態(tài)內(nèi)容處理底層技術(shù)，構(gòu)建全面的多模態(tài)人工智能產(chǎn)品體系，為客戶提供文本、音視頻、多模態(tài)等全棧服務(wù)。AIGC業(yè)務(wù)實(shí)現(xiàn)營收782.18萬元同比增長206.02%，主要應(yīng)用于消保報(bào)告自動生成和媒體智能輔助寫稿等領(lǐng)域。

公司當(dāng)前致力于研發(fā)拓天大模型Agent技術(shù)，側(cè)重提升Agent的任務(wù)規(guī)劃、記憶、外部工具使用、多Agent協(xié)同等能力。拓天大模型主要服務(wù)金融、媒體、政務(wù)等領(lǐng)域，公司建立基于各行業(yè)的主題數(shù)據(jù)庫，為不同行業(yè)提供整合大模型產(chǎn)品，包括內(nèi)容生成、多輪對話、語義理解、跨模態(tài)交互、知識型搜索、邏輯推理、安全合規(guī)、數(shù)學(xué)計(jì)算、編程能力和插件擴(kuò)展等基礎(chǔ)能力。

5、彩訊股份：國產(chǎn)郵箱領(lǐng)軍者，AI、信創(chuàng)鑄就新機(jī)遇

公司初期專注基礎(chǔ)互聯(lián)網(wǎng)業(yè)務(wù)，后轉(zhuǎn)型為產(chǎn)業(yè)互聯(lián)網(wǎng)技術(shù)及服務(wù)提供商，聚焦協(xié)助企業(yè)打造新型產(chǎn)品和渠道。在信創(chuàng)領(lǐng)域，公司的Richmail郵箱產(chǎn)品成為國內(nèi)主力，其信創(chuàng)適配與數(shù)據(jù)安全技術(shù)領(lǐng)先，已被中央集采郵箱項(xiàng)目采用，并備受政企客戶好評。

隨著大模型技術(shù)發(fā)展，公司在AI技術(shù)領(lǐng)域布局，于2023年發(fā)布了下一代智能郵箱demo產(chǎn)品，具備秘書級主動服務(wù)、大模型信息整合處理及跨域信息獲取與存儲等核心功能，提升日常郵件辦公效率超過20%。

6、金山辦公：AIGC+Copilot+Insight 三箭齊發(fā)，AI 全面賦能 WPS 八大應(yīng)用

金山辦公是國內(nèi)領(lǐng)先的辦公軟件及服務(wù)提供商，旗下產(chǎn)品包括WPS Office、金山文檔、WPS 365和WPS AI等，具備全球競爭力，毛利率長期保持在80%以上。公司持續(xù)投入高強(qiáng)度研發(fā)，并在行業(yè)信創(chuàng)和辦公軟件數(shù)智化趨勢下，WPS AI與WPS 365預(yù)計(jì)將迎來新的黃金發(fā)展期。

WPS AI是國內(nèi)首個(gè)實(shí)現(xiàn)AI+辦公軟件的產(chǎn)品，擁有三層次產(chǎn)品結(jié)構(gòu)，包括AIGC輔助文章生成、Copilot實(shí)現(xiàn)自動操作和Insight提供個(gè)性化知識庫檢索。WPSAI已經(jīng)在WPS的八大應(yīng)用中實(shí)現(xiàn)全面賦能，涵蓋文檔、表格、文字和演示，通過公測展示在各個(gè)場景中的出色表現(xiàn)，實(shí)現(xiàn)工作自動化和智能化，提高用戶效率和產(chǎn)品體驗(yàn)。

WPS AI整合外部和自研模型，采用混合部署策略。與百度文心一言、MiniMax、智譜 AI、科大訊飛、阿里等廠商建立合作關(guān)系，同時(shí)公司自研的7B和13B模型共同支持WPS AI功能，提高在特定場景中的推理效率和性價(jià)比，也滿足具備私有化部署需求的客戶。

六、AI Agent 可能面臨的挑戰(zhàn)

1、安全與隱私

智能體的安全性和隱私性直接關(guān)系到用戶和社會的信任和保護(hù)。如OpenAI的GPTs在發(fā)布后出現(xiàn)的安全漏洞，可能導(dǎo)致用戶數(shù)據(jù)泄露。

2、倫理與責(zé)任

智能體的核心原則包括倫理和責(zé)任，不公平、不透明或不可靠的智能體可能會引起用戶和社會擔(dān)憂。此外，責(zé)任的明確歸屬是重要的議題。

3、經(jīng)濟(jì)和社會影響

智能體的發(fā)展對未來工作和社會就業(yè)產(chǎn)生影響。例如，智能體平臺可能對傳統(tǒng)自由職業(yè)者造成沖擊，而在社會工作中，雇主可能更趨向于減少人力投入，這引發(fā)對智能體技術(shù)對職業(yè)生涯的長期影響的關(guān)注。

未來3年，AI Agent能在哪些場景

為企業(yè)帶來業(yè)務(wù)增長與變革

一、AI Agent在企業(yè)內(nèi)的落地方式

盡管AI Agent的概念自今年五、六月份開始引起關(guān)注，并在國外涌現(xiàn)多個(gè)實(shí)際應(yīng)用場景和案例，但從企業(yè)用戶、廠商和學(xué)術(shù)界的角度來看，對AI Agent的定義存在差異。在企業(yè)用戶實(shí)施AI Agent的具體方案中，大致將其分為兩類。

1、與整體大模型能力建設(shè)密切相關(guān)的方案。企業(yè)用戶通常認(rèn)為大模型適用于多種場景，傾向于從中臺或能力層次來考慮大模型的運(yùn)用。例如，某股份制銀行表示計(jì)劃在明年在六到七個(gè)特定場景中使用大模型，強(qiáng)調(diào)需要構(gòu)建整體大模型能力。

2、AI Agent在具體應(yīng)用場景中的應(yīng)用，如問答、運(yùn)維管理、客服、數(shù)字人等，以及與RPA結(jié)合用于流程自動化，擔(dān)任招聘助理、人力資源助理、財(cái)務(wù)助理等。

這兩類方案指引企業(yè)用戶在大模型部署中的不同方向，同時(shí)需要注意AI Agent是被視為一種能力建設(shè)還是一個(gè)具體的應(yīng)用場景建設(shè)。

二、打造Agent中臺，建設(shè)大模型能力

AI Agent架構(gòu)的核心組件聚焦于四個(gè)關(guān)鍵因素：長短時(shí)記憶、相關(guān)配置工具、整體實(shí)現(xiàn)路徑規(guī)劃和最終執(zhí)行。在底層能力方面，依賴于大模型的支持，而這些模型可以是通用、商業(yè)或?qū)儆?xùn)練的。

在能力組件層面，AI Agent包括多種通用能力組件，如多模態(tài)檢索、內(nèi)容生成，以及Text to SQL、Text to Chart、Text to BI等數(shù)據(jù)分析中的處理能力。記憶組件主要依賴于向量數(shù)據(jù)庫和實(shí)時(shí)數(shù)據(jù)庫，賦予Agent特定的記憶功能。AI Agent借鑒RPA機(jī)器人的整體構(gòu)建思路，涵蓋單個(gè)設(shè)計(jì)、整體執(zhí)行、執(zhí)行環(huán)節(jié)實(shí)現(xiàn)以及用戶端互動。

在構(gòu)建AI Agent的整體平臺時(shí)，企業(yè)需考慮資源投入、底層計(jì)算能力、產(chǎn)品工具以及擁有深厚NLP經(jīng)驗(yàn)的團(tuán)隊(duì)。不過，大多數(shù)企業(yè)在初期可能不需直接進(jìn)行這樣的建設(shè)，而可專注于實(shí)際應(yīng)用的需求。

三、AI Agent未來應(yīng)用場景規(guī)劃

企業(yè)通過AI Agent在四個(gè)方向中尋求不同的價(jià)值：變革類、增收類、體驗(yàn)類和降本類。盡管變革和增收是更大的價(jià)值所在，當(dāng)前許多公司，特別是面向消費(fèi)者的企業(yè)，更傾向于體驗(yàn)類價(jià)值，因?yàn)閷端用戶具有高比重，并通過提升用戶體驗(yàn)收集更多交互數(shù)據(jù)。

在技術(shù)方面，Agent的能力組件包括記憶、相關(guān)配置工具、實(shí)現(xiàn)路徑規(guī)劃和執(zhí)行。對于大模型的支持，特別是記憶組件的建設(shè)，仍面臨挑戰(zhàn)，但體驗(yàn)類場景為企業(yè)提供收集用戶交互數(shù)據(jù)的機(jī)會，彌補(bǔ)一些企業(yè)在數(shù)據(jù)建設(shè)方面的不足。

在應(yīng)用方面，辦公助理和知識庫問答是實(shí)際應(yīng)用較好的領(lǐng)域，而面向整個(gè)公司層面的應(yīng)用尚有提升空間。運(yùn)維管理、客服領(lǐng)域以及數(shù)據(jù)分析被認(rèn)為是未來重要的發(fā)展方向。數(shù)據(jù)分析的價(jià)值在于滿足短期和長期的管理和業(yè)務(wù)需求，促使企業(yè)建立更完善的數(shù)據(jù)文化，提升決策依據(jù)。零售場景的導(dǎo)購賦能和銷售賦能也被認(rèn)為是未來帶來收入增長的關(guān)鍵領(lǐng)域。

大型模型訓(xùn)練

GPU 內(nèi)存需求與優(yōu)化筆記

在處理大型模型時(shí)，必須綜合考慮計(jì)算能力、內(nèi)存使用以及GPU的適配情況。這不僅影響GPU在推理大型模型時(shí)的性能，還直接決定在訓(xùn)練集群中可用的總GPU內(nèi)存，從而對能夠訓(xùn)練的模型規(guī)模產(chǎn)生影響。

推理大型模型的內(nèi)存計(jì)算只需考慮模型權(quán)重。而在進(jìn)行大型模型訓(xùn)練時(shí)，內(nèi)存計(jì)算則需要考慮模型權(quán)重、反向傳播的梯度、優(yōu)化器所需的內(nèi)存以及正向傳播的激活狀態(tài)內(nèi)存。

以ChatGLM-6B為例，其參數(shù)設(shè)置包括隱藏層神經(jīng)元數(shù)量（hidden_size）為4096，層數(shù)（num_layers）為28，token長度為2048，注意力頭數(shù)（attention heads）為32。下面將詳細(xì)講解如何計(jì)算推理內(nèi)存和訓(xùn)練內(nèi)存。

一、推理內(nèi)存

1、模型權(quán)重

對于不同精度的模型內(nèi)存計(jì)算，可以使用以下簡化規(guī)則：

int8精度模型內(nèi)存=參數(shù)量的1倍（6GB）

fp16和bf16精度模型內(nèi)存=參數(shù)量的2倍（12GB）

fp32精度模型內(nèi)存=參數(shù)量的4倍（24GB）

因?yàn)? GB ≈ 1B字節(jié)，這種簡化規(guī)則使得估算ChatGLM-6B模型在不同精度下的內(nèi)存需求更為便捷。

2、推理總內(nèi)存

在進(jìn)行前向傳播時(shí)，除了用于存儲模型權(quán)重的內(nèi)存之外，通常會有一些額外的開銷。根據(jù)以往經(jīng)驗(yàn)，通常被控制在總內(nèi)存的20%以內(nèi)。因此，可以估算推理總內(nèi)存≈1.2×模型內(nèi)存。

二、訓(xùn)練

1、模型權(quán)重

模型權(quán)重的內(nèi)存需求在訓(xùn)練階段涉及不同精度的訓(xùn)練，包括純fp32、純fp16以及混合精度（fp16/bf16 + fp32）：

純fp32訓(xùn)練模型內(nèi)存=4 * 參數(shù)量（字節(jié)）

純fp16訓(xùn)練模型內(nèi)存=2 * 參數(shù)量（字節(jié)）

混合精度訓(xùn)練（fp16/bf16 + fp32）模型內(nèi)存=2 * 參數(shù)量（字節(jié)）

對于ChatGLM-6B，這意味著：

純fp32訓(xùn)練模型內(nèi)存=4 * 6GB=24GB

純fp16訓(xùn)練模型內(nèi)存=2 * 6GB=12GB

混合精度訓(xùn)練模型內(nèi)存=2 * 6GB=12GB

這樣的設(shè)定允許在訓(xùn)練過程中選擇不同的精度，權(quán)衡模型性能和內(nèi)存開銷。

2、優(yōu)化器狀態(tài)

不同優(yōu)化器在內(nèi)存使用上有不同的計(jì)算方式：

純AdamW優(yōu)化器內(nèi)存=12 * 參數(shù)量（字節(jié)）

8位優(yōu)化器（如bitsandbytes）內(nèi)存=6 * 參數(shù)量（字節(jié)）

帶動量的類SGD優(yōu)化器內(nèi)存=8 * 參數(shù)量（字節(jié)）

對于ChatGLM-6B，具體內(nèi)存計(jì)算如下：

純AdamW優(yōu)化器內(nèi)存=12 * 6GB=72GB

8位優(yōu)化器內(nèi)存=6 * 6GB=36GB

帶動量的類SGD優(yōu)化器內(nèi)存=8 * 6GB=48GB

這些設(shè)定允許在訓(xùn)練過程中選擇不同的優(yōu)化器，權(quán)衡模型訓(xùn)練速度和內(nèi)存開銷。

3、梯度

梯度的內(nèi)存需求取決于存儲的數(shù)據(jù)類型，通常為fp32或fp16。對于不同的數(shù)據(jù)類型，梯度內(nèi)存的計(jì)算方式如下：

fp32梯度內(nèi)存=4 * 參數(shù)量（字節(jié)）

fp16梯度內(nèi)存=2 * 參數(shù)量（字節(jié)）

對于ChatGLM-6B，具體梯度內(nèi)存計(jì)算如下：

fp32梯度內(nèi)存=4 * 6GB=24GB

fp16梯度內(nèi)存=2 * 6GB=12GB

這些設(shè)定允許在混合精度訓(xùn)練過程中選擇不同的梯度存儲類型，權(quán)衡訓(xùn)練速度和數(shù)值穩(wěn)定性。

訓(xùn)練總內(nèi)存=模型內(nèi)存+優(yōu)化器內(nèi)存+激活內(nèi)存+梯度內(nèi)存 = 12GB + 72GB + 12Gb + 7.8GB = 103GB

AI Agent對算力的需求

解析人工智能發(fā)展中的計(jì)算力挑戰(zhàn)

隨著人工智能技術(shù)的不斷發(fā)展，AI Agent作為其中的關(guān)鍵組成部分，對算力的需求日益增加。下面將深入分析AI Agent對算力的具體需求，以及這一需求在人工智能領(lǐng)域中所帶來的挑戰(zhàn)和影響。

一、AI Agent與算力的密切關(guān)系

AI Agent作為自主智能體，具備學(xué)習(xí)、推理和決策的能力，其運(yùn)行和發(fā)揮功能需要強(qiáng)大的算力支持。在訓(xùn)練階段，AI Agent需要處理大量的數(shù)據(jù)和復(fù)雜的模型，而這就需要大規(guī)模的計(jì)算資源。算力的提供決定模型的規(guī)模、訓(xùn)練速度和推理效率，直接影響到AI Agent的性能和智能水平。

二、AI Agent的算力需求分析

大規(guī)模神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練需要處理龐大的數(shù)據(jù)集和復(fù)雜的模型結(jié)構(gòu)。如GPT-3和BERT，其訓(xùn)練過程更是對算力提出極高要求。隨著模型規(guī)模和復(fù)雜性的不斷增加，AI Agent對算力的需求也呈現(xiàn)出指數(shù)級的增長。大模型在處理更多參數(shù)和更復(fù)雜的模型結(jié)構(gòu)時(shí)能夠獲得更好的性能，但這也帶來訓(xùn)練和推理時(shí)的計(jì)算負(fù)擔(dān)。硬件供應(yīng)商和云服務(wù)提供商需要不斷提升計(jì)算資源的性能和規(guī)模，以滿足Agent日益增加的需求。

除訓(xùn)練過程，AI Agent在推理和實(shí)時(shí)決策中同樣對算力有著高效響應(yīng)需求。在處理實(shí)時(shí)數(shù)據(jù)和作出即時(shí)決策情境下，算力的快速響應(yīng)成為保證Agent高效運(yùn)行關(guān)鍵因素。這對硬件架構(gòu)和計(jì)算資源的設(shè)計(jì)提出更高的要求，需要實(shí)現(xiàn)低延遲和高吞吐量。

AI Agent算力需求不僅僅影響到硬件供應(yīng)鏈，還對云服務(wù)行業(yè)和數(shù)據(jù)中心產(chǎn)業(yè)產(chǎn)生深遠(yuǎn)影響。云服務(wù)提供商需要提供彈性的計(jì)算資源，以適應(yīng)用戶對于AI Agent使用的不斷增長。數(shù)據(jù)中心的設(shè)計(jì)和運(yùn)維也需要根據(jù)算力需求的變化進(jìn)行不斷優(yōu)化和升級。

三、大模型訓(xùn)練常用配置推薦

1、處理器CPU:

- Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

- Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

- Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W

- Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W

- AMD EPYC? 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W

-AMD EPYC? 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W

2、顯卡GPU：

- NVIDIA L40S GPU 48GB

- NVIDIA NVLink-A100-SXM640GB

- NVIDIA HGX A800 80GB

- NVIDIA Tesla H800 80GB HBM2

- NVIDIA A800-80GB-400Wx8-NvlinkSW

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
31753

瀏覽量
270542
Agi

Agi

+關(guān)注

關(guān)注
0

文章
88

瀏覽量
10261
算力

算力

+關(guān)注

關(guān)注
1

文章
1023

瀏覽量
14983
模型訓(xùn)練

模型訓(xùn)練

+關(guān)注

關(guān)注
0

文章
20

瀏覽量
1369
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2613

瀏覽量
3232

大模型遭遇算力墻,探索超級應(yīng)用的發(fā)展路徑

最近，開源中國 OSCHINA、Gitee 與 Gitee AI? 全文如下：大模型撞上 “算力墻”，超級應(yīng)用的探尋之路文 / 傅聰近日，大模

發(fā)表于 02-10 17:24 ?69次閱讀

AI算力：智能時(shí)代的核心驅(qū)動力

引言在當(dāng)今數(shù)字化時(shí)代，算力的重要性不言而喻。12月28日，央視和國務(wù)院國資委聯(lián)合制作的紀(jì)錄片《大國基石》第三期《

發(fā)表于 01-22 12:58 ?208次閱讀

【書籍評測活動NO.55】AI Agent應(yīng)用與項(xiàng)目實(shí)戰(zhàn)

的一些日程預(yù)測性地調(diào)整了今天的工作安排。在近日的Agent OpenDay上，智譜AI展示了在AI Agent（智能體）方面最新成果，發(fā)布了用AI

發(fā)表于 01-13 11:04

企業(yè)AI算力租賃模式的好處

構(gòu)建和維護(hù)一個(gè)高效、可擴(kuò)展的AI算力基礎(chǔ)設(shè)施，不僅需要巨額的初期投資，還涉及復(fù)雜的運(yùn)維管理和持續(xù)的技術(shù)升級。而AI

發(fā)表于 12-24 10:49 ?299次閱讀

企業(yè)AI算力租賃是什么

企業(yè)AI算力租賃是指企業(yè)通過互聯(lián)網(wǎng)向?qū)I(yè)的算力提供商租用所需的計(jì)算資源，以滿足其AI應(yīng)用的需求。

發(fā)表于 11-14 09:30 ?1240次閱讀

AI時(shí)代算力的重要性及現(xiàn)狀:平衡發(fā)展與優(yōu)化配置的挑戰(zhàn)

在AI時(shí)代，算力扮演著至關(guān)重要的角色。如果說數(shù)據(jù)是AI大模型的“燃料”，那么

發(fā)表于 11-04 11:45 ?642次閱讀

【「大模型時(shí)代的基礎(chǔ)架構(gòu)」閱讀體驗(yàn)】+ 未知領(lǐng)域的感受

國慶前就收到《大模型時(shí)代的基礎(chǔ)架構(gòu)》一書，感謝電子發(fā)燒友論壇。歡度國慶之余，今天才靜下心來體驗(yàn)此書，書不厚，200余頁，彩色圖例，印刷精美！當(dāng)初申請此書，主要是看到副標(biāo)題“大模型算

發(fā)表于 10-08 10:40

大模型時(shí)代的算力需求

現(xiàn)在AI已進(jìn)入大模型時(shí)代，各企業(yè)都爭相部署大模型，但如何保證大模型的算

發(fā)表于 08-20 09:04

名單公布！【書籍評測活動NO.41】大模型時(shí)代的基礎(chǔ)架構(gòu)：大模型算力中心建設(shè)指南

工作日內(nèi)未聯(lián)系，視為放棄本次試用評測資格！書籍介紹大模型是近年來引人注目的熱點(diǎn)之一。大模型蓬勃發(fā)展的基礎(chǔ)，是針對其需求設(shè)計(jì)的算力及基礎(chǔ)架構(gòu)。本書針對如何為大

發(fā)表于 08-16 18:33

大模型應(yīng)用之路：從提示詞到通用人工智能（AGI）

鋪平道路。基于AI大模型的推理功能，結(jié)合了RAG（檢索增強(qiáng)生成）、智能體（Agent）、知識庫、向量數(shù)據(jù)庫、知識圖譜等先進(jìn)技術(shù)，我們向?qū)崿F(xiàn)真正的AGI（通用人工智能）邁出了重要步伐。

發(fā)表于 06-14 10:20 ?2405次閱讀

DPU技術(shù)賦能下一代AI算力基礎(chǔ)設(shè)施

4月19日，在以“重構(gòu)世界奔赴未來”為主題的2024中國生成式AI大會上，中科馭數(shù)作為DPU新型算力基礎(chǔ)設(shè)施代表，受邀出席了中國智算中心創(chuàng)

發(fā)表于 04-20 11:31 ?946次閱讀

液冷是大模型對算力需求的必然選擇？｜英偉達(dá) GTC 2024六大亮點(diǎn)

在這個(gè)以高性能計(jì)算和大模型推動未來通用人工智能時(shí)代，算力已成為科技發(fā)展的隱形支柱。本文將重點(diǎn)探討算

發(fā)表于 04-10 12:57 ?708次閱讀

一圖看懂星河AI數(shù)據(jù)中心網(wǎng)絡(luò)，全面釋放AI時(shí)代算力

華為中國合作伙伴大會 | 一圖看懂星河AI數(shù)據(jù)中心網(wǎng)絡(luò)，以網(wǎng)強(qiáng)算，全面釋放AI時(shí)代算力

發(fā)表于 03-22 10:28 ?846次閱讀

大算力時(shí)代, 如何打破內(nèi)存墻

設(shè)計(jì)的不斷革新，進(jìn)入了大算力時(shí)代。目前，主流AI芯片的架構(gòu)仍然沿用了傳統(tǒng)的馮·諾依曼模型，這一設(shè)計(jì)將計(jì)算單元與數(shù)據(jù)存儲分離。在這種架構(gòu)下，

發(fā)表于 03-06 19:51 ?361次閱讀

數(shù)據(jù)語料庫、算法框架和算力芯片在AI大模型中的作用和影響

數(shù)據(jù)語料庫、算法框架和算力芯片的確是影響AI大模型發(fā)展的三大重要因素。

發(fā)表于 03-01 09:42 ?1333次閱讀