1、AI Agent的定義與概念內(nèi)涵
在2023年3月,AutoGPT橫空出世,那時人們開始接觸AI Agent,但對其并不了解。7月份,OpenAI的翁麗蓮發(fā)表了一篇名為《LLM Powered Autonomous AI Agents》的博文,詳細(xì)介紹了基于大語言模型的AI Agent的技術(shù)架構(gòu),被認(rèn)為是目前比較理想的技術(shù)架構(gòu)。
該架構(gòu)包括基礎(chǔ)規(guī)劃、工具使用等模塊,再加上大語言模型,共四個模塊,通過使用工具,最后采取行動,基本構(gòu)成如下圖。
![]()
關(guān)于智能體的概念,很多組織從不同角度出發(fā),給出了很多定義。比如IBM將AI Agent定義為一個自主執(zhí)行任務(wù)的系統(tǒng)或程序。Anthropic最近也對AI Agent下了一個簡潔定義:AI Agent是大語言模型動態(tài)指導(dǎo)自己的流程和工具使用的系統(tǒng),保持對完成任務(wù)方式的控制。
現(xiàn)在我們所說的AI Agent,基本都是基于大語言模型的,也就是LLM Based Agent。
目前,業(yè)界對復(fù)旦大學(xué)NLP團(tuán)隊提出的定義比較認(rèn)可,即AI Agent是一種能夠感知環(huán)境、進(jìn)行決策和執(zhí)行動作的智能實(shí)體。
![]()
在此定義下,AI Agent主要分為感知、規(guī)劃和行動三部分。感知后開始規(guī)劃,做出決策,然后行動。行動完成后,進(jìn)入觀察環(huán)境的循環(huán),繼續(xù)感知,再進(jìn)一步規(guī)劃、優(yōu)化,最后采取更好的行動,這是最簡潔的AI Agent表達(dá)式。
![]()
該表達(dá)式稱為PPA,即感知、規(guī)劃、行動三個詞的首字母組合。PPA表達(dá)式雖簡單,但包含豐富內(nèi)容。感知涵蓋人體五覺及其他延伸感觸;規(guī)劃包括目標(biāo)設(shè)定、信息收集、分析等;行動則涉及利用工具、合作溝通等,行動本身還可進(jìn)一步拓展。
2、還有很多人在問AI Agent與大模型的區(qū)別
大模型聚焦語言處理,以文本交互被動響應(yīng)指令,應(yīng)用于內(nèi)容生成等場景;AI Agent以LLM為核心,具備多模態(tài)交互和自主執(zhí)行能力,可完成跨場景復(fù)雜任務(wù)。
兩者的區(qū)別,可以體現(xiàn)于定義與目標(biāo)、核心能力、應(yīng)用場景、技術(shù)實(shí)現(xiàn)、局限性等幾個方面,詳情見下圖。
![]()
3、解決應(yīng)用落地問題:從單智能體到多智能體
AI Agent的終極設(shè)計目標(biāo)是要打造真正自主執(zhí)行各種任務(wù)并能夠?qū)W習(xí)進(jìn)化的智能體,但限于當(dāng)前大語言模型及AI Agent本身的技術(shù)限制,目前還達(dá)不到這個目標(biāo)。
要解決這個問題,要么實(shí)際把大場景跨應(yīng)用的業(yè)務(wù)細(xì)分化,針對細(xì)分場景設(shè)計智能體,因此產(chǎn)生了垂直智能體。垂直智能體可以垂直于業(yè)務(wù)場景,也可以垂直于一行細(xì)分領(lǐng)域,但垂直于一個領(lǐng)域的更有可能是多智能體。
多智能體架構(gòu)也是智能體在復(fù)雜業(yè)務(wù)場景應(yīng)用的解決方案,把一個復(fù)雜場景分解為多個簡單任務(wù),讓不同角色的智能體去執(zhí)行不同的任務(wù),并且這些任務(wù)還可以無限的細(xì)分下去,讓更多的智能體調(diào)用不同的工具去執(zhí)行,進(jìn)而產(chǎn)生了智能體網(wǎng)絡(luò),并衍生出群體智能。
![]()
4、智能體的四種設(shè)計方式
吳恩達(dá)教授提出的智能體設(shè)計方法有四種:反思(Reflection)、工具使用(Tool Use)、規(guī)劃(Planning)和多智能體協(xié)作(Multi-agent Collaboration),多智能體協(xié)作正是其中之一。
從這四種設(shè)計方式而言,現(xiàn)在的大語言模型尤其是推理模型能夠反思、規(guī)劃和進(jìn)行簡單的工具使用,都可以算是智能體。
![]()
5、Agentic workflow
受限于當(dāng)年的技術(shù)條件與企業(yè)復(fù)雜應(yīng)用環(huán)境,這些智能體設(shè)計方式仍然不能滿足企業(yè)需求,企業(yè)需要的是把大模型和智能體真正融入業(yè)務(wù)運(yùn)營的流程中,Agentic workflow便應(yīng)運(yùn)而生。
Agentic workflow通過工作流編排把大模型、ERP、CRM等系統(tǒng)及API、數(shù)據(jù)等工具封裝為智能體、AI應(yīng)用或者解決方案,可以解決大量的業(yè)務(wù)流程自動化,但仍然需要人工進(jìn)行各種功能的預(yù)制構(gòu)建,更像是一種LLM賦能的低代碼工具,感覺這種方式很不Agent,距離自主智能體越來越遠(yuǎn)了,是不是?
![]()
6、通用智能體
技術(shù)圈一直都在探索真正的自主智能體,直到前段時間Manus的出現(xiàn),雖然到現(xiàn)在還拿不到邀請碼,但它讓大家看到了自主智能體的雛形,即便執(zhí)行一個任務(wù)需要幾十分鐘乃至更長的時間。manus號稱全球第一個通用智能體,這個概念也跟著manus火了起來。但一些人并不認(rèn)同,至于為什么,這點(diǎn)我們后面再講。
![]()
目前通用智能體(General AI Agent)被看作是一種能夠自主執(zhí)行任務(wù)、進(jìn)行復(fù)雜決策并適應(yīng)多種環(huán)境的高級人工智能系統(tǒng)。從當(dāng)前智能體產(chǎn)品形態(tài)來看,可以分為兩類:
一類是被稱為computer use Agent的類似Manus的產(chǎn)品,采用大模型(推理模型+多模態(tài)模型)+API模式,通過屏幕截圖來識別屏幕元素,以API接口調(diào)用各種工具執(zhí)行任務(wù)。
另一類是在RPA等流程自動化工具基礎(chǔ)上融合AI Agent架構(gòu)并把RPA當(dāng)作超級工具的Agent,這類產(chǎn)品基于原有業(yè)務(wù)流程自動化技術(shù)的沉淀,適配大模型、RAG、屏幕識別等技術(shù),實(shí)現(xiàn)智能體流暢操作電腦上各種應(yīng)用。
![]()
受大模型能力、技術(shù)架構(gòu)、工作模式等因素的影響,目前第一類通用AI Agent在體驗(yàn)上并不是很好,等待時間長,任務(wù)執(zhí)行能力差,效果不可控。第二類通用AI Agent因?yàn)镽PA本身就已經(jīng)與PC、手機(jī)等終端有了很好的融合與適配,體驗(yàn)上比前者要好很多
![]()
前面簡單介紹最近兩年AI Agent發(fā)展的基本路徑。其實(shí)所有問題的原點(diǎn),最終還要回到大模型上。LLM Based Agent的能力與功能取決于LLM的性能,如果大模型能力足夠強(qiáng)大,智能體也就能做到勝任更多業(yè)務(wù)場景。當(dāng)然大模型足夠強(qiáng)大了,可能也就不需要智能體了,這個涉及到了模型即應(yīng)用,后面會講。
![]()
所以像DeepSeek R1、通義千問 QwQ-32B、文心一言 X1、混元 T1這樣的高質(zhì)推理模型的出現(xiàn),對AI Agent性能與功能的提升有著很大的賦能,這里總結(jié)了幾點(diǎn):
DeepSeek通過提升AI Agent的推理決策、規(guī)劃執(zhí)行、工具調(diào)用、交互擬人化及多模態(tài)個性化能力,推動其“五感”交互自然化,為具身智能發(fā)展奠基。
在設(shè)計模式上,AI Agent的反思、工具使用、規(guī)劃和協(xié)作能力因推理模型而增強(qiáng),能更合理分配任務(wù),提升執(zhí)行效率。
應(yīng)用層面,DeepSeek支持本地化部署,保障數(shù)據(jù)隱私,打破標(biāo)準(zhǔn)化場景限制,向戰(zhàn)略決策和復(fù)雜業(yè)務(wù)優(yōu)化延伸。
開發(fā)部署方面,其開源技術(shù)降低成本,助力中小開發(fā)者創(chuàng)新,提升市場競爭力。通過算法創(chuàng)新和訓(xùn)推范式革新,DeepSeek降低算力消耗,實(shí)現(xiàn)大規(guī)模部署的經(jīng)濟(jì)可行性。
用戶體驗(yàn)上,DeepSeek讓AI Agent對話更自然智能,提升客戶服務(wù)場景中的復(fù)雜查詢處理能力。
產(chǎn)業(yè)生態(tài)方面,以推理大模型為核心的分層技術(shù)生態(tài)形成,推動跨行業(yè)協(xié)作與標(biāo)準(zhǔn)化,企業(yè)可快速接入實(shí)現(xiàn)數(shù)據(jù)價值挖掘。
在市場競爭格局中,DeepSeek的技術(shù)突破助力中國從AI規(guī)則接受者向標(biāo)準(zhǔn)共治者轉(zhuǎn)變,其開源和國產(chǎn)化優(yōu)勢有望重塑全球AI Agent市場格局。
詳情內(nèi)容,見下圖。
![]()
![]()
![]()
1、Manus的技術(shù)構(gòu)成
Manus的技術(shù)構(gòu)成可分為四個核心模塊與實(shí)現(xiàn)機(jī)制:多代理協(xié)同架構(gòu)、模型調(diào)度與優(yōu)化、動態(tài)任務(wù)調(diào)度引擎及安全與穩(wěn)定性支撐。
這一架構(gòu)通過工具鏈整合優(yōu)化而非底層模型創(chuàng)新,實(shí)現(xiàn)了從任務(wù)理解到結(jié)果交付的全鏈路自主執(zhí)行,同時兼顧效率與成本優(yōu)勢。
![]()
從官方視頻展示來看,Manus可以用于零售與電商、金融、教育與研究等領(lǐng)域的多種應(yīng)用場景。我在書里介紹了智能體在多個領(lǐng)域的應(yīng)用,在技術(shù)部分提到了相關(guān)技術(shù)架構(gòu),在智能體技術(shù)發(fā)展趨勢和應(yīng)用發(fā)展趨勢方面也有介紹多智能體,可以幫助讀者理解這種智能體。
![]()
Manus技術(shù)架構(gòu)通過工具鏈整合優(yōu)化而非底層模型創(chuàng)新,雖然大家對它的評價褒貶不一,但作為通用智能體,它還是為行業(yè)帶來了不少的啟示。這些啟示,主要體現(xiàn)在產(chǎn)業(yè)協(xié)作革新、生產(chǎn)力重構(gòu)、技術(shù)創(chuàng)新轉(zhuǎn)型、開源生態(tài)協(xié)同及倫理與治理挑戰(zhàn)等幾個方面。
![]()
Manus的出圈也證明了能夠自主執(zhí)行相對復(fù)雜任務(wù)的智能體在現(xiàn)階段是可行的,雖然需要耗費(fèi)很多的token和時間。那么接下來肯定會有更多的同類產(chǎn)品出現(xiàn),也會進(jìn)行更多的優(yōu)化與迭代,再加上大語言模型的快速發(fā)展,今年內(nèi)這類智能體的體驗(yàn)應(yīng)該就能有很大的提升。
![]()
1、應(yīng)用現(xiàn)狀:B端傾向知識庫,C端五花八門
頭部企業(yè)采用“企業(yè)大腦”(企業(yè)知識庫)架構(gòu),整合知識資產(chǎn)沉淀、業(yè)務(wù)流程數(shù)字孿生與安全合規(guī)底座,構(gòu)建端到端智能體服務(wù)。中型企業(yè)(100-2000 人)采用率最高達(dá) 63%,因其靈活性和需求迫切。中小型企業(yè)偏好低代碼平臺,通過可視化界面快速開發(fā)自動化工作流。
![]()
非科技行業(yè)(如金融、醫(yī)療)的采用率(90%)已接近科技行業(yè)(89%),顯示出 AI Agent 的普適性。
25% 的企業(yè)已將生成式 AI 與 Agent 結(jié)合部署,預(yù)計到 2027 年這一比例將升至 50% 。中國500強(qiáng)企業(yè)部署AI Agent后,數(shù)據(jù)準(zhǔn)備與分析效率提升58%,決策耗時減少70%68。
小型企業(yè)(4 人以下)AI Agent 使用率增長迅速,從 2023 年 9 月的 4.6% 升至 2025 年的 5.8%,反映了小型企業(yè)在資源有限下對 AI Agent 的依賴,以降低運(yùn)營成本和快速擴(kuò)展 。
個人用戶使用的AI Agent,主要依賴Coze、文心智能體等AI Agent構(gòu)建平臺上Agent或者使用一些廠商提供的開箱即用AI Agent成品,部分用戶使用一些支持AI Agent的AI應(yīng)用客戶端,還有一部分懂技術(shù)的用戶會在本地部署一套包括大模型在內(nèi)的AI Agent系統(tǒng),比如Dify、Ragflow等。
下圖是一些行業(yè)應(yīng)用數(shù)據(jù),其中有實(shí)際應(yīng)用數(shù)據(jù),也有預(yù)測數(shù)據(jù)。
![]()
2、產(chǎn)品現(xiàn)狀
AI Agent發(fā)展到現(xiàn)在,從企業(yè)級角度來其產(chǎn)品形態(tài)可以分為通用型、垂直領(lǐng)域?qū)<倚?、企業(yè)級解決方案三個大類別。
![]()
當(dāng)前的AI Agent產(chǎn)品及服務(wù)形態(tài),大概有以下幾種。其中常見AI Agent產(chǎn)品包括聊天助手、編碼助手、AI搜索等。
![]()
當(dāng)前的AI Agent產(chǎn)品,具備幾個產(chǎn)品通性。
![]()
聊天機(jī)器人如ChatGPT、Kimi、通義千問等已發(fā)展為綜合應(yīng)用類AI Agent,具備工具使用和推理功能。AI搜索和編碼助手是較成功的AI Agent產(chǎn)品,傳統(tǒng)搜索引擎和創(chuàng)業(yè)項目均有相關(guān)產(chǎn)品推出。
C端產(chǎn)品主要集中在AI Agent構(gòu)建平臺上的用戶自建產(chǎn)品,尚未出現(xiàn)大量爆款應(yīng)用。眾多廠商將AI Agent開發(fā)應(yīng)用于B端,提供企業(yè)級解決方案,企業(yè)軟件廠商也紛紛推出相關(guān)產(chǎn)品。
目前,B端是AI Agent紅利的主要領(lǐng)域,因企業(yè)對安全、可信、可控智能體的需求,以及大語言模型存在的問題,使得基于軟件架構(gòu)集成Agent的企業(yè)級產(chǎn)品更受青睞。
市面上的AI Agent多基于特定知識庫或數(shù)據(jù)構(gòu)建,在問答交互方面表現(xiàn)出色,但在程序聯(lián)動和操作,如直接操作ERP系統(tǒng)等方面存在局限。
對于6個產(chǎn)品通性,具體見PPT內(nèi)容。
智能體構(gòu)建平臺
![]()
這里重點(diǎn)說一說智能體構(gòu)建平臺。
智能體構(gòu)建平臺,現(xiàn)在已經(jīng)成為已經(jīng)成為智能體應(yīng)用構(gòu)建與承載的中流砥柱。大家看到的或者體驗(yàn)的很多智能體基本都是通過一些智能體平臺的構(gòu)建的。
目前智能體平臺更多的還是面向開發(fā)者,普通用戶想構(gòu)建適合自身需求的智能體還有一定的門檻,當(dāng)然直接使用開發(fā)者們構(gòu)建的智能體是沒有問題的。
像coze、文心智能體、智譜清言等現(xiàn)在創(chuàng)建和使用已經(jīng)很簡單,能夠?qū)崿F(xiàn)一句話創(chuàng)建一個智能體,當(dāng)然要實(shí)現(xiàn)多智能體、工作流等復(fù)雜的功能仍舊需要一些時間去學(xué)習(xí)、理解和應(yīng)用。所以要想讓更多人更簡單的構(gòu)建和使用智能體,還需要進(jìn)一步降低這個門檻。
在AI應(yīng)用構(gòu)建方面,智能體構(gòu)建平臺初步把智能體改造成了基于LLM的低\無代碼平臺,低\無代碼平臺也正在積極融合Agent技術(shù)升級為Agent構(gòu)建平臺。接下來這類平臺都會先向LLM低\無代碼平臺過渡,再慢慢進(jìn)化為具備更多功能能夠構(gòu)建復(fù)雜智能體的平臺。
產(chǎn)品現(xiàn)狀:產(chǎn)品動態(tài)與發(fā)展趨勢
![]()
很多問答助手都晉級為能夠搜索能調(diào)用簡單工具的增強(qiáng)型問答助手,成為AI Agent。
2年前王吉偉頻道所講的的“大模型Agent化”,現(xiàn)在叫作大語言模型即應(yīng)用(即服務(wù)),是當(dāng)前的主流話題。
大模型都具備較強(qiáng)的推理能力后,DeepReasearch成為大模型Chatbot和搜索引擎的標(biāo)配功能。當(dāng)然大部分產(chǎn)品是在原有產(chǎn)品上使用了Agentic RAG等技術(shù),OpenAI的DeepReasearch則采用了專門訓(xùn)練的模型。
知識庫類的copilot產(chǎn)品,目前都具備搜索、文本處理等功能,后面很有可能會迭代出Agent模式。
語音類Agent與web Agent,將會成為今年爆發(fā)的新品類。
在各種新技術(shù)的加持下,現(xiàn)在任何應(yīng)用場景都能構(gòu)建AI Agent。
3、市場格局:大企業(yè)不斷加碼,創(chuàng)業(yè)項目不斷涌現(xiàn)
市場由主要科技公司和越來越多的初創(chuàng)公司主導(dǎo),競爭環(huán)境激烈。
![]()
AI Agent 市場正在顯著擴(kuò)展,主要受到自動化和效率需求的推動。marketsandmarkets報告數(shù)據(jù)顯示,該市場從 2024 年的 51 億美元增長到預(yù)計 2030 年的 471 億美元,復(fù)合年增長率為 44.8% 。
初創(chuàng)公司和細(xì)分市場參與者:CB Insights 市場地圖識別出超過 170 家初創(chuàng)公司,包括 Harvey,該公司在 2025 年 2 月以 30 億美元估值融得 3 億美元,專注于法律 AI 代理 The AI agent market map。其他值得注意的初創(chuàng)公司包括 CrewAI和 ServiceNow等。
國內(nèi)外大公司動作頻頻,有些公司已經(jīng)取得了不錯產(chǎn)品成果與市場進(jìn)展。頭部的大語言模型創(chuàng)業(yè)公司,也都在重點(diǎn)開拓AlAgent領(lǐng)域。具體見下面兩張圖。
![]()
![]()
隨著更多AI Agent產(chǎn)品的解決方案推出,越來越多涉及AI Agent的公司和團(tuán)隊慢慢浮出水面,行業(yè)版圖也逐漸清晰。
國外市場全景圖
![]()
左邊是New Economies在2024年6月份繪制的市場地圖,右邊是投資機(jī)構(gòu)Insight Partners給出的2024年12月市場全景圖??梢钥吹綇?月到12月,AI Agent項目增加了這么多,變化還是蠻大的。半年時間便有大量的AI Agent項目出現(xiàn),并且實(shí)現(xiàn)了產(chǎn)品化,可以用于企業(yè)與個人的工作與生產(chǎn)。
這張圖中間主體是Agents部分,這些公司已經(jīng)推出了AI Agent產(chǎn)品、解決方案或者服務(wù),或者是在原有AI產(chǎn)品基礎(chǔ)上推出的AI Agent。其他部分廠商,他們也正在向AI Agent過渡,或者已經(jīng)推出了相關(guān)產(chǎn)品或服務(wù),還有一些是從自動化角度切入到Agent賽道。
但不管過去的產(chǎn)品形態(tài)怎樣,現(xiàn)在他們都在向Agent過渡或轉(zhuǎn)型。這些企業(yè)既有科技巨頭,也有企業(yè)服務(wù)及自動化領(lǐng)域的名宿,更有大量初創(chuàng)企業(yè)。所以,這張圖名為AI Automation & Agents Market Map。
其實(shí)從自動化角度看,包括LLM及AI Agent等在內(nèi)的任何類型的AI技術(shù)帶來的都是業(yè)務(wù)流程的自動化,區(qū)別只是自動化程度的高低。
所以王吉偉頻道才在《一本書讀懂AI Agent:技術(shù)、應(yīng)用與商業(yè)》中感慨,近幾年生成式AI和AI Agent帶來的企業(yè)經(jīng)營管理與范式的顛覆性變革,但無論技術(shù)、架構(gòu)和方案怎么變化,只要抓住業(yè)務(wù)流程再造與自動化需求這兩個點(diǎn),產(chǎn)業(yè)鏈上所有參與者都能因創(chuàng)造商業(yè)價值而獲得成功。
我們不用過多關(guān)注技術(shù)的變革與顛覆,重要的是在每個技術(shù)變革時代善用這些技術(shù)去解決問題,那么你就能成為每個時代的弄潮兒。
國內(nèi)全景圖
![]()
國內(nèi)的市場情況,王吉偉頻道查閱了兩份行業(yè)報告。左邊這張圖是甲子光年在4月份發(fā)布的《中國AI Agent行業(yè)研究報告》,他們根據(jù)當(dāng)時的市場情況繪制了中國AI Agent生態(tài)圖譜1.0版本。當(dāng)然,這張圖也體現(xiàn)了去年國內(nèi)智能體行業(yè)的生態(tài)結(jié)構(gòu)。
右邊這張圖是InfoQ發(fā)布的第二季度報告??梢钥吹街悄荏w產(chǎn)品明顯多了。從4月到6月,一些創(chuàng)業(yè)型產(chǎn)品出來了,還有一些大公司也推出了相關(guān)產(chǎn)品。當(dāng)然這是半年前的市場情況,現(xiàn)在的產(chǎn)品要更多。
4、技術(shù)現(xiàn)狀
經(jīng)過幾年的發(fā)展,AI Agent的技術(shù)進(jìn)步依賴于多個核心技術(shù)特征,這些特征定義了其功能和應(yīng)用范圍。
![]()
大語言模型(LLM)是AI Agent的核心,提供強(qiáng)大的自然語言處理能力,支持多語言和多領(lǐng)域任務(wù)。
AI Agent具備多模態(tài)能力,整合圖像、音頻和視頻處理,適用于智能家居、醫(yī)療診斷和內(nèi)容創(chuàng)作。通過高級規(guī)劃和推理技術(shù)進(jìn)行自主決策,能夠調(diào)用外部工具和API,擴(kuò)展其功能。記憶和學(xué)習(xí)機(jī)制使其能夠存儲和檢索信息,增強(qiáng)學(xué)習(xí)能力。技術(shù)架構(gòu)通常包括感知、認(rèn)知和行動三個組件,支持多種分類和多代理協(xié)作。
同時AI Agent技術(shù)正朝著多個創(chuàng)新方向發(fā)展,以提升性能和用戶體驗(yàn)。增強(qiáng)多模態(tài)交互、提高自主性和可靠性、多代理協(xié)作、邊緣計算與端側(cè)部署、可解釋性和信任及個性化與適應(yīng)等都是前沿的發(fā)展方向。
![]()
幾個當(dāng)前的熱門技術(shù),大家可以多關(guān)注。
![]()
Model Context Protocol,一種開放協(xié)議,用于標(biāo)準(zhǔn)化應(yīng)用程序向大型語言模型(LLMs)提供上下文(數(shù)據(jù))的方式。MCP是由Anthropic推出的協(xié)議,現(xiàn)在得到很多廠商和大模型的支持,就連OpenAI和微軟最近也支持了。
AI Agent技術(shù)棧
AI Agent技術(shù)發(fā)展到現(xiàn)在,技術(shù)生態(tài)基本已經(jīng)成型,用于構(gòu)建AI Agent的各種技術(shù)正在不斷完善。
下面圖片中,左邊是去年7、8月份投資機(jī)構(gòu)Aura Ventures整理的市場全景圖。其中涉及到了技術(shù)部分,他們通過技術(shù)表達(dá)的形式把相關(guān)公司或者產(chǎn)品列到了這種好難過圖中。
![]()
可以看到每一個技術(shù)和解決方案下面都列舉了一些代表性公司。關(guān)于這張圖的具體解讀,可以參考圖書第15.2.4節(jié)產(chǎn)業(yè)格局。
右邊是Letta在今年11月推出最新技術(shù)棧統(tǒng)計。它也是從技術(shù)視角以AI Agent構(gòu)建流程的形式,標(biāo)明哪些技術(shù)由哪些技術(shù)供應(yīng)商來提供。單從技術(shù)而言,多半年時間又有不少技術(shù)公司得到了市場認(rèn)可。
在技術(shù)棧方面,大家可以重點(diǎn)理解《AI Agents Stack》這張圖。左邊這張圖因?yàn)闀r間比較早可以作為參考,當(dāng)然通過它可以整體把握AI Agent市場結(jié)構(gòu)。
AI Agent技術(shù)生態(tài)
![]()
在文章的開頭,我們先介紹了翁麗蓮提出的AI Agent技術(shù)架構(gòu)。把這個架構(gòu)圖用技術(shù)和企業(yè)進(jìn)行具象化,可以看到下面這張由 Activant Capital繪制的技術(shù)供應(yīng)商角度的AI Agent生態(tài)系統(tǒng)圖,也就是左邊這張圖。技術(shù)視角的架構(gòu)圖,可以幫助我們更好地理解智能體。
右邊是關(guān)聯(lián)技術(shù)廠商的一個具象化,它同時也是一個技術(shù)成熟與市場增長信念的象限圖,每一種技術(shù)以及代表廠商都在這個象限中有合適的位置。通過這張圖,能看到這些技術(shù)及產(chǎn)品的市場發(fā)展?jié)摿Α?/p>
AI Agent技術(shù)進(jìn)展
基于大語言模型的AI Agent技術(shù),正在快速發(fā)展與迭代。到2024下半年,大模型都向多模態(tài)發(fā)展,同時10月份OpenAI的o1模型開啟了后訓(xùn)練時代,可推理、可視覺以及上下文協(xié)議等技術(shù)的應(yīng)用,極大地推動了AI Agent在更多場景與領(lǐng)域的的應(yīng)用?,F(xiàn)在,很多大企業(yè)都推出了推理模型,對于智能體行業(yè)的好處前面已經(jīng)講過。
![]()
上圖的左邊部分,是大語言模型發(fā)展前景圖。圖片分為6部分,從左到右我簡單的上面做了做了注解。短短的兩年多的時間里,大模型已經(jīng)迭代了多次使得AI Agent的功能和能力都在不斷的提升和增加。
右邊是當(dāng)前的七種主流RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成)技術(shù)架構(gòu)圖。能夠有效解決AI Agent長期記憶問題的RAG技術(shù),已經(jīng)在短短的幾年內(nèi)發(fā)展出多種技術(shù)架構(gòu)。其中Agentic RAG作為新一代技術(shù),正在重塑AI Agent的記憶內(nèi)存。
![]()
AI Agent技術(shù)框架不斷推陳出新。這里列舉了代表性科技企業(yè)微軟和谷歌推出的部分AI Agent技術(shù)框架。這個圖表中羅列了微軟的8種技術(shù)架構(gòu)和解決方案,這只是其中一部分,實(shí)際上他們推出的相關(guān)技術(shù)還有很多。
包括谷歌也是一樣,現(xiàn)在開始重點(diǎn)發(fā)力AI Agent。在技術(shù)社區(qū),AI Agent技術(shù)框架更是百花齊放,預(yù)計2025年就開始卷多智能體、GUI(UI)智能體和端側(cè)智能體了。
下圖是一些AI Agent的開源項目與閉源項目。下面的兩個表格中列出的是已經(jīng)推出AI Agent技術(shù)框架、產(chǎn)品及解決方案的開源與閉源項目。左邊是開源項目,右邊是閉源項目。
![]()
這些項目來自智能體沙盒技術(shù)供應(yīng)商e2b的Github倉庫awesome-ai-agents,它通過搜集和提交的方式來累積智能體項目。截至2024年12月底,開源項目110個,閉源項目105個。
當(dāng)然并不是說目前的AI Agent項目只有這些,還有大量相關(guān)項目并不在這個名單中。這里只對這些項目做了簡單介紹,關(guān)于每個項目的具體介紹大家可以到Github去查閱。
5、面臨的問題
雖然AI Agent已經(jīng)逐漸在很多領(lǐng)域?qū)崿F(xiàn)商用,受限于現(xiàn)階段的技術(shù)、生態(tài)、用戶接受度等因素,仍然存在一些問題和不足。
![]()
AI產(chǎn)品存在的不足,這里王吉偉頻道總結(jié)了9點(diǎn),包括AI Agent存在交互能力局限、工程穩(wěn)定性上存在隨機(jī)輸出和異常處理問題等,詳細(xì)內(nèi)容大家可以看下圖的左邊的表格,我在圖書中也有提及。
AI Agent應(yīng)用部署方面也面臨著一些挑戰(zhàn),這里直接引用了langbase《state-of-ai-agents》報告中的調(diào)查與總結(jié),詳情見上圖的右側(cè)圖表。這份報告我在之前的文章中分享過,大家可參考下面的文章。
推薦閱讀:十篇AI Agent研報,看懂2025年全球智能體行業(yè)全景,附下載
具體到當(dāng)前的AI Agent開發(fā)與應(yīng)用上,這些問題與挑戰(zhàn)主要包括錯誤容忍度、記憶與上下文管理瓶頸、模型智能程度的限制、自我評估能力的缺失、工具集成與協(xié)調(diào)難題、數(shù)據(jù)相關(guān)挑戰(zhàn)、魯棒性與安全性風(fēng)險等。詳情見下圖。
![]()
這些問題的解決路徑集中在技術(shù)優(yōu)化(如端到端訓(xùn)練強(qiáng)化推理能力)、協(xié)議標(biāo)準(zhǔn)化(如MCP框架優(yōu)化)及多學(xué)科協(xié)作(工具鏈整合與記憶增強(qiáng))等方面。
現(xiàn)在還有一個很明顯的趨勢:模型即應(yīng)用(服務(wù)),模型本身直接構(gòu)成最終產(chǎn)品或服務(wù),而非通過應(yīng)用層(如API或第三方軟件)二次開發(fā)。比如OpenAI的DeepResearch模型能夠端到端自主完成研究報告生成,無需外部工具調(diào)用或人工干預(yù),Claude Sonnet 3.7可直接完成復(fù)雜任務(wù)(如代碼庫管理)而非僅作為生成代碼的工具,還有很多大模型推出的DeepResearch等功能。
![]()
這個趨勢,可能會造成2個結(jié)果:
API時代將被終結(jié):大模型廠商(如OpenAI、DeepSeek)將停止對外提供API,轉(zhuǎn)為直接提供模型作為產(chǎn)品,這個時間可能也就兩年。
應(yīng)用層被大模型取代:原有“套殼應(yīng)用”(Wrappers)會被模型廠商直接集成能力的功能淘汰。
這個趨勢一方面讓大模型與智能體的邊界越發(fā)模糊,另一方面也讓很多人擔(dān)憂智能體未來發(fā)展的方向。解決方法是:
一方面需轉(zhuǎn)向自研模型,另一方面需要垂直領(lǐng)域?qū)S媚P偷膹?qiáng)化學(xué)習(xí)和推理結(jié)合,可直接解決現(xiàn)實(shí)場景問題,比如實(shí)在Agent就以塔斯大模型結(jié)合智能屏幕語義理解(ISSUT)和RPA技術(shù),通過強(qiáng)化學(xué)習(xí)動態(tài)優(yōu)化任務(wù)執(zhí)行策略。
![]()
AI Agent是一種能夠感知環(huán)境、進(jìn)行自主理解、決策和執(zhí)行動作的智能實(shí)體。Agentic Workflow是指通過預(yù)定義的多步大型語言模型(LLM)調(diào)用靜態(tài)完成任務(wù)的工作流。Agentic AI是AI具備自主性的能力和行為,代表了AI所能實(shí)現(xiàn)的頂峰——獨(dú)立行動、學(xué)習(xí)和適應(yīng)的能力。
AI Agent向Agentic Workflow的發(fā)展以及Agentic AI的興起,正推動行業(yè)效率提升和數(shù)字化轉(zhuǎn)型。這些技術(shù)改變了企業(yè)運(yùn)營模式,改善了客戶體驗(yàn),并為決策支持和自動化服務(wù)帶來革命性變化。
它們也延伸了應(yīng)用價值鏈,改變了行業(yè)業(yè)態(tài),盡管面臨技術(shù)挑戰(zhàn),但為行業(yè)帶來了前所未有的發(fā)展機(jī)遇。
![]()
企業(yè)經(jīng)營以優(yōu)化流程、管理資源實(shí)現(xiàn)盈利與客戶增長為目標(biāo)。AI Agent可以系通過降本增效、風(fēng)險管控與組織革新,成為企業(yè)競爭力升級的關(guān)鍵引擎,主要通過三個維度影響企業(yè)經(jīng)營:業(yè)務(wù)運(yùn)營、戰(zhàn)略決策及組織管理。
![]()
當(dāng)然企業(yè)經(jīng)營是個復(fù)雜體系,AI Agent可以在多個企業(yè)經(jīng)營環(huán)節(jié)與業(yè)務(wù)場景進(jìn)行賦能。
目前企業(yè)應(yīng)用AI Agent主要有三種模式:直接使用、客戶端調(diào)用API和本地私有化部署。
![]()
直接使用適合對數(shù)據(jù)隱私要求不高、希望快速接入AI能力的企業(yè),尤其是中小型企業(yè),可直接利用市場上現(xiàn)有的AI Agent服務(wù),如實(shí)在Agent、Operator、Manus等,或在Coze等平臺構(gòu)建個性化AI Agent。
客戶端調(diào)用API適用于需將AI能力集成到現(xiàn)有系統(tǒng)的企業(yè),通過調(diào)用第三方API接口,結(jié)合客戶端工具如AnythingLLM、Cherry Studio等,開發(fā)智能客服、文檔處理助手等應(yīng)用。
本地私有化部署適合對數(shù)據(jù)安全和隱私要求高的大型企業(yè),可在本地環(huán)境中部署AI Agent,使用開源框架或自研技術(shù)構(gòu)建技術(shù)閉環(huán),如借助LangChain、OmniParserV2等開源項目進(jìn)行部署。
尾聲:未來寄語
![]()
最后,再簡單說幾句對智能體行業(yè)未來寄語。
AI Agent給不會編程的普通人帶來了更多機(jī)會,讓大家能夠通過自然語言構(gòu)建個性化智能體應(yīng)用,可以通過智能體提高個人生產(chǎn)力,可以把這些應(yīng)用分享給別人使用,更可以通過智能體創(chuàng)業(yè)實(shí)現(xiàn)自己的夢想。
簡單地說,接下來就如果要創(chuàng)業(yè),你可能不需要再找一個技術(shù)合伙人,只要你了解怎么構(gòu)建智能體,就能創(chuàng)建一個人的公司,一個超級個體。
最后用《一本書讀懂AI Agent:技術(shù)、應(yīng)用與商業(yè)》封面引用比爾·蓋茨一句話結(jié)束我今天的分享:AI Agent將來未來5年內(nèi)徹底改變我們的生活。
王吉偉頻道認(rèn)為,接下來每個人都應(yīng)該擁抱AI Agent成為時代領(lǐng)跑者,希望大家都能夠更全面地認(rèn)知和使用智能體,快速成為智能體時代的超級個體,快速用AI Agent賦能企業(yè)增效降本與高效運(yùn)營。
全文完
王吉偉頻道新書《一本書讀懂AI Agent:技術(shù)、應(yīng)用與商業(yè)》已出版,輕松讀懂系統(tǒng)掌握AI Agent技術(shù)原理、行業(yè)應(yīng)用、商業(yè)價值及創(chuàng)業(yè)機(jī)會,歡迎大家關(guān)注。
快報
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論