緊隨其后,2025年1月,OpenAI推出了Operator及其核心模型Computer-Using Agent(CUA),將這一領(lǐng)域推向新高度。與Anthropic的“Computer Use”術(shù)語不同,OpenAI采用了“CUA”這一更具技術(shù)感的命名。

Operator被定義為“通過強(qiáng)化學(xué)習(xí)融合GPT-4o視覺能力與高級推理的模型”,能夠直接與圖形用戶界面(GUI)交互,無需依賴特定API。OpenAI強(qiáng)調(diào),CUA不僅能處理瀏覽器任務(wù)(如訂票、購物),還具備擴(kuò)展至桌面應(yīng)用的潛力,展現(xiàn)了從“對話AI”向“行動AI”的轉(zhuǎn)型趨勢。但僅限$200/月的Pro用戶使用門檻,仍然勸退了大部分人。

Operator的發(fā)布與CUA概念的推廣,仍然沒有激起多大水花。

直到2025年3月,Monica.im團(tuán)隊發(fā)布了號稱“全球首款通用型 AI Agent”的Manus,進(jìn)一步將Computer Use Agent的概念推向產(chǎn)品化。Manus 的宣傳語更是直擊用戶痛點(diǎn):獨(dú)立思考、規(guī)劃并執(zhí)行復(fù)雜任務(wù),覆蓋40多個領(lǐng)域。 它不僅能處理文件、分析數(shù)據(jù),還能創(chuàng)作內(nèi)容,甚至在 GAIA 基準(zhǔn)測試中以 86.5% 的準(zhǔn)確率碾壓競品,成本卻僅為對手的1/10。

相比Claude的實驗性和Operator的高不可攀,Manus更注重用戶體驗與實用性,目前雖處于內(nèi)測階段,但已計劃開源部分模型,顯示出更大的野心。只是,大部分人到現(xiàn)在還拿不到邀請碼。

需要說明的是,Computer Use Agent玩家已經(jīng)有不少。比如Google DeepMind推出的基于Gemini 2的Project Mariner基于,主攻瀏覽器自動化;微軟則通過Windows Agent Arena探索多模態(tài)OSAgent,同時微軟還有UFO、OmniParser等多個開源項目。智譜的GLM-PC則以CogAgent為核心,支持跨平臺任務(wù)。

擴(kuò)展閱讀:還拿不到Manus邀請碼?試試這幾款開箱即用的computer use智能體,附教程

這些項目各有側(cè)重,但都指向一個共同目標(biāo):讓AI成為真正能夠操作一切的數(shù)字助手。當(dāng)然開源社區(qū)也不甘落后,像OpenInterpreter、OpenAdapt等早期項目層出不窮。而快速復(fù)刻Manus的OpenManus、OWL等項目也正在快速迭代中,并有更多項目正在開發(fā)。

這些進(jìn)展不僅體現(xiàn)了AI從“理解”到“執(zhí)行”的轉(zhuǎn)變,也引發(fā)了我們對未來人機(jī)交互的想象。說了那么多,到底什么是Computer Use Agent?目前都有哪些產(chǎn)品和開源項目?有沒有相關(guān)的學(xué)術(shù)論文可以學(xué)習(xí)?這篇文章,王吉偉頻道就給大家聊聊這些,也歡迎大家在文末留言討論。

從Claude 3.5 Sonnet談起

Anthropic在2024年10月發(fā)布發(fā)布Claude 3.5 Sonnet的時候,重點(diǎn)介紹了它的computer use能力。當(dāng)時“能夠操作電腦的模型”火了很長一段時間,但后來就偃旗息鼓了。這是為什么呢?主要在于大家對它的感知并不強(qiáng),因為需要部署,不懂點(diǎn)代碼的人都體驗不了。

在Claude 3.5的發(fā)布中,Anthropic對computer use做了以下介紹:

公開測試版中引入了一項突破性的新功能:計算機(jī)使用(computer use)。今天在應(yīng)用編程接口上,開發(fā)人員可以指導(dǎo)克勞德像人們一樣使用計算機(jī)——通過看屏幕、移動光標(biāo)、點(diǎn)擊按鈕和鍵入文本。

Claude 3.5 Sonnet是第一個在公開測試版中提供計算機(jī)使用的前沿人工智能模型。在現(xiàn)階段,它仍處于試驗階段——有時很麻煩,容易出錯。我們將提前發(fā)布計算機(jī)使用情況,以供開發(fā)人員反饋,并預(yù)計隨著時間的推移,該功能將迅速改進(jìn)。

作為首款支持此能力的前沿模型,Claude 3.5 Sonnet在OSWorld基準(zhǔn)測試中取得了14.9%的成功率,雖然遠(yuǎn)低于人類的70-75%,但已顯著領(lǐng)先同類AI的7.8%。

其實Anthropic到目前推出的還只是CUA的demo體驗項目,王吉偉頻道在去年11月體驗過,它需要通過docker進(jìn)行部署。懂點(diǎn)代碼感興趣的小伙伴,可以部署體驗一下。

項目地址:https://github.com/anthropics/anthropic-quickstarts

而OpanAI在發(fā)布Operator以后,重點(diǎn)介紹了計算機(jī)使用Agent。在用詞方面,OpanAI與Anthropic稍有區(qū)別,用的是 Computer-Using Agent (CUA)。原文如下:

Operator(opens in a new window)是一個可以轉(zhuǎn)到Web為用戶執(zhí)行任務(wù)的Agent,而為它提供動力的正是CUA,這是一種過強(qiáng)化學(xué)習(xí)將GPT-4o的視覺能力與高級推理相結(jié)合的模型。CUA 經(jīng)過訓(xùn)練,可以像人類一樣與圖形用戶界面(GUI) 交互,即人們在屏幕上看到的按鈕、菜單和文本字段。這使它能夠靈活地執(zhí)行數(shù)字任務(wù),而無需使用特定于作系統(tǒng)或 Web 的 API。

CUA建立在多模態(tài)理解和推理交叉點(diǎn)的多年基礎(chǔ)研究之上。通過將高級GUI感知與結(jié)構(gòu)化問題解決相結(jié)合,它可以將任務(wù)分解為多步驟計劃,并在出現(xiàn)挑戰(zhàn)時自適應(yīng)地自我糾正。此功能標(biāo)志著 AI 開發(fā)的下一步,允許模型使用人類每天依賴的相同工具,并為大量新應(yīng)用打開大門。

在官方介紹中,這種設(shè)計讓CUA在OSWorld中拿下38.1%的成功率,在WebVoyager中更是高達(dá)87%,接近人類水平。OpenAI強(qiáng)調(diào),CUA不僅能處理瀏覽器任務(wù)(如訂票、購物),還具備擴(kuò)展至桌面應(yīng)用的潛力,展現(xiàn)了從“對話AI”向“行動AI”的轉(zhuǎn)型趨勢。不過,Operator目前僅限$200/月的Pro用戶使用,門檻依然不低。

CUA依賴視覺模型和高級推理模型,兩種能力也決定了CUA的能力。所以Manus發(fā)布之后,很多復(fù)刻它的開源項目比如OpenManus等目前在體驗上還有所欠缺,在于大家在模型的選擇上使用兼容OpenAI Function Call的模型,但在推理方面要差一些。

最近OpenAI還發(fā)布了集成至Responses API的工具包Computer Use Tool,允許開發(fā)者調(diào)用模型生成的鼠標(biāo)/鍵盤操作,覆蓋網(wǎng)頁和部分桌面應(yīng)用場景。

Manus是由Monica.im團(tuán)隊開發(fā)的一款通用型AI智能體,于2025年3月發(fā)布,旨在通過自主任務(wù)閉環(huán)能力直接交付復(fù)雜任務(wù)成果,而非僅提供建議。它采用多Agent架構(gòu),將任務(wù)拆解為子任務(wù)并執(zhí)行,覆蓋辦公提效、數(shù)據(jù)分析、跨平臺工具集成等多種場景,支持高精度動作捕捉和團(tuán)隊協(xié)作功能。

其規(guī)劃Agent使用蒙特卡洛樹搜索優(yōu)化任務(wù)拆解效率,執(zhí)行Agent調(diào)用多種工具完成任務(wù),驗證Agent則確保結(jié)果準(zhǔn)確性。Manus在GAIA基準(zhǔn)測試中表現(xiàn)卓越,基礎(chǔ)任務(wù)得分86.5分,中等難度任務(wù)得分70.1分,高難度任務(wù)得分57.7分,單任務(wù)成本僅為競品的 1/10,展現(xiàn)了強(qiáng)大的任務(wù)執(zhí)行能力,并且遠(yuǎn)超同期競品。

Manus的出現(xiàn)標(biāo)志著AI智能體技術(shù)的新高度,其低代碼化設(shè)計使用戶無需編程即可搭建自動化流程。由于其強(qiáng)大的功能,開源社區(qū)迅速推出了多個復(fù)刻項目,如OpenManus和OWL,它們分別由MetaGPT團(tuán)隊和CAMEL AI團(tuán)隊開發(fā),支持網(wǎng)頁瀏覽、文件操作、代碼編寫等任務(wù),且在GAIA測試中表現(xiàn)優(yōu)異。

Manus及其復(fù)刻項目在辦公效率提升、生活服務(wù)升級和專業(yè)領(lǐng)域支持等方面具有廣泛的應(yīng)用前景,有望在更多場景中發(fā)揮重要作用,推動AI技術(shù)的進(jìn)一步發(fā)展。

從Claude 3.5 Sonnet到Operator,再到Manus,Computer Use Agent的進(jìn)化路徑逐漸清晰。Claude開啟了這一領(lǐng)域的探索,強(qiáng)調(diào)視覺感知與GUI交互;CUA則在推理與適應(yīng)性上邁出關(guān)鍵一步;而Manus通過多Agent協(xié)作與成本優(yōu)化,試圖將技術(shù)落地到日常場景。

通過上面的介紹,相信大家對computer use已經(jīng)有了初步認(rèn)識。

CUA 的定義與工作原理

結(jié)合各種文獻(xiàn)以及科技博文,可以為Computer Use Agent下一個簡單的定義。

Computer Use Agent是一種能夠過其圖形用戶界面 (GUI) 與計算機(jī)應(yīng)用程序交互的AI系統(tǒng)。旨在通過計算機(jī)應(yīng)用程序的GUI控制計算機(jī)應(yīng)用程序并與之交互。這些Agent可以模仿人類用戶操作計算機(jī)的行為,執(zhí)行單擊按鈕、填寫表單、單擊按鈕、導(dǎo)航菜單和滾動等任務(wù)。

這些Agent由高級AI模型提供支持,通常將大型語言模型 (LLM) 與多模態(tài)視覺功能相結(jié)合,使用屏幕感知、通過語言模型做出決策以及模擬鼠標(biāo)/鍵盤輸入來執(zhí)行任務(wù)。例如,OpenAI 的Operator 由其計算機(jī)使用Agent (CUA) 模型提供支持,可以通過處理屏幕截圖并與 Web 瀏覽器交互來在線預(yù)訂音樂會門票或訂購雜貨。

它的工作原理,如下:

CUA處理屏幕截圖中的原始像素數(shù)據(jù),以了解屏幕上發(fā)生的情況。這使它能夠像人類用戶一樣與按鈕、菜單和文本字段交互,無需特定于平臺的 API。其過程可分為三個步驟:

這種結(jié)構(gòu)化的工作流程使 CUA 能夠處理復(fù)雜的多步驟任務(wù),并在遇到錯誤時進(jìn)行自我糾正,使其成為數(shù)字問題解決的強(qiáng)大工具。

在主要功能和基準(zhǔn)方面,OpenAI對CUA在計算機(jī)使用和基于瀏覽器的任務(wù)方面都樹立了新的基準(zhǔn),證明了它在不同環(huán)境中的靈活性。它的性能已經(jīng)使用 OSWorld、WebArena 和 WebVoyager 等平臺進(jìn)行了評估:

這些基準(zhǔn)測試突出了 CUA 使用屏幕、鼠標(biāo)和鍵盤的單一通用界面在數(shù)字環(huán)境中有效運(yùn)行的能力。但是,在更復(fù)雜的場景中仍有改進(jìn)的空間,例如人類成功率更高的 WebArena 任務(wù)。

CUA 最引人注目的方面之一是它能夠?qū)⑷蝿?wù)分解為多步驟計劃并在面臨挑戰(zhàn)時動態(tài)適應(yīng)。例如,如果網(wǎng)頁無法正確加載或任務(wù)偏離預(yù)期路徑,CUA 可以實時調(diào)整其策略。這種靈活性通過將 GUI 感知與結(jié)構(gòu)化問題解決相結(jié)合而變得很有價值。

需要說明的是,Computer Use Agent和GUI Agent經(jīng)常被混淆。兩種智能體各有其獨(dú)特的優(yōu)勢和適用場景:Computer Use Agent 更適合處理復(fù)雜的多任務(wù)和跨平臺操作,GUI Agent則在圖形用戶界面交互和精準(zhǔn)操作方面表現(xiàn)出色。還有一些項目,則是兩種技術(shù)融合型的智能體。關(guān)于GUI Agent,我會在后面的文章中跟大家介紹。

CUA相關(guān)的產(chǎn)品

除了前文提到的Claude的Computer Use 、Operator、Manus ,目前對外公布的已經(jīng)產(chǎn)品化\應(yīng)用化的CUA產(chǎn)品,還有以下幾個。

1、Project Mariner

Google DeepMind推出的Project Mariner,構(gòu)建于Google的Gemini 2模型之上。該公司在12月展示了Mariner,但稱其為 “早期研究原型”,并表示目前僅向 “受信任的測試人員” 提供該工具。

編輯

Project Mariner目前僅在 Chrome 瀏覽器中運(yùn)行,并且僅在活動選項卡中運(yùn)行,用戶執(zhí)行其他任務(wù)時,它不會在后臺運(yùn)行。雖然這個要求似乎在某種程度上違背了擁有一個節(jié)省時間的 AI 助手的目的,但它可能只是這個早期開發(fā)階段的臨時條件。

2、Flowith

Flowith是一款類似Manus的AI Agent產(chǎn)品,旨在通過其獨(dú)特的節(jié)點(diǎn)式交互方式和強(qiáng)大的AI功能,為用戶提供高效、多線程的AI交互體驗。它不僅支持多種先進(jìn)的AI模型,還提供了知識管理、內(nèi)容創(chuàng)作、自動化任務(wù)執(zhí)行等功能,適合內(nèi)容創(chuàng)作者、研究人員、企業(yè)員工等多類用戶

https://flowith.io

3、Google AI Studio

Google AI Studio是一個集成了多種 AI 功能且易于使用的 AI 開發(fā)平臺,專注于簡化 AI 模型的創(chuàng)建、優(yōu)化和部署流程。該應(yīng)用旨在降低 AI 開發(fā)的門檻,使開發(fā)者無需深厚的機(jī)器學(xué)習(xí)背景也能快速上手,同時為專業(yè)開發(fā)者提供強(qiáng)大的工具支持,以滿足復(fù)雜項目的需求,快速實現(xiàn) AI 驅(qū)動的創(chuàng)新項目。

Google AI Studio有一個功能是與程序互動,通過文字或者語音讓Google AI Studio通過瀏覽器或者電腦做一些自動化的操作。

體驗地址:https://aistudio.google.com/prompts/new_chat

4、Midscene.js

Midscene.js是一個Web 自動化開源項目,旨在讓AI成為瀏覽器操作員。用戶只需用自然語言描述需求,AI就能操作網(wǎng)頁、驗證內(nèi)容和提取數(shù)據(jù)。它支持多種模型,包括UI-TARS和Qwen2.5-VL等開源模型,適用于UI自動化場景。

Midscene Chrome 擴(kuò)展還支持一種橋接模式,允許用戶使用本地腳本來控制 Chrome的桌面版本。下面是關(guān)于橋接模式的說明文檔,感興趣的小伙伴可以自行探索。

https://midscenejs.com/bridge-mode-by-chrome-extension.html

5、智譜GLM-PC

GLM-PC是智譜公司推出的一款基于多模態(tài)大模型CogAgent的電腦智能體。它能夠像人類一樣“觀察”和“操作”計算機(jī),協(xié)助用戶高效完成各類電腦任務(wù),如文檔處理、網(wǎng)頁搜索、信息整理、社交互動等。

目前GLM-PC 已經(jīng)迭代升級到基于智譜多模態(tài)大模型 CogAgent的1.1.1版本,推出“深度思考”模式,同時支持 Windows和Mac 系統(tǒng)。大家可以通過以下網(wǎng)址,訪問GLM-PC官網(wǎng),下載適合自己系統(tǒng)的軟件版本,這里也附上安裝指南。

下載:https://cogagent.aminer.cn/home#/downloads

CUA相關(guān)的開源項目

事實上,在Manus火爆之前已經(jīng)有不少CUA相關(guān)的開源項目,這里列舉一些。

1、OpenInterpreter

OpenInterpreter是一個自然語言接口工具,允許大型語言模型在本地運(yùn)行代碼,支持Python、JavaScript等多種語言。用戶可以通過類似ChatGPT的界面與計算機(jī)互動,執(zhí)行文件編輯、瀏覽器控制和數(shù)據(jù)分析等任務(wù)。

項目鏈接:https://github.com/OpenInterpreter/open-interpreter

2、OpenAdapt

OpenAdapt是一個開源的行為克隆和模仿學(xué)習(xí)框架,旨在幫助AI通過觀察人類行為來學(xué)習(xí)任務(wù)。它支持多種應(yīng)用,包括自動化任務(wù)和復(fù)雜操作的簡化。

項目鏈接:https://github.com/llamafactory/openadapt

3、OpenInterface

OpenInterface是一個開源項目,提供簡潔的API接口,支持多種編程語言和框架,幫助開發(fā)者快速實現(xiàn)功能集成和自動化任務(wù)。

項目鏈接:https://github.com/OpenInterface

4、OmniParser

OmniParserV2,能夠?qū)⒋笮驼Z言模型(LLM)轉(zhuǎn)化為具備計算機(jī)操作能力的智能Agent。通過視覺解析技術(shù),將用戶界面(UI)的屏幕截圖轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),使 LLM 能夠理解和操作圖形用戶界面(GUI),從而實現(xiàn)跨平臺的自動化任務(wù)。

項目鏈接:https://github.com/microsoft/OmniParser

5、E2B Desktop Sandbox

E2B Desktop Sandbox是一個桌面沙盒環(huán)境,專為開發(fā)者設(shè)計,提供安全的測試和開發(fā)平臺,支持多種操作系統(tǒng)和開發(fā)工具。

項目鏈接:https://github.com/E2B-Cloud/E2B-Desktop-Sandbox

6、Claude Computer Use Demo

該項目為MacOS提供了Claude計算機(jī)使用的演示工具,幫助用戶快速上手AI驅(qū)動的計算機(jī)操作。

項目鏈接:https://github.com/AnthropicComputerUse

7、Computer Use - OOTB

提供開箱即用的計算機(jī)使用體驗,支持多種操作系統(tǒng),旨在簡化用戶與計算機(jī)的交互。

項目鏈接:https://github.com/AnthropicComputerUse

8、claude-minecraft-use

將Claude集成到Minecraft中,提供AI輔助功能,幫助玩家在游戲中實現(xiàn)自動化任務(wù)和復(fù)雜操作。

項目鏈接:https://github.com/ObservedObserver/claude-minecraft-use

9、Grunty

Grunty是一個開源的AI工具,支持多種任務(wù)自動化,適用于簡單和復(fù)雜的操作。

項目鏈接:https://github.com/Grunty

10、Self-Operating Computer Framework

一個自運(yùn)行計算機(jī)框架,支持自動化操作,適用于需要低干預(yù)的復(fù)雜任務(wù)。

項目鏈接:https://github.com/SelfOperatingComputerFramework

11、Anthropic Computer Use (for Mac)

Anthropic為Mac設(shè)計的計算機(jī)使用工具,提供AI驅(qū)動的交互體驗。

項目鏈接:https://github.com/anthropics/anthropic-quickstarts

12、Cybergod

一個開源的AI驅(qū)動工具,支持多種應(yīng)用,包括自動化任務(wù)和復(fù)雜操作。

項目鏈接:https://github.com/Cybergod

13、Bytebot

一個輕量級的AI機(jī)器人框架,適用于快速開發(fā)和部署,高級計算機(jī)控制。

項目鏈接:https://github.com/Bytebot

14、UI-Act

提供用戶界面自動化操作的工具,支持多種操作系統(tǒng)和應(yīng)用。

項目鏈接:https://github.com/UIAct

15、Upsonic

支持MCP的可靠Agent框架,集成瀏覽器使用和計算機(jī)使用。

項目鏈接:https://github.com/upsonic/upsonic

16、Grunty

計算機(jī)控制Agent,任務(wù)自動化焦點(diǎn)。

項目鏈接:https://github.com/suitedaces/computer-agent

17、Cua

計算機(jī)使用接口和Agent

項目鏈接:https://github.com/trycua

18、ScreenAgent

一個由視覺語言模型驅(qū)動的計算機(jī)控制Agent項目。它創(chuàng)建了一個與真實計算機(jī)屏幕交互的環(huán)境,Agent可通過鼠標(biāo)和鍵盤操作觀察屏幕截圖并控制GUI。

項目鏈接:https://github.com/niuzaisheng/ScreenAgent

19、OpenManus

由MetaGPT團(tuán)隊開發(fā)的開源復(fù)刻版 Manus,旨在復(fù)刻并改進(jìn) Manus 的核心功能,提供無需邀請碼、可本地化部署的智能體解決方案。該項目基于模塊化設(shè)計,支持多種語言模型(如 GPT-4、Claude 3.5、Qwen VL Plus 等)和工具鏈。采用 ReAct(推理與行動)框架,將復(fù)雜任務(wù)分解為可執(zhí)行的子步驟,并動態(tài)協(xié)調(diào)工具調(diào)用。提供實時反饋機(jī)制,用戶可以直觀地看到 AI 的思考過程和任務(wù)執(zhí)行進(jìn)度。

項目鏈接:https://github.com/OpenManus/OpenManus

20、OWL

OWL(Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation)是由CAMEL-AI團(tuán)隊開發(fā)的開源多智能體協(xié)作框架,旨在復(fù)刻并超越Manus的核心功能。OWL專注于通過多智能體協(xié)作實現(xiàn)任務(wù)自動化,其目標(biāo)是徹底變革AI智能體解決現(xiàn)實任務(wù)的方式。

項目鏈接:https://github.com/camel-ai/owl

21、OpenHands

OpenHands是一個由AI驅(qū)動的軟件開發(fā)代理平臺,核心定位是“讓AI智能體成為全棧開發(fā)者”。它能夠執(zhí)行代碼修改、命令運(yùn)行、網(wǎng)頁瀏覽、API調(diào)用,甚至可以從StackOverflow復(fù)制代碼片段。

項目鏈接:https://github.com/All-Hands-AI/OpenHands

22、Open-Computer-Use

由E2B桌面沙盒支持并由開源 LLMs 控制的

安全云 Linux 計算機(jī)。它通過鍵盤、鼠標(biāo)和 shell 命令操作計算機(jī),支持 10 + LLMs,并可直播沙盒顯示。

項目鏈接:https://github.com/e2b-dev/open-computer-use

23、Clevrr Computer

Anthropic 的 Computer Use 的開源實現(xiàn),旨在使用 PyAutoGUI 庫代表用戶執(zhí)行精確高效的系統(tǒng)作。它可以自動化鍵盤、鼠標(biāo)和屏幕交互,同時確保每項任務(wù)的安全性和準(zhǔn)確性。

項目鏈接:https://github.com/Clevrr-AI/Clevrr-Computer

Computer Use相關(guān)的論文

本文,王吉偉頻道精選了以下幾篇論文,供大家參考。

1、計算機(jī)使用的人工智能Agent:基于指令的計算機(jī)控制、GUI自動化和運(yùn)算符助手綜述

AI Agents for Computer Use: A Review of Instruction-based Computer Control, GUI Automation, and Operator Assistants

從環(huán)境、交互和Agent的角度建立計算機(jī)控制Agent(CCA)分類法的綜合綜述,分析了86個CCA和33個數(shù)據(jù)集

論文地址:https://arxiv.org/abs/2501.16150

2、OS Agent:關(guān)于用于一般計算設(shè)備的基于 MLLM 的Agent的調(diào)查

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

論文地址:https://openreview.net/pdf/ed2f5ee6b84c3b118cb953b6e750486dbd700419.pdf

3、UFO:用于 Windows作系統(tǒng)交互的以UI為中心的Agent

UFO: A UI-Focused Agent for Windows OS Interaction

UFO是一種以UI為中心的創(chuàng)新Agent,利用GPT-Vision功能滿足Windows操作系統(tǒng)上應(yīng)用程序的用戶請求。滿足用戶請求方面表現(xiàn)出色,首個為Windows任務(wù)完成定制的UIAgent。

論文地址:https://arxiv.org/abs/2402.07939

項目地址:https://github.com/microsoft/UFO

4、PC Agent:當(dāng)你睡覺時,AI 工作 -- 進(jìn)入數(shù)字世界的認(rèn)知之旅

PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World

通過 PC Tracker 收集高質(zhì)量人機(jī)交互軌跡,經(jīng)兩階段認(rèn)知完成管道轉(zhuǎn)化,再由多Agent系統(tǒng)結(jié)合決策規(guī)劃與視覺接地,實現(xiàn)復(fù)雜數(shù)字工作能力。

論文地址:https://arxiv.org/abs/2412.17589

5、OS-Copilot:邁向具有自我提升能力的通才計算機(jī)Agent

OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

OS-Copilot框架,旨在構(gòu)建能與操作系統(tǒng)中多種元素交互的通用Agent。

論文地址:https://arxiv.org/abs/2402.07456

6、OSWorld:在真實計算機(jī)環(huán)境中為開放式任務(wù)對多模式Agent進(jìn)行基準(zhǔn)測試

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

用于多模式Agent的可擴(kuò)展真實計算機(jī)環(huán)境,支持跨多種操作系統(tǒng)(如 Ubuntu、Windows 和 macOS)的任務(wù)設(shè)置、基于執(zhí)行的評估和交互式學(xué)習(xí)。

論文地址:https://arxiv.org/abs/2404.07972

7、Windows Agent Arena:大規(guī)模評估多模式 OS Agent

Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

一個專注于Windows操作系統(tǒng)的可復(fù)現(xiàn)通用環(huán)境,旨在評估多模態(tài)操作系統(tǒng)Agent的性能。

8、ScreenAgent:Vision Language 模型驅(qū)動的計算機(jī)控制Agent

ScreenAgent: A Vision Language Model-driven Computer Control Agent

一個由視覺語言模型(VLM)驅(qū)動的計算機(jī)控制Agent。研究團(tuán)隊構(gòu)建了一個讓Agent與真實計算機(jī)屏幕交互的環(huán)境,Agent可通過鼠標(biāo)和鍵盤操作觀察屏幕并操控圖形用戶界面。

論文地址:https://arxiv.org/abs/2402.07945

項目地址:https://github.com/niuzaisheng/ScreenAgent

后記:機(jī)遇和挑戰(zhàn)并存

聊到這里,相信大家對Computer Use Agent已經(jīng)有了全面的認(rèn)知。從Claude 3.5 Sonne 電腦使用的推出,到OpenAI CUA的性能飛躍,再到Manus的通用化落地,毫無疑問這個領(lǐng)域?qū)⒃?025年迎來快速增長。越來越多產(chǎn)品和項目的出現(xiàn),意味著它們不再是實驗性項目,而是正在走進(jìn)我們的數(shù)字生活。

未來幾年,你可能只需說一句“幫我訂明天去舊金山的機(jī)票”,一個智能體就會流暢地自動打開瀏覽器、搜索航班、填寫信息,甚至在付款前提醒你確認(rèn)。這種便利背后,是多模態(tài) AI、鏈?zhǔn)酵评砗?GUI 交互技術(shù)的融合。Manus的86.5% GAIA準(zhǔn)確率和OpenAI在WebVoyager上87%的成功率,意味著AI正在從“聽懂人話”走向“干人活”。

但這條路才剛剛開始,挑戰(zhàn)依然存在?,F(xiàn)階段的Computer Use Agent雖已能在瀏覽器中訂票、在桌面上整理文件,但距離真正無縫接管復(fù)雜工作流仍有距離。比如,OSWorld中人類72.4%的基準(zhǔn),提醒我們AI在通用場景下的魯棒性仍需加強(qiáng);WebArena中58.1%的得分,也暴露了其在動態(tài)任務(wù)中的局限。即便是 Manus,其多智能體架構(gòu)在面對極端場景時是否穩(wěn)定,仍需更多實戰(zhàn)檢驗。

隱私與安全問題更是不容忽視。這些智能體需要頻繁截屏和操作用戶界面,如何確保敏感數(shù)據(jù)不被濫用?OpenAI和Anthropic都強(qiáng)調(diào)了用戶確認(rèn)機(jī)制和不訓(xùn)練用戶數(shù)據(jù)的承諾,但隨著技術(shù)普及,這類問題可能會成為公眾關(guān)注的焦點(diǎn)。還有成本與門檻:Operator 的 $200/月訂閱和Manus的內(nèi)測限制,都提醒我們,真正全民化的Computer Use Agent還需要時間。

成功率與人類差距明顯、部署復(fù)雜性高、隱私安全等問題亟待解決。當(dāng)然,這些問題也正是未來突破的方向。

即便如此,Computer Use Agent的市場潛力令人振奮。Manus的多Agent架構(gòu)或許只是個開始,結(jié)合自適應(yīng)學(xué)習(xí)和更強(qiáng)的多模態(tài)能力,下一代Agent可能實現(xiàn)真正的“自主性”——無需用戶確認(rèn),就能獨(dú)立完成從計劃到執(zhí)行的全流程。

開源社區(qū)的活躍(如Midscene.js、OpenInterpreter)也將加速這一進(jìn)程,更多開發(fā)者正在參與到技術(shù)迭代中。隨著邊緣計算和隱私保護(hù)技術(shù)的進(jìn)步,Agent有望在本地運(yùn)行,降低成本與安全風(fēng)險。

五年后,你的電腦或者手機(jī)可能就會由一個安全、快速、穩(wěn)定的Agent全權(quán)管理,從日程安排到數(shù)據(jù)分析,只需一句話即可搞定。

最后,放一個Anthropic Computer Use的演示視頻動圖,視頻速度為三倍速。

王吉偉頻道新書《一本書讀懂AI Agent:技術(shù)、應(yīng)用與商業(yè)》已出版,輕松讀懂系統(tǒng)掌握AI Agent技術(shù)原理、行業(yè)應(yīng)用、商業(yè)價值及創(chuàng)業(yè)機(jī)會,歡迎大家關(guān)注。

 

本文系作者 王吉偉 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

2026-02-06 23:02

現(xiàn)貨白銀日內(nèi)漲幅擴(kuò)大至8%

2026-02-06 22:59

納斯達(dá)克中國金龍指數(shù)漲2%

2026-02-06 22:59

道瓊斯指數(shù)觸及新紀(jì)錄高位,上漲1.4%

2026-02-06 22:52

吉華集團(tuán):控股股東擬變更為桐廬鈞衡,股票自2月9日起復(fù)牌

2026-02-06 22:47

美股三大股指均漲超1%

2026-02-06 22:46

英偉達(dá)漲幅擴(kuò)大至5%

2026-02-06 22:41

現(xiàn)貨白銀向上觸及76美元/盎司

2026-02-06 22:37

市場監(jiān)管總局召開大型食品銷售連鎖企業(yè)行政指導(dǎo)會

2026-02-06 22:35

亞馬遜盤初跌幅一度達(dá)10%

2026-02-06 22:35

納斯達(dá)克金龍中國指數(shù)漲幅擴(kuò)大至1.5%

2026-02-06 22:33

美股開盤:三大指數(shù)集體高開,存儲概念股走強(qiáng)

2026-02-06 22:29

保險許可證將取消,今年6月起保險機(jī)構(gòu)適用金融許可證

2026-02-06 22:23

輝瑞抗感染創(chuàng)新藥獲批兒科適應(yīng)證

2026-02-06 22:22

國家數(shù)據(jù)局開展2025年度全國數(shù)據(jù)資源統(tǒng)計調(diào)查

2026-02-06 22:21

鹿客科技(北京)股份有限公司遞表港交所

2026-02-06 22:15

海關(guān)總署:嚴(yán)厲打擊非法出口管制物項和偷逃、瞞騙等走私違法行為

2026-02-06 22:07

美伊核談判最新進(jìn)展:雙方就“保持對話”達(dá)成共識,具體條款仍有博弈

2026-02-06 22:00

國家數(shù)據(jù)局局長劉烈宏召開系列專家企業(yè)代表座談會,聽取對“十五五”時期數(shù)字中國規(guī)劃和建設(shè)的意見建議

2026-02-06 21:52

供銷大集:擬參與競拍國投農(nóng)產(chǎn)品60%股權(quán)

2026-02-06 21:48

印度國家證券交易所董事會批準(zhǔn)進(jìn)行IPO

1

掃描下載App