最新亚洲中文字幕AV,岛国大片在线观看

緊隨其后，2025年1月，OpenAI推出了Operator及其核心模型Computer-Using Agent（CUA），將這一領(lǐng)域推向新高度。與Anthropic的“Computer Use”術(shù)語不同，OpenAI采用了“CUA”這一更具技術(shù)感的命名。

Operator被定義為“通過強(qiáng)化學(xué)習(xí)融合GPT-4o視覺能力與高級推理的模型”，能夠直接與圖形用戶界面（GUI）交互，無需依賴特定API。OpenAI強(qiáng)調(diào)，CUA不僅能處理瀏覽器任務(wù)（如訂票、購物），還具備擴(kuò)展至桌面應(yīng)用的潛力，展現(xiàn)了從“對話AI”向“行動AI”的轉(zhuǎn)型趨勢。但僅限$200/月的Pro用戶使用門檻，仍然勸退了大部分人。

直到2025年3月，Monica.im團(tuán)隊(duì)發(fā)布了號稱“全球首款通用型 AI Agent”的Manus，進(jìn)一步將Computer Use Agent的概念推向產(chǎn)品化。Manus 的宣傳語更是直擊用戶痛點(diǎn)：獨(dú)立思考、規(guī)劃并執(zhí)行復(fù)雜任務(wù)，覆蓋40多個領(lǐng)域。它不僅能處理文件、分析數(shù)據(jù)，還能創(chuàng)作內(nèi)容，甚至在 GAIA 基準(zhǔn)測試中以 86.5% 的準(zhǔn)確率碾壓競品，成本卻僅為對手的1/10。

相比Claude的實(shí)驗(yàn)性和Operator的高不可攀，Manus更注重用戶體驗(yàn)與實(shí)用性，目前雖處于內(nèi)測階段，但已計(jì)劃開源部分模型，顯示出更大的野心。只是，大部分人到現(xiàn)在還拿不到邀請碼。

需要說明的是，Computer Use Agent玩家已經(jīng)有不少。比如Google DeepMind推出的基于Gemini 2的Project Mariner基于，主攻瀏覽器自動化；微軟則通過Windows Agent Arena探索多模態(tài)OSAgent，同時微軟還有UFO、OmniParser等多個開源項(xiàng)目。智譜的GLM-PC則以CogAgent為核心，支持跨平臺任務(wù)。

擴(kuò)展閱讀：還拿不到Manus邀請碼？試試這幾款開箱即用的computer use智能體，附教程

這些項(xiàng)目各有側(cè)重，但都指向一個共同目標(biāo)：讓AI成為真正能夠操作一切的數(shù)字助手。當(dāng)然開源社區(qū)也不甘落后，像OpenInterpreter、OpenAdapt等早期項(xiàng)目層出不窮。而快速復(fù)刻Manus的OpenManus、OWL等項(xiàng)目也正在快速迭代中，并有更多項(xiàng)目正在開發(fā)。

這些進(jìn)展不僅體現(xiàn)了AI從“理解”到“執(zhí)行”的轉(zhuǎn)變，也引發(fā)了我們對未來人機(jī)交互的想象。說了那么多，到底什么是Computer Use Agent？目前都有哪些產(chǎn)品和開源項(xiàng)目？有沒有相關(guān)的學(xué)術(shù)論文可以學(xué)習(xí)？這篇文章，王吉偉頻道就給大家聊聊這些，也歡迎大家在文末留言討論。

從Claude 3.5 Sonnet談起

Anthropic在2024年10月發(fā)布發(fā)布Claude 3.5 Sonnet的時候，重點(diǎn)介紹了它的computer use能力。當(dāng)時“能夠操作電腦的模型”火了很長一段時間，但后來就偃旗息鼓了。這是為什么呢？主要在于大家對它的感知并不強(qiáng)，因?yàn)樾枰渴?，不懂點(diǎn)代碼的人都體驗(yàn)不了。

公開測試版中引入了一項(xiàng)突破性的新功能：計(jì)算機(jī)使用（computer use）。今天在應(yīng)用編程接口上，開發(fā)人員可以指導(dǎo)克勞德像人們一樣使用計(jì)算機(jī)——通過看屏幕、移動光標(biāo)、點(diǎn)擊按鈕和鍵入文本。

Claude 3.5 Sonnet是第一個在公開測試版中提供計(jì)算機(jī)使用的前沿人工智能模型。在現(xiàn)階段，它仍處于試驗(yàn)階段——有時很麻煩，容易出錯。我們將提前發(fā)布計(jì)算機(jī)使用情況，以供開發(fā)人員反饋，并預(yù)計(jì)隨著時間的推移，該功能將迅速改進(jìn)。

作為首款支持此能力的前沿模型，Claude 3.5 Sonnet在OSWorld基準(zhǔn)測試中取得了14.9%的成功率，雖然遠(yuǎn)低于人類的70-75%，但已顯著領(lǐng)先同類AI的7.8%。

其實(shí)Anthropic到目前推出的還只是CUA的demo體驗(yàn)項(xiàng)目，王吉偉頻道在去年11月體驗(yàn)過，它需要通過docker進(jìn)行部署。懂點(diǎn)代碼感興趣的小伙伴，可以部署體驗(yàn)一下。

而OpanAI在發(fā)布Operator以后，重點(diǎn)介紹了計(jì)算機(jī)使用Agent。在用詞方面，OpanAI與Anthropic稍有區(qū)別，用的是 Computer-Using Agent (CUA)。原文如下：

Operator（opens in a new window）是一個可以轉(zhuǎn)到Web為用戶執(zhí)行任務(wù)的Agent，而為它提供動力的正是CUA，這是一種過強(qiáng)化學(xué)習(xí)將GPT-4o的視覺能力與高級推理相結(jié)合的模型。CUA 經(jīng)過訓(xùn)練，可以像人類一樣與圖形用戶界面（GUI）交互，即人們在屏幕上看到的按鈕、菜單和文本字段。這使它能夠靈活地執(zhí)行數(shù)字任務(wù)，而無需使用特定于作系統(tǒng)或 Web 的 API。

CUA建立在多模態(tài)理解和推理交叉點(diǎn)的多年基礎(chǔ)研究之上。通過將高級GUI感知與結(jié)構(gòu)化問題解決相結(jié)合，它可以將任務(wù)分解為多步驟計(jì)劃，并在出現(xiàn)挑戰(zhàn)時自適應(yīng)地自我糾正。此功能標(biāo)志著 AI 開發(fā)的下一步，允許模型使用人類每天依賴的相同工具，并為大量新應(yīng)用打開大門。

在官方介紹中，這種設(shè)計(jì)讓CUA在OSWorld中拿下38.1%的成功率，在WebVoyager中更是高達(dá)87%，接近人類水平。OpenAI強(qiáng)調(diào)，CUA不僅能處理瀏覽器任務(wù)（如訂票、購物），還具備擴(kuò)展至桌面應(yīng)用的潛力，展現(xiàn)了從“對話AI”向“行動AI”的轉(zhuǎn)型趨勢。不過，Operator目前僅限$200/月的Pro用戶使用，門檻依然不低。

CUA依賴視覺模型和高級推理模型，兩種能力也決定了CUA的能力。所以Manus發(fā)布之后，很多復(fù)刻它的開源項(xiàng)目比如OpenManus等目前在體驗(yàn)上還有所欠缺，在于大家在模型的選擇上使用兼容OpenAI Function Call的模型，但在推理方面要差一些。

最近OpenAI還發(fā)布了集成至Responses API的工具包Computer Use Tool，允許開發(fā)者調(diào)用模型生成的鼠標(biāo)/鍵盤操作，覆蓋網(wǎng)頁和部分桌面應(yīng)用場景。

Manus是由Monica.im團(tuán)隊(duì)開發(fā)的一款通用型AI智能體，于2025年3月發(fā)布，旨在通過自主任務(wù)閉環(huán)能力直接交付復(fù)雜任務(wù)成果，而非僅提供建議。它采用多Agent架構(gòu)，將任務(wù)拆解為子任務(wù)并執(zhí)行，覆蓋辦公提效、數(shù)據(jù)分析、跨平臺工具集成等多種場景，支持高精度動作捕捉和團(tuán)隊(duì)協(xié)作功能。

其規(guī)劃Agent使用蒙特卡洛樹搜索優(yōu)化任務(wù)拆解效率，執(zhí)行Agent調(diào)用多種工具完成任務(wù)，驗(yàn)證Agent則確保結(jié)果準(zhǔn)確性。Manus在GAIA基準(zhǔn)測試中表現(xiàn)卓越，基礎(chǔ)任務(wù)得分86.5分，中等難度任務(wù)得分70.1分，高難度任務(wù)得分57.7分，單任務(wù)成本僅為競品的 1/10，展現(xiàn)了強(qiáng)大的任務(wù)執(zhí)行能力，并且遠(yuǎn)超同期競品。

Manus的出現(xiàn)標(biāo)志著AI智能體技術(shù)的新高度，其低代碼化設(shè)計(jì)使用戶無需編程即可搭建自動化流程。由于其強(qiáng)大的功能，開源社區(qū)迅速推出了多個復(fù)刻項(xiàng)目，如OpenManus和OWL，它們分別由MetaGPT團(tuán)隊(duì)和CAMEL AI團(tuán)隊(duì)開發(fā)，支持網(wǎng)頁瀏覽、文件操作、代碼編寫等任務(wù)，且在GAIA測試中表現(xiàn)優(yōu)異。

Manus及其復(fù)刻項(xiàng)目在辦公效率提升、生活服務(wù)升級和專業(yè)領(lǐng)域支持等方面具有廣泛的應(yīng)用前景，有望在更多場景中發(fā)揮重要作用，推動AI技術(shù)的進(jìn)一步發(fā)展。

從Claude 3.5 Sonnet到Operator，再到Manus，Computer Use Agent的進(jìn)化路徑逐漸清晰。Claude開啟了這一領(lǐng)域的探索，強(qiáng)調(diào)視覺感知與GUI交互；CUA則在推理與適應(yīng)性上邁出關(guān)鍵一步；而Manus通過多Agent協(xié)作與成本優(yōu)化，試圖將技術(shù)落地到日常場景。

通過上面的介紹，相信大家對computer use已經(jīng)有了初步認(rèn)識。

CUA 的定義與工作原理

結(jié)合各種文獻(xiàn)以及科技博文，可以為Computer Use Agent下一個簡單的定義。

Computer Use Agent是一種能夠過其圖形用戶界面（GUI）與計(jì)算機(jī)應(yīng)用程序交互的AI系統(tǒng)。旨在通過計(jì)算機(jī)應(yīng)用程序的GUI控制計(jì)算機(jī)應(yīng)用程序并與之交互。這些Agent可以模仿人類用戶操作計(jì)算機(jī)的行為，執(zhí)行單擊按鈕、填寫表單、單擊按鈕、導(dǎo)航菜單和滾動等任務(wù)。

這些Agent由高級AI模型提供支持，通常將大型語言模型（LLM）與多模態(tài)視覺功能相結(jié)合，使用屏幕感知、通過語言模型做出決策以及模擬鼠標(biāo)/鍵盤輸入來執(zhí)行任務(wù)。例如，OpenAI 的Operator 由其計(jì)算機(jī)使用Agent （CUA）模型提供支持，可以通過處理屏幕截圖并與 Web 瀏覽器交互來在線預(yù)訂音樂會門票或訂購雜貨。

CUA處理屏幕截圖中的原始像素?cái)?shù)據(jù)，以了解屏幕上發(fā)生的情況。這使它能夠像人類用戶一樣與按鈕、菜單和文本字段交互，無需特定于平臺的 API。其過程可分為三個步驟：

這種結(jié)構(gòu)化的工作流程使 CUA 能夠處理復(fù)雜的多步驟任務(wù)，并在遇到錯誤時進(jìn)行自我糾正，使其成為數(shù)字問題解決的強(qiáng)大工具。

在主要功能和基準(zhǔn)方面，OpenAI對CUA在計(jì)算機(jī)使用和基于瀏覽器的任務(wù)方面都樹立了新的基準(zhǔn)，證明了它在不同環(huán)境中的靈活性。它的性能已經(jīng)使用 OSWorld、WebArena 和 WebVoyager 等平臺進(jìn)行了評估：

這些基準(zhǔn)測試突出了 CUA 使用屏幕、鼠標(biāo)和鍵盤的單一通用界面在數(shù)字環(huán)境中有效運(yùn)行的能力。但是，在更復(fù)雜的場景中仍有改進(jìn)的空間，例如人類成功率更高的 WebArena 任務(wù)。

CUA 最引人注目的方面之一是它能夠?qū)⑷蝿?wù)分解為多步驟計(jì)劃并在面臨挑戰(zhàn)時動態(tài)適應(yīng)。例如，如果網(wǎng)頁無法正確加載或任務(wù)偏離預(yù)期路徑，CUA 可以實(shí)時調(diào)整其策略。這種靈活性通過將 GUI 感知與結(jié)構(gòu)化問題解決相結(jié)合而變得很有價值。

需要說明的是，Computer Use Agent和GUI Agent經(jīng)常被混淆。兩種智能體各有其獨(dú)特的優(yōu)勢和適用場景：Computer Use Agent 更適合處理復(fù)雜的多任務(wù)和跨平臺操作，GUI Agent則在圖形用戶界面交互和精準(zhǔn)操作方面表現(xiàn)出色。還有一些項(xiàng)目，則是兩種技術(shù)融合型的智能體。關(guān)于GUI Agent，我會在后面的文章中跟大家介紹。

CUA相關(guān)的產(chǎn)品

除了前文提到的Claude的Computer Use 、Operator、Manus ，目前對外公布的已經(jīng)產(chǎn)品化\應(yīng)用化的CUA產(chǎn)品，還有以下幾個。

Google DeepMind推出的Project Mariner，構(gòu)建于Google的Gemini 2模型之上。該公司在12月展示了Mariner，但稱其為 “早期研究原型”，并表示目前僅向 “受信任的測試人員” 提供該工具。

Project Mariner目前僅在 Chrome 瀏覽器中運(yùn)行，并且僅在活動選項(xiàng)卡中運(yùn)行，用戶執(zhí)行其他任務(wù)時，它不會在后臺運(yùn)行。雖然這個要求似乎在某種程度上違背了擁有一個節(jié)省時間的 AI 助手的目的，但它可能只是這個早期開發(fā)階段的臨時條件。

Flowith是一款類似Manus的AI Agent產(chǎn)品，旨在通過其獨(dú)特的節(jié)點(diǎn)式交互方式和強(qiáng)大的AI功能，為用戶提供高效、多線程的AI交互體驗(yàn)。它不僅支持多種先進(jìn)的AI模型，還提供了知識管理、內(nèi)容創(chuàng)作、自動化任務(wù)執(zhí)行等功能，適合內(nèi)容創(chuàng)作者、研究人員、企業(yè)員工等多類用戶

Google AI Studio是一個集成了多種 AI 功能且易于使用的 AI 開發(fā)平臺，專注于簡化 AI 模型的創(chuàng)建、優(yōu)化和部署流程。該應(yīng)用旨在降低 AI 開發(fā)的門檻，使開發(fā)者無需深厚的機(jī)器學(xué)習(xí)背景也能快速上手，同時為專業(yè)開發(fā)者提供強(qiáng)大的工具支持，以滿足復(fù)雜項(xiàng)目的需求，快速實(shí)現(xiàn) AI 驅(qū)動的創(chuàng)新項(xiàng)目。

Google AI Studio有一個功能是與程序互動，通過文字或者語音讓Google AI Studio通過瀏覽器或者電腦做一些自動化的操作。

Midscene.js是一個Web 自動化開源項(xiàng)目，旨在讓AI成為瀏覽器操作員。用戶只需用自然語言描述需求，AI就能操作網(wǎng)頁、驗(yàn)證內(nèi)容和提取數(shù)據(jù)。它支持多種模型，包括UI-TARS和Qwen2.5-VL等開源模型，適用于UI自動化場景。

Midscene Chrome 擴(kuò)展還支持一種橋接模式，允許用戶使用本地腳本來控制 Chrome的桌面版本。下面是關(guān)于橋接模式的說明文檔，感興趣的小伙伴可以自行探索。

GLM-PC是智譜公司推出的一款基于多模態(tài)大模型CogAgent的電腦智能體。它能夠像人類一樣“觀察”和“操作”計(jì)算機(jī)，協(xié)助用戶高效完成各類電腦任務(wù)，如文檔處理、網(wǎng)頁搜索、信息整理、社交互動等。

目前GLM-PC 已經(jīng)迭代升級到基于智譜多模態(tài)大模型 CogAgent的1.1.1版本，推出“深度思考”模式，同時支持 Windows和Mac 系統(tǒng)。大家可以通過以下網(wǎng)址，訪問GLM-PC官網(wǎng)，下載適合自己系統(tǒng)的軟件版本，這里也附上安裝指南。

事實(shí)上，在Manus火爆之前已經(jīng)有不少CUA相關(guān)的開源項(xiàng)目，這里列舉一些。

OpenInterpreter是一個自然語言接口工具，允許大型語言模型在本地運(yùn)行代碼，支持Python、JavaScript等多種語言。用戶可以通過類似ChatGPT的界面與計(jì)算機(jī)互動，執(zhí)行文件編輯、瀏覽器控制和數(shù)據(jù)分析等任務(wù)。

OpenAdapt是一個開源的行為克隆和模仿學(xué)習(xí)框架，旨在幫助AI通過觀察人類行為來學(xué)習(xí)任務(wù)。它支持多種應(yīng)用，包括自動化任務(wù)和復(fù)雜操作的簡化。

OpenInterface是一個開源項(xiàng)目，提供簡潔的API接口，支持多種編程語言和框架，幫助開發(fā)者快速實(shí)現(xiàn)功能集成和自動化任務(wù)。

OmniParserV2，能夠?qū)⒋笮驼Z言模型（LLM）轉(zhuǎn)化為具備計(jì)算機(jī)操作能力的智能Agent。通過視覺解析技術(shù)，將用戶界面（UI）的屏幕截圖轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)，使 LLM 能夠理解和操作圖形用戶界面（GUI），從而實(shí)現(xiàn)跨平臺的自動化任務(wù)。

E2B Desktop Sandbox是一個桌面沙盒環(huán)境，專為開發(fā)者設(shè)計(jì)，提供安全的測試和開發(fā)平臺，支持多種操作系統(tǒng)和開發(fā)工具。

該項(xiàng)目為MacOS提供了Claude計(jì)算機(jī)使用的演示工具，幫助用戶快速上手AI驅(qū)動的計(jì)算機(jī)操作。

提供開箱即用的計(jì)算機(jī)使用體驗(yàn)，支持多種操作系統(tǒng)，旨在簡化用戶與計(jì)算機(jī)的交互。

將Claude集成到Minecraft中，提供AI輔助功能，幫助玩家在游戲中實(shí)現(xiàn)自動化任務(wù)和復(fù)雜操作。

Grunty是一個開源的AI工具，支持多種任務(wù)自動化，適用于簡單和復(fù)雜的操作。

一個自運(yùn)行計(jì)算機(jī)框架，支持自動化操作，適用于需要低干預(yù)的復(fù)雜任務(wù)。

Anthropic為Mac設(shè)計(jì)的計(jì)算機(jī)使用工具，提供AI驅(qū)動的交互體驗(yàn)。

一個開源的AI驅(qū)動工具，支持多種應(yīng)用，包括自動化任務(wù)和復(fù)雜操作。

一個輕量級的AI機(jī)器人框架，適用于快速開發(fā)和部署，高級計(jì)算機(jī)控制。

提供用戶界面自動化操作的工具，支持多種操作系統(tǒng)和應(yīng)用。

支持MCP的可靠Agent框架，集成瀏覽器使用和計(jì)算機(jī)使用。

一個由視覺語言模型驅(qū)動的計(jì)算機(jī)控制Agent項(xiàng)目。它創(chuàng)建了一個與真實(shí)計(jì)算機(jī)屏幕交互的環(huán)境，Agent可通過鼠標(biāo)和鍵盤操作觀察屏幕截圖并控制GUI。

由MetaGPT團(tuán)隊(duì)開發(fā)的開源復(fù)刻版 Manus，旨在復(fù)刻并改進(jìn) Manus 的核心功能，提供無需邀請碼、可本地化部署的智能體解決方案。該項(xiàng)目基于模塊化設(shè)計(jì)，支持多種語言模型（如 GPT-4、Claude 3.5、Qwen VL Plus 等）和工具鏈。采用 ReAct（推理與行動）框架，將復(fù)雜任務(wù)分解為可執(zhí)行的子步驟，并動態(tài)協(xié)調(diào)工具調(diào)用。提供實(shí)時反饋機(jī)制，用戶可以直觀地看到 AI 的思考過程和任務(wù)執(zhí)行進(jìn)度。

OWL（Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation）是由CAMEL-AI團(tuán)隊(duì)開發(fā)的開源多智能體協(xié)作框架，旨在復(fù)刻并超越Manus的核心功能。OWL專注于通過多智能體協(xié)作實(shí)現(xiàn)任務(wù)自動化，其目標(biāo)是徹底變革AI智能體解決現(xiàn)實(shí)任務(wù)的方式。

OpenHands是一個由AI驅(qū)動的軟件開發(fā)代理平臺，核心定位是“讓AI智能體成為全棧開發(fā)者”。它能夠執(zhí)行代碼修改、命令運(yùn)行、網(wǎng)頁瀏覽、API調(diào)用，甚至可以從StackOverflow復(fù)制代碼片段。

安全云 Linux 計(jì)算機(jī)。它通過鍵盤、鼠標(biāo)和 shell 命令操作計(jì)算機(jī)，支持 10 + LLMs，并可直播沙盒顯示。

Anthropic 的 Computer Use 的開源實(shí)現(xiàn)，旨在使用 PyAutoGUI 庫代表用戶執(zhí)行精確高效的系統(tǒng)作。它可以自動化鍵盤、鼠標(biāo)和屏幕交互，同時確保每項(xiàng)任務(wù)的安全性和準(zhǔn)確性。

1、計(jì)算機(jī)使用的人工智能Agent：基于指令的計(jì)算機(jī)控制、GUI自動化和運(yùn)算符助手綜述

AI Agents for Computer Use: A Review of Instruction-based Computer Control, GUI Automation, and Operator Assistants

從環(huán)境、交互和Agent的角度建立計(jì)算機(jī)控制Agent（CCA）分類法的綜合綜述，分析了86個CCA和33個數(shù)據(jù)集

2、OS Agent：關(guān)于用于一般計(jì)算設(shè)備的基于 MLLM 的Agent的調(diào)查

論文地址：https://openreview.net/pdf/ed2f5ee6b84c3b118cb953b6e750486dbd700419.pdf

UFO是一種以UI為中心的創(chuàng)新Agent，利用GPT-Vision功能滿足Windows操作系統(tǒng)上應(yīng)用程序的用戶請求。滿足用戶請求方面表現(xiàn)出色，首個為Windows任務(wù)完成定制的UIAgent。

4、PC Agent：當(dāng)你睡覺時，AI 工作 -- 進(jìn)入數(shù)字世界的認(rèn)知之旅

通過 PC Tracker 收集高質(zhì)量人機(jī)交互軌跡，經(jīng)兩階段認(rèn)知完成管道轉(zhuǎn)化，再由多Agent系統(tǒng)結(jié)合決策規(guī)劃與視覺接地，實(shí)現(xiàn)復(fù)雜數(shù)字工作能力。

5、OS-Copilot：邁向具有自我提升能力的通才計(jì)算機(jī)Agent

OS-Copilot框架，旨在構(gòu)建能與操作系統(tǒng)中多種元素交互的通用Agent。

6、OSWorld：在真實(shí)計(jì)算機(jī)環(huán)境中為開放式任務(wù)對多模式Agent進(jìn)行基準(zhǔn)測試

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

用于多模式Agent的可擴(kuò)展真實(shí)計(jì)算機(jī)環(huán)境，支持跨多種操作系統(tǒng)（如 Ubuntu、Windows 和 macOS）的任務(wù)設(shè)置、基于執(zhí)行的評估和交互式學(xué)習(xí)。

一個專注于Windows操作系統(tǒng)的可復(fù)現(xiàn)通用環(huán)境，旨在評估多模態(tài)操作系統(tǒng)Agent的性能。

8、ScreenAgent：Vision Language 模型驅(qū)動的計(jì)算機(jī)控制Agent

一個由視覺語言模型（VLM）驅(qū)動的計(jì)算機(jī)控制Agent。研究團(tuán)隊(duì)構(gòu)建了一個讓Agent與真實(shí)計(jì)算機(jī)屏幕交互的環(huán)境，Agent可通過鼠標(biāo)和鍵盤操作觀察屏幕并操控圖形用戶界面。

后記：機(jī)遇和挑戰(zhàn)并存

聊到這里，相信大家對Computer Use Agent已經(jīng)有了全面的認(rèn)知。從Claude 3.5 Sonne 電腦使用的推出，到OpenAI CUA的性能飛躍，再到Manus的通用化落地，毫無疑問這個領(lǐng)域?qū)⒃?025年迎來快速增長。越來越多產(chǎn)品和項(xiàng)目的出現(xiàn)，意味著它們不再是實(shí)驗(yàn)性項(xiàng)目，而是正在走進(jìn)我們的數(shù)字生活。

未來幾年，你可能只需說一句“幫我訂明天去舊金山的機(jī)票”，一個智能體就會流暢地自動打開瀏覽器、搜索航班、填寫信息，甚至在付款前提醒你確認(rèn)。這種便利背后，是多模態(tài) AI、鏈?zhǔn)酵评砗?GUI 交互技術(shù)的融合。Manus的86.5% GAIA準(zhǔn)確率和OpenAI在WebVoyager上87%的成功率，意味著AI正在從“聽懂人話”走向“干人活”。

但這條路才剛剛開始，挑戰(zhàn)依然存在?，F(xiàn)階段的Computer Use Agent雖已能在瀏覽器中訂票、在桌面上整理文件，但距離真正無縫接管復(fù)雜工作流仍有距離。比如，OSWorld中人類72.4%的基準(zhǔn)，提醒我們AI在通用場景下的魯棒性仍需加強(qiáng)；WebArena中58.1%的得分，也暴露了其在動態(tài)任務(wù)中的局限。即便是 Manus，其多智能體架構(gòu)在面對極端場景時是否穩(wěn)定，仍需更多實(shí)戰(zhàn)檢驗(yàn)。

隱私與安全問題更是不容忽視。這些智能體需要頻繁截屏和操作用戶界面，如何確保敏感數(shù)據(jù)不被濫用？OpenAI和Anthropic都強(qiáng)調(diào)了用戶確認(rèn)機(jī)制和不訓(xùn)練用戶數(shù)據(jù)的承諾，但隨著技術(shù)普及，這類問題可能會成為公眾關(guān)注的焦點(diǎn)。還有成本與門檻：Operator 的 $200/月訂閱和Manus的內(nèi)測限制，都提醒我們，真正全民化的Computer Use Agent還需要時間。

成功率與人類差距明顯、部署復(fù)雜性高、隱私安全等問題亟待解決。當(dāng)然，這些問題也正是未來突破的方向。

即便如此，Computer Use Agent的市場潛力令人振奮。Manus的多Agent架構(gòu)或許只是個開始，結(jié)合自適應(yīng)學(xué)習(xí)和更強(qiáng)的多模態(tài)能力，下一代Agent可能實(shí)現(xiàn)真正的“自主性”——無需用戶確認(rèn)，就能獨(dú)立完成從計(jì)劃到執(zhí)行的全流程。

開源社區(qū)的活躍（如Midscene.js、OpenInterpreter）也將加速這一進(jìn)程，更多開發(fā)者正在參與到技術(shù)迭代中。隨著邊緣計(jì)算和隱私保護(hù)技術(shù)的進(jìn)步，Agent有望在本地運(yùn)行，降低成本與安全風(fēng)險(xiǎn)。

五年后，你的電腦或者手機(jī)可能就會由一個安全、快速、穩(wěn)定的Agent全權(quán)管理，從日程安排到數(shù)據(jù)分析，只需一句話即可搞定。

最后，放一個Anthropic Computer Use的演示視頻動圖，視頻速度為三倍速。

王吉偉頻道新書《一本書讀懂AI Agent：技術(shù)、應(yīng)用與商業(yè)》已出版，輕松讀懂系統(tǒng)掌握AI Agent技術(shù)原理、行業(yè)應(yīng)用、商業(yè)價值及創(chuàng)業(yè)機(jī)會，歡迎大家關(guān)注。

本文系作者王吉偉授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

快報(bào)