文 | 新立場(chǎng)Pro
Agent向左,Skill向右垂直深耕與“上下文”戰(zhàn)爭(zhēng)。
2024年,新加坡。一支名為Butterfly Effect的創(chuàng)業(yè)團(tuán)隊(duì)收到了來(lái)自字節(jié)跳動(dòng)的收購(gòu)邀約。字節(jié)開(kāi)價(jià)3000萬(wàn)美元,意圖將這支團(tuán)隊(duì)整合進(jìn)Doubao體系,補(bǔ)齊其當(dāng)時(shí)在通用Agent領(lǐng)域的短板。不過(guò)這筆交易最終未能達(dá)成,創(chuàng)始團(tuán)隊(duì)拒絕了被“吞并”的命運(yùn),理由是估值偏低,更關(guān)鍵的是,他們不愿過(guò)早失去獨(dú)立性。
這次分道揚(yáng)鑣,成為了兩條平行線的分野。
僅僅一年后,創(chuàng)始團(tuán)隊(duì)的賭注就收到了回報(bào)。3月,Butterfly Effect孵化的Manus憑借一段演示視頻在 AI 圈內(nèi)激起漣漪,其展現(xiàn)出的“自主規(guī)劃、全自動(dòng)執(zhí)行”能力,被視為 Agent(智能體)雛形的最佳代表。這種狂熱在年底達(dá)到頂峰,Meta以高溢價(jià)將Manus收入囊中,作為其制衡硅谷企業(yè)級(jí) AI 生態(tài)的關(guān)鍵籌碼。
而就在大洋彼岸為Manus的造富神話歡呼時(shí),字節(jié)跳動(dòng)卻在沉默中完成了另一種轉(zhuǎn)身。
其內(nèi)部一支秘密團(tuán)隊(duì)加速走到了臺(tái)前,沒(méi)有鋪天蓋地的宣發(fā),也沒(méi)有晦澀難懂的技術(shù)白皮書,名為AnyGen的工作流平臺(tái)悄無(wú)聲息地在海外上線。它支持 Google、Apple 和 Lark 登錄,并直接沿用了最順手的策略——免費(fèi)。
在收購(gòu)?fù)碌挠绊懴拢髁黠L(fēng)向傾向于將AnyGen視作Manus的“影子”。但如果將視線從表面的功能清單移開(kāi),會(huì)發(fā)現(xiàn)字節(jié)想要的并不止于此。
Manus的多Agent協(xié)作架構(gòu)能夠?qū)⑷蝿?wù)分解給規(guī)劃、執(zhí)行、驗(yàn)證等不同模塊的Agent,甚至支持一次調(diào)度上百個(gè)智能體并行處理研究任務(wù)。而AnyGen的野心則在于將語(yǔ)音交互、多模態(tài)理解、結(jié)構(gòu)化引導(dǎo)和實(shí)時(shí)協(xié)作編輯深度整合到一個(gè)流暢的工作流中,即在最耗時(shí)的 “反復(fù)返工” 環(huán)節(jié)中,插入一層極度穩(wěn)定的加工與交付能力。
在深度體驗(yàn)并拆解了AnyGen的產(chǎn)品邏輯后,《新立場(chǎng)》發(fā)現(xiàn):字節(jié)其實(shí)是試圖在Microsoft 365、Google Workspace嚴(yán)防死守的辦公領(lǐng)地里,用一種 “反 Agent” 的邏輯,通過(guò)產(chǎn)品端創(chuàng)新與價(jià)格策略 “突圍” 下一代工作流的操作系統(tǒng)。
回顧過(guò)去,Office套件的護(hù)城河在于“格式壟斷”,而AnyGen試圖建立的新秩序在于“流程重塑”。AnyGen去支持Lark的登錄,去兼容PPT的原生格式。因?yàn)橹挥薪鉀Q了交付的確定性,AI 才能真正從“玩具”變成“工具”。
在大象轉(zhuǎn)身的時(shí)刻,AnyGen成為了那只試圖隱入無(wú)形的先遣隊(duì)。
人們熱衷于拿AnyGen和Manus做對(duì)比,無(wú)非是因?yàn)槭袌?chǎng)喜歡“大衛(wèi)挑戰(zhàn)歌利亞”的敘事,或者巨頭之間的鏡像戰(zhàn)爭(zhēng)。但從AI架構(gòu)的角度推演,這兩款產(chǎn)品雖然同屬生產(chǎn)力工具范疇,卻明顯是光譜的兩極。
Manus代表的是硅谷當(dāng)前最火熱的敘事——通用智能體。它的核心邏輯是“全自動(dòng)代理”。用戶只需給出一個(gè)高層次的指令,例如“幫我規(guī)劃去日本的旅行并預(yù)定酒店,順便做一份預(yù)算表”。Manus便會(huì)接管你的瀏覽器和操作系統(tǒng)。通過(guò)多模態(tài)模型感知識(shí)別屏幕,規(guī)劃步驟,點(diǎn)擊鼠標(biāo),輸入文字,甚至在網(wǎng)頁(yè)崩潰時(shí)像人一樣嘗試刷新或切換路徑。
Manus的目標(biāo)是讓你“躺平”。它像一個(gè)獨(dú)立的數(shù)字員工,強(qiáng)調(diào)自治性。但在企業(yè)級(jí)應(yīng)用中,Manus所代表的“長(zhǎng)鏈路全自動(dòng)Agent”在當(dāng)前模型能力下面臨著一個(gè)數(shù)學(xué)上的死結(jié)——“誤差級(jí)聯(lián)”。
簡(jiǎn)單來(lái)講,假設(shè)一個(gè) Agent 完成任務(wù)需要連續(xù)執(zhí)行 10 個(gè)步驟(規(guī)劃-搜索-閱讀-篩選-決策),即使每一步的模型準(zhǔn)確率高達(dá) 95%(這在復(fù)雜推理中已是極高標(biāo)準(zhǔn)),最終任務(wù)成功的概率也只有59%。這意味著,完全放任 Agent 自主執(zhí)行,會(huì)導(dǎo)致近一半的任務(wù)失敗。
Manus 試圖通過(guò)并發(fā)調(diào)度“上百個(gè)智能體”來(lái)解決這個(gè)問(wèn)題,這在本質(zhì)上類似于OpenAI在o1模型中使用的“思維鏈”與“自我博弈”技術(shù):通過(guò)增加推理側(cè)的計(jì)算量來(lái)?yè)Q取準(zhǔn)確度。
但 Manus 的激進(jìn)在于,它試圖在開(kāi)放的互聯(lián)網(wǎng)環(huán)境中進(jìn)行這種博弈,環(huán)境的不可控性(網(wǎng)頁(yè)變動(dòng)、驗(yàn)證碼、非結(jié)構(gòu)化數(shù)據(jù))會(huì)讓模型的規(guī)劃樹(Tree of Thoughts)迅速發(fā)散,導(dǎo)致計(jì)算成本指數(shù)級(jí)上升而效果收斂緩慢。
AnyGen則完全不同,它內(nèi)置的技能(Skills)并非完全自主的Agent,而是經(jīng)過(guò)封裝的、高穩(wěn)定性的系統(tǒng)提示詞與工具鏈。它的定位直指“Notion的協(xié)作能力 + Google NotebookLM的知識(shí)總結(jié)力 + Manus的任務(wù)執(zhí)行力”的三位一體。
AnyGen 的高效運(yùn)作依賴于一套精密編排的 Agent 協(xié)作機(jī)制。這種機(jī)制將模糊的自然語(yǔ)言需求轉(zhuǎn)化為精確的執(zhí)行指令,并通過(guò)多階段流轉(zhuǎn)來(lái)確保結(jié)果的準(zhǔn)確性。在這一流程中,系統(tǒng)能夠自動(dòng)識(shí)別任務(wù)間的依賴關(guān)系。例如,在撰寫輿情周報(bào)時(shí),針對(duì)不同媒體渠道(微博、微信、外媒)的信息搜集任務(wù)可以同時(shí)啟動(dòng),顯著提升數(shù)據(jù)獲取速度。 而當(dāng)某一路徑(如特定網(wǎng)頁(yè)無(wú)法訪問(wèn))受阻時(shí),Agent 不會(huì)直接報(bào)錯(cuò)終止,而是會(huì)嘗試替代方案(如使用搜索引擎快照、查找其他信源),或者在最終報(bào)告中明確標(biāo)注缺失部分,交由人工接管。
字節(jié)看得很清楚:在當(dāng)下的技術(shù)周期里,完全自動(dòng)化的Agent依然面臨信任壁壘,在嚴(yán)肅的辦公場(chǎng)景中,用戶需要的是一個(gè)能深度增強(qiáng)人類能力的副手。
這種區(qū)別在社區(qū)內(nèi)被稱為“Agent派”與“Skill派”的分野。Manus希望你“放手”,它負(fù)責(zé)搞定一切,風(fēng)險(xiǎn)在于過(guò)程的不可控。AnyGen希望你“共創(chuàng)”,它負(fù)責(zé)搞定那些繁瑣、重復(fù)、易出錯(cuò)的中間環(huán)節(jié),核心決策權(quán)始終在人手中。因此,Manus和AnyGen的競(jìng)爭(zhēng)關(guān)系很弱,更多的是生態(tài)位的互補(bǔ)。
《新立場(chǎng)》認(rèn)為,現(xiàn)有最高效的方案是構(gòu)建一個(gè)混合工作流,以小馭大:將長(zhǎng)鏈路、復(fù)雜自動(dòng)化任務(wù)委托給 Manus 執(zhí)行,而在最終交付物的專業(yè)潤(rùn)色、可編輯呈現(xiàn)和視覺(jué)優(yōu)化(如報(bào)告或 PPT)階段,轉(zhuǎn)向 AnyGen 進(jìn)行打磨。
- 調(diào)研階段: 派Manus去全網(wǎng)搜集全球最成功的10個(gè)同類App的功能點(diǎn)和定價(jià)策略(利用其廣度搜索和自主規(guī)劃能力)。
- 內(nèi)化階段: 將資料喂給NotebookLM,通過(guò)對(duì)話理清思路,生成一份產(chǎn)品功能清單。
- 交付階段: 將清單拷貝到AnyGen,生成一份產(chǎn)品路演PPT或UI設(shè)計(jì)說(shuō)明文檔,并在AnyGen里微調(diào)視覺(jué)細(xì)節(jié),直到可以發(fā)給團(tuán)隊(duì)。
在“反復(fù)返工”中尋找確定性
辦公賽道從來(lái)不缺玩家,但卻是最難被“跑通”的領(lǐng)域。
微軟的Microsoft 365生態(tài)坐擁十億用戶,但其本質(zhì)是在舊時(shí)代的龐大軀體上嫁接AI,Word還是那個(gè)Word,Excel還是那個(gè)Excel。AI 生成的每一段文字,都需要用戶在繁雜的菜單欄里進(jìn)行二次加工。Notion AI足夠靈活,但在深度數(shù)據(jù)處理和多模態(tài)整合上始終隔著一層窗戶紙。
現(xiàn)實(shí)中,大多數(shù) AI 辦公工具的崩潰時(shí)刻往往發(fā)生在生成之后:文檔出來(lái)了,打工人得面對(duì)高昂的修正成本;PPT生成了,還得處理格式走樣、模板崩壞的“返工地獄”。AnyGen試圖切入的,就是這個(gè)“反復(fù)返工”的痛點(diǎn)。
《新立場(chǎng)》在實(shí)測(cè)中,發(fā)現(xiàn)AnyGen展現(xiàn)出了一種有別于競(jìng)品的“確定性”。
以“數(shù)據(jù)調(diào)研報(bào)告”為例。當(dāng)輸入“分析過(guò)去30天Twitter上關(guān)于Gemini的討論聲量”時(shí),AnyGen并不是簡(jiǎn)單地調(diào)用大模型生成一段似是而非的評(píng)論,而是內(nèi)置了一個(gè)類似爬蟲的Agent去實(shí)時(shí)抓取數(shù)據(jù)。
它直接扒取了Twitter的公開(kāi)數(shù)據(jù),生成了一份包含可視化圖表、分析文本、明細(xì)表格的完整報(bào)告。更關(guān)鍵的是,報(bào)告的顆粒度雖然尚不及專業(yè)分析師,但報(bào)告的格式是結(jié)構(gòu)化的,可以直接導(dǎo)出,直接匯報(bào)。
再看PPT場(chǎng)景,AnyGen接收到指令“把鏈接里的播客變成PPT”時(shí),會(huì)收集用戶的演示偏好(目標(biāo)受眾、字體風(fēng)格)生成原生“.pptx”文件。雖然內(nèi)容還是圖片,但是已經(jīng)可以用幻燈片的方式來(lái)播放。
傳統(tǒng)的 LLM 是基于概率預(yù)測(cè)下一個(gè) token,這天生是發(fā)散的。但 AnyGen 顯然在模型后端加了一層強(qiáng)約束,當(dāng)用戶要求生成 PPT 時(shí),模型不再是生成“文本”,而是生成一段可被執(zhí)行的 Python 代碼或 JSON 結(jié)構(gòu),并在內(nèi)置的沙盒環(huán)境中試運(yùn)行。
《新立場(chǎng)》認(rèn)為,這很好地反映了字節(jié) AI 產(chǎn)品的思路——“代碼即策略”,模型不直接畫圖,而是編寫一段調(diào)用PowerPoint API 的代碼。代碼要么運(yùn)行成功,要么報(bào)錯(cuò)重試,不存在“畫歪了”這種中間狀態(tài)。
這種將非結(jié)構(gòu)化的自然語(yǔ)言轉(zhuǎn)化為確定性的形式語(yǔ)言的能力,也是 AnyGen 敢于承諾“零返工”的底氣所在。
AnyGen目前僅面向海外,但將其置于全球競(jìng)爭(zhēng)的棋盤上,我們能更清晰地看到字節(jié)的處境。在海外,工具鏈極其破碎。Slack溝通,Notion記筆記,Zoom開(kāi)會(huì),Google Docs協(xié)作。這種碎片化給了AnyGen巨大的機(jī)會(huì),它可以用“All-in-One”的工作空間故事,去整合這些零散的需求。
但如果AnyGen未來(lái)回歸國(guó)內(nèi)市場(chǎng),它第一步要做的不是橫向?qū)Ρ裙δ?,而是找?zhǔn)自己的生態(tài)位。在國(guó)內(nèi),它將遭遇兩股更強(qiáng)勢(shì)的競(jìng)爭(zhēng)力量。
第一類是辦公套件內(nèi)生的 AI,以金山WPS和微軟Office為代表。這類競(jìng)品的最大優(yōu)勢(shì)在于它們本身就是“交付現(xiàn)場(chǎng)”。模板、字體、版式規(guī)范、協(xié)作審閱,這一切都發(fā)生在同一個(gè)系統(tǒng)內(nèi)。套件型AI默認(rèn)解決了所有新工具都繞不開(kāi)的死穴:遷移成本。當(dāng)用戶在WPS里生成PPT時(shí),不需要搬運(yùn)數(shù)據(jù),也不需要擔(dān)心導(dǎo)出走樣。
第二類是超級(jí)入口的輕量化打擊,以夸克、百度文庫(kù)為代表??淇说倪壿嬍菍PT生產(chǎn)從沉重的辦公套件中剝離,變成一種高頻、移動(dòng)端、隨手可得的輕量消費(fèi)能力。這種入口位置帶來(lái)的分發(fā)效應(yīng)極其恐怖。
面對(duì)Office的深厚積淀與Manus的前沿探索,AnyGen選擇了一條更為務(wù)實(shí)的兼容之路。它試圖在經(jīng)典的交付標(biāo)準(zhǔn)與新興的智能體驗(yàn)之間,架起一座通行的橋梁。在這家巨頭看來(lái),進(jìn)入生產(chǎn)力場(chǎng)景不只是為了占領(lǐng)地盤,更是為了在 AI 時(shí)代,為用戶提供一種確定性的工作方式。
為什么是現(xiàn)在?為什么是辦公場(chǎng)景?
一個(gè)明顯的趨勢(shì)是大模型作為底層基座的戰(zhàn)爭(zhēng)已經(jīng)結(jié)束,應(yīng)用層的戰(zhàn)爭(zhēng)才剛剛開(kāi)始。而跑出來(lái)的產(chǎn)品,大多不是“什么都能做”的通用工具,而是“把一件事做透”的垂直應(yīng)用。例如寫作的星月寫作,語(yǔ)音博客的Listenhub,以及圖像設(shè)計(jì)領(lǐng)域的Lovart。
這種風(fēng)向的轉(zhuǎn)變,在剛剛落幕的CES 2026上得到了最直觀的印證。
相比于兩年前CES 2024對(duì)AI無(wú)限期待的“野心”,今年的拉斯維加斯少了幾分關(guān)于通用模型的宏大敘事。相比于那些試圖在云端回答一切的大模型,市場(chǎng)將更多的聚光燈打向了“第二大腦”類的應(yīng)用載體。從Plaud的錄音貼片到Vocci的指環(huán),參展商們不再執(zhí)著于展示模型參數(shù)的大小,而是競(jìng)相展示如何更精準(zhǔn)地捕捉會(huì)議記錄、如何更高效地整理個(gè)人數(shù)據(jù)。
在《新立場(chǎng)》看來(lái),其傳遞了一個(gè)清晰的信號(hào):AI的戰(zhàn)場(chǎng)已經(jīng)從“定義物理邊界”,轉(zhuǎn)移到了“爭(zhēng)奪數(shù)據(jù)上下文”。 無(wú)論是美國(guó)的科技巨頭還是出海的中國(guó)企業(yè),大家都在尋找具體的支點(diǎn)。畢竟只有當(dāng)AI開(kāi)始處理具體的會(huì)議摘要、整理具體的待辦事項(xiàng)時(shí),它才算真正從表演性質(zhì)的“Show”變成了能干實(shí)事的“Work”。
而細(xì)分來(lái)看,AI應(yīng)用們?cè)诖怪眻?chǎng)景的深度,比通用能力的廣度更重要。Manus試圖做通用Agent,什么都能干,但往往什么都不夠深。AnyGen聚焦在“辦公交付”這一個(gè)場(chǎng)景,反而更容易做出差異化。
這背后的核心邏輯在于“Context”(上下文/語(yǔ)境)。
程序員為什么是最先享受到AI紅利的人群?因?yàn)镚ithub Copilot擁有代碼庫(kù)這個(gè)最完美的Context。AI知道你的函數(shù)怎么寫,知道你的變量怎么定義,它不需要揣摩你的意圖。
但在通用的辦公場(chǎng)景中,AI往往是“盲”的。它不知道你公司的PPT模板是什么,不知道你的匯報(bào)對(duì)象喜歡什么風(fēng)格,不知道你上周的會(huì)議紀(jì)要是怎么寫的。那些AI不知道的痛點(diǎn),才是做AI產(chǎn)品最應(yīng)該知道的Context。
對(duì)于辦公用戶,讓他們?nèi)?gòu)建工作Agent、去寫System Prompt、去調(diào)試API是不現(xiàn)實(shí)的。AnyGen試圖解決的,就是這種辦公場(chǎng)景的Context。
這也是字節(jié)最擅長(zhǎng)的環(huán)節(jié):將隱性的用戶需求顯性化。當(dāng)年做頭條,把“信息分發(fā)”的邏輯變成了算法;做抖音,把“娛樂(lè)消遣”的邏輯變成了短視頻流。如今做AnyGen,字節(jié)也在試圖把“辦公協(xié)作”的隱性流程,變成企業(yè)級(jí)AI生態(tài)的顯性技能。
不同于多數(shù) AI 工具采用分層訂閱或按功能付費(fèi),AnyGen從一開(kāi)始即提供完全免費(fèi)的體驗(yàn)版本,甚至允許企業(yè)用戶通過(guò)邀請(qǐng)碼直接試用。
在 SaaS 普遍追求訂閱付費(fèi)、Token 成本依然高昂的當(dāng)下,字節(jié)意圖通過(guò)免費(fèi)策略,構(gòu)建一個(gè)覆蓋全球的“過(guò)程獎(jiǎng)勵(lì)模型”(Process Reward Model, PRM)訓(xùn)練場(chǎng)。
在大模型訓(xùn)練的scaling laws中,最稀缺的資源已從原始靜態(tài)的文本數(shù)據(jù),過(guò)渡到人類在復(fù)雜任務(wù)中的“過(guò)程反饋”。當(dāng)用戶在 AnyGen 里手動(dòng)修正了 AI 生成的周報(bào)摘要,或者調(diào)整了 PPT 的一張配圖,這個(gè)“修改”動(dòng)作本身,就是一個(gè)價(jià)值連城的梯度下降信號(hào)。
它教會(huì)模型的也不僅僅是“結(jié)果是什么”,還有“如何到達(dá)結(jié)果”。
在昂貴的 Token 成本面前,字節(jié)表現(xiàn)出的這種“松弛”,如果不被解讀為一場(chǎng)針對(duì)存量市場(chǎng)的降維圍獵,似乎很難從商業(yè)邏輯上自洽。 顯然,比起賬戶里即刻到賬的現(xiàn)金流,這家巨頭更在意的是如何將用戶的使用習(xí)慣留在自己的生態(tài)之內(nèi)。
寫在最后
計(jì)算機(jī)先驅(qū)約瑟夫·利克萊德在1960年提出了“人機(jī)共生”的概念。他設(shè)想,人類設(shè)定目標(biāo)、構(gòu)建假設(shè)、確定標(biāo)準(zhǔn),而計(jì)算機(jī)負(fù)責(zé)那些可程序化的、繁瑣的計(jì)算工作。
六十多年過(guò)去了,Manus和AnyGen的出現(xiàn),似乎正在逼近這個(gè)愿景的兩個(gè)側(cè)面。Manus向左,試圖讓機(jī)器更像人,擁有完全的自主權(quán);AnyGen向右,試圖讓人更像神,擁有無(wú)所不能的工具箱。
這也給所有的AI創(chuàng)業(yè)者提了個(gè)醒:AI生產(chǎn)力軟件加速普及的同時(shí),在大廠和獨(dú)立開(kāi)發(fā)者的夾縫中,初創(chuàng)AI公司生存空間正在被壓縮。AI時(shí)代創(chuàng)業(yè)需要想清楚,如何在大廠和獨(dú)立開(kāi)發(fā)者的夾縫中,找到一個(gè)可以快速積累產(chǎn)生數(shù)據(jù)壁壘的發(fā)展區(qū)。
既摒棄了大廠的各種合規(guī)和流程,又逃開(kāi)了獨(dú)立開(kāi)發(fā)者的Vibe Coding。
對(duì)于字節(jié)跳動(dòng)而言,AnyGen顯然是其在AI時(shí)代的一次重要落子——試圖將觸角伸向更嚴(yán)肅、更底層的生產(chǎn)力領(lǐng)域。
飛書(Lark)作為字節(jié)的辦公套件,在國(guó)內(nèi)有著極高的口碑,但在海外市場(chǎng),面對(duì)Slack和Teams的圍剿,Lark的壓力一直不小。但如果AnyGen能把語(yǔ)音記錄和多模態(tài)輸入轉(zhuǎn)成結(jié)構(gòu)化文檔與演示材料,并進(jìn)一步在飛書里完成分發(fā)、協(xié)作修改、評(píng)論審閱與版本管理,它就有機(jī)會(huì)繞開(kāi)遷移成本。
這就解釋了為什么AnyGen強(qiáng)調(diào)“協(xié)作”而非“全自動(dòng)”。因?yàn)橹挥袇f(xié)作,才能讓人留在Lark的生態(tài)里;只有留在生態(tài)里,才能產(chǎn)生粘性。
當(dāng)Agent隱入工作流,字節(jié)這頭龐大的大象,或許離真正地“隱入無(wú)形”也就不遠(yuǎn)了。







快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論