Tabbit成功提取但范圍不準(zhǔn)確
![]()
夸克直接顯示無(wú)法提取
我們進(jìn)一步降低指令難度。讓它們?cè)L問(wèn)豆瓣電影Top250頁(yè)面(https://movie.douban.com/top250),提取前10部電影的電影名稱、導(dǎo)演、上映年份、評(píng)分,生成Markdown表格。需要指出的是,夸克依托的是千問(wèn)大模型和千問(wèn)助手,且千問(wèn)已深度融合到夸克中,執(zhí)行回郵件、跨標(biāo)簽分析等眾多智能化功能。
![]()
夸克整理的電影排名
![]()
Tabbit整理的電影排名
測(cè)試結(jié)果顯示,Tabbit與夸克均成功完成了數(shù)據(jù)抓取并生成了表格,但兩者輸出的內(nèi)容存在差異。在第三部電影《泰坦尼克號(hào)》的數(shù)據(jù)上出現(xiàn)了分歧。
核查后,我們發(fā)現(xiàn)該片在豆瓣的實(shí)際評(píng)分為9.5分,與Tabbit的抓取結(jié)果一致,夸克存在偏差。這一輪,Tabbit表現(xiàn)更優(yōu)。
場(chǎng)景二:讓AI瀏覽器在京東、天貓、拼多多搜索iPhone16Pro 256GB的價(jià)格和庫(kù)存,需識(shí)別現(xiàn)貨、缺貨、預(yù)售等不同表述,選擇有貨且價(jià)格最低的平臺(tái),加入購(gòu)物車但不支付。
測(cè)試結(jié)果顯示,Tabbit與夸克均無(wú)法直接完成加入購(gòu)物車的自動(dòng)化操作,但兩者呈現(xiàn)出不同的應(yīng)對(duì)策略。
夸克明確提示無(wú)法直接訪問(wèn)電商平臺(tái),更無(wú)法執(zhí)行加購(gòu)操作,轉(zhuǎn)而給出的代替方案是,根據(jù)公開資料整理了一份iPhone16Pro 256GB的各平臺(tái)報(bào)價(jià)清單。
Tabbit則呈現(xiàn)出“能訪問(wèn)但執(zhí)行失敗”的狀態(tài)。界面顯示其能夠訪問(wèn)京東、天貓等平臺(tái),并結(jié)合了部分?jǐn)?shù)據(jù)資料,生成了“加入購(gòu)物車”的操作按鈕。
然而,當(dāng)用戶點(diǎn)擊執(zhí)行該操作時(shí),系統(tǒng)顯示報(bào)錯(cuò),實(shí)際并未完成加購(gòu)流程。這表明Tabbit的Agent能力并不穩(wěn)定,最終仍需用戶手動(dòng)跳轉(zhuǎn)至電商平臺(tái)完成購(gòu)買。
![]()
Tabbit顯示系統(tǒng)錯(cuò)誤
場(chǎng)景三:讓AI瀏覽器連續(xù)3天上午10點(diǎn)打開某基金凈值頁(yè)面,并復(fù)制數(shù)字到表格上,如果網(wǎng)頁(yè)打不開,等1小時(shí)再試;如果連續(xù)3次打不開,就放棄并報(bào)錯(cuò)。
![]()
夸克無(wú)法執(zhí)行定時(shí)任務(wù)
![]()
Tabbit無(wú)法執(zhí)行定時(shí)任務(wù)
結(jié)果顯示,Tabbit與夸克均無(wú)法執(zhí)行該任務(wù),表示不具備定時(shí)任務(wù)和后臺(tái)自動(dòng)訪問(wèn)網(wǎng)頁(yè)的能力。
綜合三組測(cè)試結(jié)果可以看出,Tabbit在信息提取和基礎(chǔ)指令執(zhí)行方面具備一定能力,但在復(fù)雜網(wǎng)頁(yè)環(huán)境、跨平臺(tái)操作等場(chǎng)景下,仍存在不足。這種表現(xiàn)也與當(dāng)前AI瀏覽器整體的發(fā)展階段相符,它們能在部分場(chǎng)景中提升效率,但距離真正的“數(shù)字員工”還存在明顯差距。
在不少?gòu)臉I(yè)者看來(lái),當(dāng)前無(wú)論是國(guó)內(nèi)還是國(guó)外,AI瀏覽器仍是一個(gè)技術(shù)復(fù)雜、尚未成熟的領(lǐng)域,商業(yè)模式也遠(yuǎn)未清晰。即便如此,美團(tuán)依然選擇推出Tabbit,背后與其想要搶占AI時(shí)代的入口有關(guān)。
相比其在本地生活領(lǐng)域穩(wěn)固的地位,美團(tuán)在AI產(chǎn)品尤其是C端產(chǎn)品上的存在感始終不強(qiáng)。
近兩年,美團(tuán)在B端的AI應(yīng)用上已取得一定進(jìn)展,比如面向商家的AI應(yīng)用有“袋鼠參謀”、“袋鼠管家”,但在面向普通消費(fèi)者的C端,始終缺乏一款具有代表性的產(chǎn)品。無(wú)論是此前推出的AI助手“LongCat”,還是美團(tuán)App內(nèi)的智能搜索入口“問(wèn)小團(tuán)”,都未能形成明顯的用戶心智。
與此同時(shí),AI助手的競(jìng)爭(zhēng)已經(jīng)進(jìn)入新的階段。以字節(jié)跳動(dòng)的豆包、阿里的千問(wèn)、騰訊的元寶為代表的產(chǎn)品,正在從“能用”走向“好用”,并不斷向具體場(chǎng)景延伸。大廠的競(jìng)爭(zhēng)焦點(diǎn)已不再是誰(shuí)的AI更聰明,而是看誰(shuí)能成為用戶日常使用AI的主要入口。
在這樣的背景下,AI瀏覽器成為一個(gè)被重新審視的形態(tài)。
與封閉的應(yīng)用不同,瀏覽器天然連接整個(gè)互聯(lián)網(wǎng)信息環(huán)境,這使其具備一種獨(dú)特的能力:在同一界面中完成信息獲取、決策參考乃至后續(xù)操作。疊加AI能力后,理論上可以讓用戶在瀏覽網(wǎng)頁(yè)的過(guò)程中直接調(diào)用智能助手完成任務(wù)。
有技術(shù)人員以點(diǎn)奶茶舉例,用戶在千問(wèn)APP中點(diǎn)奶茶,通常是通過(guò)API接口完成,只能獲取阿里生態(tài)或合作方開放的結(jié)構(gòu)化數(shù)據(jù)(如店名、價(jià)格、庫(kù)存)。而AI瀏覽器模式一旦走通,可直接抓取網(wǎng)頁(yè)上的公開信息,包括各外賣平臺(tái)的實(shí)時(shí)價(jià)格,以及社交媒體上的用戶評(píng)價(jià)做參考,最終讓用戶在一個(gè)界面內(nèi)完成查看攻略-比價(jià)?-下單的全流程。
當(dāng)然,正如前文測(cè)試中的表現(xiàn)那樣,這一能力距離完全成熟仍有距離。但對(duì)于像美團(tuán)這樣同時(shí)擁有大量商家資源與消費(fèi)場(chǎng)景的平臺(tái)來(lái)說(shuō),如果AI瀏覽器形態(tài)能逐步走通,未來(lái)確實(shí)有可能串聯(lián)起龐大的B端商家與豐富的C端消費(fèi)場(chǎng)景,構(gòu)建起一個(gè)從信息決策到交易的完整閉環(huán)。
除了入口意義,AI瀏覽器也是美團(tuán)展示Agent能力的重要載體。
資深A(yù)gent領(lǐng)域?qū)<亿w江杰指出,Agent技術(shù)已成為當(dāng)前AI與軟件行業(yè)最受關(guān)注的方向之一。對(duì)美團(tuán)而言,公司需要一個(gè)合適的平臺(tái)來(lái)展示其大模型在任務(wù)規(guī)劃、自主執(zhí)行等方面的能力,但美團(tuán)App功能相對(duì)固化、場(chǎng)景集中,并非理想的測(cè)試環(huán)境。同時(shí),美團(tuán)還需權(quán)衡Agent的自主決策對(duì)平臺(tái)現(xiàn)有商業(yè)模式(如廣告分發(fā)和流量閉環(huán))可能產(chǎn)生的沖擊。因此,選擇更通用、更開放的瀏覽器作為入口,自然成為技術(shù)落地的新方向。
同樣還是以“點(diǎn)奶茶”為例,當(dāng)用戶向千問(wèn)發(fā)出指令時(shí),得到的通常只是一個(gè)直接的奶茶推薦結(jié)果,用戶無(wú)法知曉其篩選和決策的過(guò)程,而Tabbit這類AI瀏覽器的核心優(yōu)勢(shì)在于,它能將任務(wù)執(zhí)行過(guò)程可視化。即隨著技術(shù)的成熟,用戶可以親眼看到AI是如何一步步操作的:先打開外賣平臺(tái)頁(yè)面,輸入“奶茶”,然后根據(jù)設(shè)定的條件(如價(jià)格、評(píng)分)進(jìn)行篩選,最終將選定的商品加入購(gòu)物車。這種交互形式,比封閉的對(duì)話式響應(yīng)更透明、更可信。
從技術(shù)布局來(lái)看,趙江杰認(rèn)為,美團(tuán)自研的LongCat大模型基礎(chǔ)能力不錯(cuò),但因?yàn)槠鸩捷^晚,與國(guó)內(nèi)頭部梯隊(duì)相比仍有一定距離,但其在Agent方向上投入堅(jiān)決、聚焦明確,此次推出Tabbit,是其將模型能力與實(shí)際應(yīng)用場(chǎng)景結(jié)合的一次重要嘗試。
雖然Tabbit被視為美團(tuán)的一次重要嘗試,但從市場(chǎng)反饋來(lái)看,并沒(méi)有在行業(yè)激起太大水花。
產(chǎn)品上線首日,不少業(yè)內(nèi)人士試用后的評(píng)價(jià)是“與市面上現(xiàn)有的AI瀏覽器功能差異不大”;次日引發(fā)廣泛討論,則是因陷入了抄襲開源代碼的爭(zhēng)議。
但許多從業(yè)者認(rèn)為,行業(yè)的冷靜并不完全是Tabbit本身的問(wèn)題,更重要的原因在于,當(dāng)前行業(yè)的注意力已經(jīng)發(fā)生轉(zhuǎn)移。
近期,無(wú)論國(guó)內(nèi)還是海外,AI領(lǐng)域的關(guān)注焦點(diǎn)已明顯轉(zhuǎn)向能夠深度操控操作系統(tǒng)的Agent,討論度最高的就是OpenClaw。其展示出的廣闊想象空間,讓仍停留在應(yīng)用層的AI瀏覽器顯得聲勢(shì)不足。
簡(jiǎn)單來(lái)說(shuō),OpenClaw這類產(chǎn)品的目標(biāo),是讓AI像人一樣操作整臺(tái)電腦:打開軟件、填寫表格、發(fā)送郵件,甚至在不同應(yīng)用之間完成復(fù)雜任務(wù)流程。
盡管技術(shù)路徑不同,但在“替代人工完成重復(fù)操作”這一目標(biāo)上,AI瀏覽器與系統(tǒng)級(jí)Agent確實(shí)存在一定重疊。
比如,當(dāng)用戶需要處理一份數(shù)據(jù)表格時(shí),AI瀏覽器可以操作網(wǎng)頁(yè)版Excel,但如果任務(wù)涉及多個(gè)本地應(yīng)用,例如處理Excel后再發(fā)送到微信,目前還難以獨(dú)立完成。而OpenClaw可以直接操作本地Excel文件,并在不同軟件之間切換,完成整個(gè)流程。
這種能力差異的背后,是兩類產(chǎn)品在技術(shù)架構(gòu)上的不同。
許多AI瀏覽器執(zhí)行操作時(shí),會(huì)截圖再由視覺(jué)模型理解畫面,最后決策并執(zhí)行這一套流程,需花費(fèi)較長(zhǎng)時(shí)間。
而且在處理圖表、游戲等復(fù)雜頁(yè)面時(shí),由于無(wú)法解析底層代碼,只能依賴像素猜測(cè),導(dǎo)致結(jié)果準(zhǔn)確率大大降低。此外,各大網(wǎng)站的防爬機(jī)制也限制了瀏覽器的自動(dòng)化操作。
相比之下,OpenClaw 選擇了一條不同的技術(shù)路徑。它并非AI瀏覽器,而是一個(gè)運(yùn)行在本地的通用AI Agent,其核心能力之一是控制瀏覽器。它的獨(dú)特之處在于,并非依賴多模態(tài)視覺(jué)模型對(duì)頁(yè)面截圖進(jìn)行理解,而是通過(guò)獲取系統(tǒng)的“輔助功能樹”(Accessibility Tree)快照來(lái)解析頁(yè)面。這些快照會(huì)轉(zhuǎn)換為包含按鈕、鏈接、文本框等元素的文本化頁(yè)面結(jié)構(gòu)描述,大語(yǔ)言模型(LLM)通過(guò)閱讀這些文本來(lái)“看見”并理解界面。
簡(jiǎn)而言之,如果說(shuō)傳統(tǒng)AI瀏覽器是從“系統(tǒng)外部”猜測(cè)界面,那么OpenClaw則是從“系統(tǒng)內(nèi)部”直接理解界面。這種更接近底層、更結(jié)構(gòu)化的理解方式,也是許多用戶感覺(jué)OpenClaw表現(xiàn)更為智能的主要原因。
不過(guò),能力越強(qiáng),也意味著更高的風(fēng)險(xiǎn)與門檻。
一方面,系統(tǒng)級(jí)Agent需要獲得更高的操作權(quán)限,一旦指令理解出現(xiàn)偏差,就可能造成誤操作,造成失控風(fēng)險(xiǎn)。有用戶曾報(bào)告其OpenClaw因指令異常,自動(dòng)刪除郵箱郵件,這也讓安全問(wèn)題成為業(yè)內(nèi)討論的焦點(diǎn)。
另一方面,OpenClaw的使用門檻也較高。其部署過(guò)程復(fù)雜,對(duì)普通用戶不夠友好,甚至催生了從數(shù)百元到數(shù)千美元不等的付費(fèi)教安裝服務(wù)。而且持續(xù)調(diào)用大模型API將產(chǎn)生高昂費(fèi)用,一些重度用戶每月開銷可達(dá)數(shù)百美元,被戲稱為“貸款上班”。
從更長(zhǎng)遠(yuǎn)的視角看,AI瀏覽器與系統(tǒng)級(jí)Agent或許并不是簡(jiǎn)單的替代關(guān)系,而更像是Agent發(fā)展的兩條不同路徑:前者依托瀏覽器這一成熟入口,更容易觸達(dá)普通用戶并快速規(guī)?;?;后者能力邊界更大,但在安全、成本上仍有門檻。
在這樣的行業(yè)背景下,Tabbit的處境也頗為微妙。它既是在探索AI瀏覽器這一尚未定型的賽道,也不得不面對(duì)一個(gè)現(xiàn)實(shí),行業(yè)注意力正被更具想象空間的系統(tǒng)級(jí)Agent所吸引。Tabbit能否突圍,就得看產(chǎn)品進(jìn)化的速度能不能跟得上大家的期待了。
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論