Tabbit成功提取但范圍不準(zhǔn)確

夸克直接顯示無(wú)法提取

我們進(jìn)一步降低指令難度。讓它們?cè)L問(wèn)豆瓣電影Top250頁(yè)面(https://movie.douban.com/top250),提取前10部電影的電影名稱、導(dǎo)演、上映年份、評(píng)分,生成Markdown表格。需要指出的是,夸克依托的是千問(wèn)大模型和千問(wèn)助手,且千問(wèn)已深度融合到夸克中,執(zhí)行回郵件、跨標(biāo)簽分析等眾多智能化功能。

夸克整理的電影排名

Tabbit整理的電影排名

測(cè)試結(jié)果顯示,Tabbit與夸克均成功完成了數(shù)據(jù)抓取并生成了表格,但兩者輸出的內(nèi)容存在差異。在第三部電影《泰坦尼克號(hào)》的數(shù)據(jù)上出現(xiàn)了分歧。

核查后,我們發(fā)現(xiàn)該片在豆瓣的實(shí)際評(píng)分為9.5分,與Tabbit的抓取結(jié)果一致,夸克存在偏差。這一輪,Tabbit表現(xiàn)更優(yōu)。

場(chǎng)景二:讓AI瀏覽器在京東、天貓、拼多多搜索iPhone16Pro 256GB的價(jià)格和庫(kù)存,需識(shí)別現(xiàn)貨、缺貨、預(yù)售等不同表述,選擇有貨且價(jià)格最低的平臺(tái),加入購(gòu)物車但不支付。

測(cè)試結(jié)果顯示,Tabbit與夸克均無(wú)法直接完成加入購(gòu)物車的自動(dòng)化操作,但兩者呈現(xiàn)出不同的應(yīng)對(duì)策略。

夸克明確提示無(wú)法直接訪問(wèn)電商平臺(tái),更無(wú)法執(zhí)行加購(gòu)操作,轉(zhuǎn)而給出的代替方案是,根據(jù)公開資料整理了一份iPhone16Pro 256GB的各平臺(tái)報(bào)價(jià)清單。

Tabbit則呈現(xiàn)出“能訪問(wèn)但執(zhí)行失敗”的狀態(tài)。界面顯示其能夠訪問(wèn)京東、天貓等平臺(tái),并結(jié)合了部分?jǐn)?shù)據(jù)資料,生成了“加入購(gòu)物車”的操作按鈕。

然而,當(dāng)用戶點(diǎn)擊執(zhí)行該操作時(shí),系統(tǒng)顯示報(bào)錯(cuò),實(shí)際并未完成加購(gòu)流程。這表明Tabbit的Agent能力并不穩(wěn)定,最終仍需用戶手動(dòng)跳轉(zhuǎn)至電商平臺(tái)完成購(gòu)買。

Tabbit顯示系統(tǒng)錯(cuò)誤

場(chǎng)景三:讓AI瀏覽器連續(xù)3天上午10點(diǎn)打開某基金凈值頁(yè)面,并復(fù)制數(shù)字到表格上,如果網(wǎng)頁(yè)打不開,等1小時(shí)再試;如果連續(xù)3次打不開,就放棄并報(bào)錯(cuò)。

夸克無(wú)法執(zhí)行定時(shí)任務(wù)

Tabbit無(wú)法執(zhí)行定時(shí)任務(wù)

結(jié)果顯示,Tabbit與夸克均無(wú)法執(zhí)行該任務(wù),表示不具備定時(shí)任務(wù)和后臺(tái)自動(dòng)訪問(wèn)網(wǎng)頁(yè)的能力。

綜合三組測(cè)試結(jié)果可以看出,Tabbit在信息提取和基礎(chǔ)指令執(zhí)行方面具備一定能力,但在復(fù)雜網(wǎng)頁(yè)環(huán)境、跨平臺(tái)操作等場(chǎng)景下,仍存在不足。這種表現(xiàn)也與當(dāng)前AI瀏覽器整體的發(fā)展階段相符,它們能在部分場(chǎng)景中提升效率,但距離真正的“數(shù)字員工”還存在明顯差距。

既搶入口,也練Agent

在不少?gòu)臉I(yè)者看來(lái),當(dāng)前無(wú)論是國(guó)內(nèi)還是國(guó)外,AI瀏覽器仍是一個(gè)技術(shù)復(fù)雜、尚未成熟的領(lǐng)域,商業(yè)模式也遠(yuǎn)未清晰。即便如此,美團(tuán)依然選擇推出Tabbit,背后其想要搶占AI時(shí)代入口有關(guān)。

相比其在本地生活領(lǐng)域穩(wěn)固的地位,美團(tuán)在AI產(chǎn)品尤其是C端產(chǎn)品上的存在感始終不強(qiáng)。

近兩年,美團(tuán)在B端的AI應(yīng)用上已取得一定進(jìn)展,比如面向商家的AI應(yīng)用有“袋鼠參謀”、“袋鼠管家”,但在面向普通消費(fèi)者的C端,始終缺乏一款具有代表性的產(chǎn)品。無(wú)論是此前推出的AI助手“LongCat”,還是美團(tuán)App內(nèi)的智能搜索入口“問(wèn)小團(tuán)”,都未能形成明顯的用戶心智。

與此同時(shí),AI助手的競(jìng)爭(zhēng)已經(jīng)進(jìn)入新的階段。以字節(jié)跳動(dòng)的豆包、阿里的千問(wèn)、騰訊的元寶為代表的產(chǎn)品,正在從“能用”走向“好用”,并不斷向具體場(chǎng)景延伸。大廠的競(jìng)爭(zhēng)焦點(diǎn)已不再是誰(shuí)的AI更聰明,而是看誰(shuí)能成為用戶日常使用AI的主要入口。

在這樣的背景下,AI瀏覽器成為一個(gè)被重新審視的形態(tài)。

與封閉的應(yīng)用不同,瀏覽器天然連接整個(gè)互聯(lián)網(wǎng)信息環(huán)境,這使其具備一種獨(dú)特的能力:在同一界面中完成信息獲取、決策參考乃至后續(xù)操作。疊加AI能力后,理論上可以讓用戶在瀏覽網(wǎng)頁(yè)的過(guò)程中直接調(diào)用智能助手完成任務(wù)。

有技術(shù)人員以點(diǎn)奶茶舉例,用戶在千問(wèn)APP中點(diǎn)奶茶,通常是通過(guò)API接口完成,只能獲取阿里生態(tài)或合作方開放的結(jié)構(gòu)化數(shù)據(jù)(如店名、價(jià)格、庫(kù)存)。而AI瀏覽器模式一旦走通,可直接抓取網(wǎng)頁(yè)上的公開信息,包括各外賣平臺(tái)的實(shí)時(shí)價(jià)格,以及社交媒體上的用戶評(píng)價(jià)做參考,最終讓用戶在一個(gè)界面內(nèi)完成查看攻略-比價(jià)?-下單的全流程。

當(dāng)然,正如前文測(cè)試中的表現(xiàn)那樣,這一能力距離完全成熟仍有距離。但對(duì)于像美團(tuán)這樣同時(shí)擁有大量商家資源與消費(fèi)場(chǎng)景的平臺(tái)來(lái)說(shuō),如果AI瀏覽器形態(tài)能逐步走通,未來(lái)確實(shí)有可能串聯(lián)起龐大的B端商家與豐富的C端消費(fèi)場(chǎng)景,構(gòu)建起一個(gè)從信息決策到交易的完整閉環(huán)。

除了入口意義,AI瀏覽器也是美團(tuán)展示Agent能力的重要載體。

資深A(yù)gent領(lǐng)域?qū)<亿w江杰指出,Agent技術(shù)已成為當(dāng)前AI與軟件行業(yè)最受關(guān)注的方向之一。對(duì)美團(tuán)而言,公司需要一個(gè)合適的平臺(tái)來(lái)展示其大模型在任務(wù)規(guī)劃、自主執(zhí)行等方面的能力,但美團(tuán)App功能相對(duì)固化、場(chǎng)景集中,并非理想的測(cè)試環(huán)境。同時(shí),美團(tuán)還需權(quán)衡Agent的自主決策對(duì)平臺(tái)現(xiàn)有商業(yè)模式(如廣告分發(fā)和流量閉環(huán))可能產(chǎn)生的沖擊。因此,選擇更通用、更開放的瀏覽器作為入口,自然成為技術(shù)落地的新方向。

同樣還是以“點(diǎn)奶茶”為例,當(dāng)用戶向千問(wèn)發(fā)出指令時(shí),得到的通常只是一個(gè)直接的奶茶推薦結(jié)果,用戶無(wú)法知曉其篩選和決策的過(guò)程,而Tabbit這類AI瀏覽器的核心優(yōu)勢(shì)在于,它能將任務(wù)執(zhí)行過(guò)程可視化。即隨著技術(shù)的成熟,用戶可以親眼看到AI是如何一步步操作的:先打開外賣平臺(tái)頁(yè)面,輸入“奶茶”,然后根據(jù)設(shè)定的條件(如價(jià)格、評(píng)分)進(jìn)行篩選,最終將選定的商品加入購(gòu)物車。這種交互形式,比封閉的對(duì)話式響應(yīng)更透明、更可信。

從技術(shù)布局來(lái)看,趙江杰認(rèn)為,美團(tuán)自研的LongCat大模型基礎(chǔ)能力不錯(cuò),但因?yàn)槠鸩捷^晚,與國(guó)內(nèi)頭部梯隊(duì)相比仍有一定距離,但其在Agent方向上投入堅(jiān)決、聚焦明確,此次推出Tabbit,是其將模型能力與實(shí)際應(yīng)用場(chǎng)景結(jié)合的一次重要嘗試。

AI瀏覽器,沒(méi)趕上好時(shí)候?

雖然Tabbit被視為美團(tuán)的一次重要嘗試,但從市場(chǎng)反饋來(lái)看,并沒(méi)有在行業(yè)激起太大水花。

產(chǎn)品上線首日,不少業(yè)內(nèi)人士試用后的評(píng)價(jià)是“與市面上現(xiàn)有的AI瀏覽器功能差異不大”;次日引發(fā)廣泛討論,則是因陷入了抄襲開源代碼的爭(zhēng)議。

但許多從業(yè)者認(rèn)為,行業(yè)的冷靜并不完全是Tabbit本身的問(wèn)題,更重要的原因在于,當(dāng)前行業(yè)的注意力已經(jīng)發(fā)生轉(zhuǎn)移。

近期,無(wú)論國(guó)內(nèi)還是海外,AI領(lǐng)域的關(guān)注焦點(diǎn)已明顯轉(zhuǎn)向能夠深度操控操作系統(tǒng)的Agent,討論度最高的就是OpenClaw。展示出的廣闊想象空間,讓仍停留在應(yīng)用層的AI瀏覽器顯得聲勢(shì)不足。

簡(jiǎn)單來(lái)說(shuō),OpenClaw這類產(chǎn)品的目標(biāo),是讓AI像人一樣操作整臺(tái)電腦:打開軟件、填寫表格、發(fā)送郵件,甚至在不同應(yīng)用之間完成復(fù)雜任務(wù)流程。

盡管技術(shù)路徑不同,但在“替代人工完成重復(fù)操作”這一目標(biāo)上,AI瀏覽器與系統(tǒng)級(jí)Agent確實(shí)存在一定重疊。

比如,當(dāng)用戶需要處理一份數(shù)據(jù)表格時(shí),AI瀏覽器可以操作網(wǎng)頁(yè)版Excel,但如果任務(wù)涉及多個(gè)本地應(yīng)用,例如處理Excel后再發(fā)送到微信,目前還難以獨(dú)立完成。而OpenClaw可以直接操作本地Excel文件,并在不同軟件之間切換,完成整個(gè)流程。

這種能力差異的背后,是兩類產(chǎn)品在技術(shù)架構(gòu)上的不同。

許多AI瀏覽器執(zhí)行操作時(shí),會(huì)截圖再由視覺(jué)模型理解畫面,最后決策并執(zhí)行這一套流程,需花費(fèi)較長(zhǎng)時(shí)間。

而且在處理圖表、游戲等復(fù)雜頁(yè)面時(shí),由于無(wú)法解析底層代碼,只能依賴像素猜測(cè),導(dǎo)致結(jié)果準(zhǔn)確率大大降低。此外,各大網(wǎng)站的防爬機(jī)制也限制了瀏覽器的自動(dòng)化操作。

相比之下,OpenClaw 選擇了一條不同的技術(shù)路徑。它并非AI瀏覽器,而是一個(gè)運(yùn)行在本地的通用AI Agent,其核心能力之一是控制瀏覽器。它的獨(dú)特之處在于,并非依賴多模態(tài)視覺(jué)模型對(duì)頁(yè)面截圖進(jìn)行理解,而是通過(guò)獲取系統(tǒng)的“輔助功能樹”(Accessibility Tree)快照來(lái)解析頁(yè)面。這些快照會(huì)轉(zhuǎn)換為包含按鈕、鏈接、文本框等元素的文本化頁(yè)面結(jié)構(gòu)描述,大語(yǔ)言模型(LLM)通過(guò)閱讀這些文本來(lái)“看見”并理解界面。

簡(jiǎn)而言之,如果說(shuō)傳統(tǒng)AI瀏覽器是從“系統(tǒng)外部”猜測(cè)界面,那么OpenClaw則是從“系統(tǒng)內(nèi)部”直接理解界面。這種更接近底層、更結(jié)構(gòu)化的理解方式,也是許多用戶感覺(jué)OpenClaw表現(xiàn)更為智能的主要原因。

不過(guò),能力越強(qiáng),也意味著更高的風(fēng)險(xiǎn)與門檻。

一方面,系統(tǒng)級(jí)Agent需要獲得更高的操作權(quán)限,一旦指令理解出現(xiàn)偏差,就可能造成誤操作,造成失控風(fēng)險(xiǎn)。有用戶曾報(bào)告其OpenClaw因指令異常,自動(dòng)刪除郵箱郵件,這也讓安全問(wèn)題成為業(yè)內(nèi)討論的焦點(diǎn)。

另一方面,OpenClaw的使用門檻也較高。其部署過(guò)程復(fù)雜,對(duì)普通用戶不夠友好,甚至催生了從數(shù)百元到數(shù)千美元不等的付費(fèi)教安裝服務(wù)。而且持續(xù)調(diào)用大模型API將產(chǎn)生高昂費(fèi)用,一些重度用戶每月開銷可達(dá)數(shù)百美元,被戲稱為“貸款上班”。

從更長(zhǎng)遠(yuǎn)的視角看,AI瀏覽器與系統(tǒng)級(jí)Agent或許并不是簡(jiǎn)單的替代關(guān)系,而更像是Agent發(fā)展的兩條不同路徑:前者依托瀏覽器這一成熟入口,更容易觸達(dá)普通用戶并快速規(guī)?;?;后者能力邊界更大,但在安全、成本上仍有門檻。

在這樣的行業(yè)背景下,Tabbit的處境也頗為微妙。它既是在探索AI瀏覽器這一尚未定型的賽道,也不得不面對(duì)一個(gè)現(xiàn)實(shí),行業(yè)注意力正被更具想象空間的系統(tǒng)級(jí)Agent所吸引。Tabbit能否突圍,就得看產(chǎn)品進(jìn)化的速度能不能跟得上大家的期待了。

本文系作者 AIX財(cái)經(jīng) 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

10:52

現(xiàn)貨黃金向上觸及4700美元

10:52

奢侈品股跌至2022年以來(lái)最低,受需求擔(dān)憂加劇影響

10:48

中央決定:姚來(lái)英任國(guó)家煙草專賣局黨組書記

10:47

美登月版圖巨變,NASA擬讓SpaceX替代波音核心職能

10:44

體育概念震蕩拉升,共創(chuàng)草坪漲停

10:43

小米汽車:新一代SU7“準(zhǔn)現(xiàn)車”鎖單后預(yù)計(jì)1—5周即可交付

10:42

壓力大會(huì)加重皮炎,中國(guó)科學(xué)家首次發(fā)現(xiàn)科學(xué)證據(jù)

10:41

高盛擬4月啟動(dòng)績(jī)效裁員,規(guī)?;?yàn)?%-3%

10:38

今日MMLC電池級(jí)碳酸鋰(早盤)價(jià)格較昨日上漲50元/噸

10:36

世貿(mào)組織:中東沖突或拖累全球貿(mào)易增長(zhǎng)前景

10:35

消息稱英特爾本月底CPU漲價(jià)10%

10:34

籌資1000億美元,亞馬遜貝索斯擬設(shè)立基金收購(gòu)制造企業(yè)并引入AI

10:29

工信部部長(zhǎng)李樂(lè)成調(diào)研信息技術(shù)創(chuàng)新應(yīng)用和未來(lái)產(chǎn)業(yè)發(fā)展研究工作

10:28

滬深兩市成交額突破1萬(wàn)億,較上一日此時(shí)放量超400億

10:27

美國(guó)批準(zhǔn)部分俄羅斯原油的交付與銷售

10:24

預(yù)測(cè)市場(chǎng)Kalshi完成新一輪超10億美元融資,估值達(dá)220億美元

10:22

德國(guó)汽車半導(dǎo)體公司Elmos考慮出售,市值23億歐元

10:22

章源鎢業(yè)上調(diào)3月下半月長(zhǎng)單采購(gòu)報(bào)價(jià)

10:21

太空光伏概念震蕩走強(qiáng),拉普拉斯?jié)q近10%

10:20

聯(lián)邦快遞第三財(cái)季業(yè)績(jī)和展望均超預(yù)期,盤后股價(jià)大漲逾9%

掃描下載App