在這項任務中,大語言模型需要驅動OpenClaw閱讀一份名為openclaw_report.pdf的研究報告,并回答8個具體的問題,比如:
“過濾前社區(qū)內的技能總共有多少?(正確答案5705)”
“第二大類別的技能是什么?(正確答案Search & Research: 253)”
這項任務可以完全由程序自動化評分。Python腳本會檢查生成的answer.txt文件,不僅會核對數(shù)字是否精準匹配,還會用正則表達式驗證日期格式以及關鍵詞是否存在。
評分標準也相當嚴格,哪怕答對7道題,在最后一個簡單問題上只要錯了一位數(shù)字,得分也是零。這種設計正是為了考察智能體最基本的結構化和非結構化信息提取能力和精確執(zhí)行能力。
第二道題是skills倉庫中的task no.16:競爭市場研究。
![]()
相比于前面的任務,這項任務更貼近用戶的實際應用場景,要求智能體生成一份企業(yè)級的應用性能監(jiān)控市場競爭分析報告。
要完成這項任務,智能體需要經過識別頭部廠商、分析差異化定位、梳理定價模式、輸出結構化Markdown文檔等復雜環(huán)節(jié),這對于人類來說也是一項工作量相當大的任務。
因此,這項任務采用混合評分,自動化部分負責檢查“是否寫夠5個競品”、“有無對比表格”等評判標準,研究質量、分析洞察則交給頂尖模型打分,打分標準甚至會精細到“風格是否接近于人類商業(yè)分析師”、“趨勢是否與真實商業(yè)動態(tài)吻合”。
在了解評測機制以后,我們來一起看看評測結果。
PinchBench將評測結果劃分為三個維度:成功率、速度和成本。
成功率方面,排名第一的選手來自Google,但令人意外的是,不是智能化程度最高的旗艦模型Gemini 3.1 Pro,而是性價比最高、面向海量智能體任務而設計的Gemini 3.1 Flash Lite。
![]()
更值得關注的是,這一次,國產大模型沒有在性能上被甩開,MiniMax的MiniMax-M2.1和月之暗面的Kimi-K2.5這兩個霸占OpenClaw API調用量排行榜的國產模型位列第二、第三,與Google的差距盡在毫厘之間。
速度方面,MiniMax-M2.5更是直接登頂,阿里的Qwen3-Max-Thinking和智譜的GLM-5也沖進前十名,位列第六、第七。
![]()
在絕大部分用戶最關心的成本方面,和我們此前預測的一樣,國產AI模型在成本端相比國際頂級大模型具備明顯優(yōu)勢。
![]()
可以看到,Gemini、GPT、Claude和Grok四家最新的旗艦模型都無緣前十,輕量級模型和舊版本模型雖然成本低廉,但成功率卻沒有保證,總成本未必占優(yōu)。
另外,值得注意的是,不同模型之間的成本差異巨大,排名第十的Qwen3-Coder-Next的token成本已經超過排名第一的GPT-5-Nano的12倍,而這還只是最優(yōu)情況下消耗的成本。
在實際應用中,用戶最需要的是模型能“把活干好”,在這個基礎之上開銷當然越低越好。
![]()
若是把這張結合了任務成功率和成本的綜合圖劃分為四個區(qū)域,左上角就代表“便宜且好用”,右上角則是“貴但是好用”。
到MiniMax、月之暗面和智譜的模型名稱恰好都出現(xiàn)在左上角區(qū)域。
這也反映出技術層面上的現(xiàn)實:
Agent時代的到來,有效縮短了底層大模型之間的能力差距。
而國產大模型不僅有token成本上的優(yōu)勢,在智能體任務上的性能也已經達到國際頂尖水平。
回到最近的產業(yè)動態(tài),騰訊的這次公益活動可以說是把OpenClaw的使用門檻徹底抹除了。
即便無法線下參與,相比此前各大AI平臺推出的“一鍵部署”功能,掃碼登錄+一次點擊+復制粘貼的方式也已經沒有什么技術難度。
深圳龍崗區(qū)甚至準備出臺相關政策來扶持OpenClaw。
這一系列的重磅消息,屬實有些讓人不知所措,技術社區(qū)的人們甚至感覺有些荒唐。
在看完上面PinchBench的內容后,大家應該已經明白:
打著免費的旗號安裝OpenClaw,實際上并不免費。
因為這背后隱藏著一個極其容易被忽視的技術細節(jié):運行智能體和直接調用大語言模型,在資源消耗上完全是兩個概念。
前面的文章中我們也說過,直接調用大語言模型這種一問一答的聊天,消耗相對可控。
但用Agent干活則完全不同,搜索網頁、閱讀報告、整理文件、分析總結,這些人類習以為常的工作,對AI來說就是成百上千次的API調用和token消耗。
更可怕的是,這種消耗是不透明的。越模糊的指令,意味著智能體需要進行工具調用、上下文回溯、錯誤重試的次數(shù)越多。
交互次數(shù)的線性增長,帶來的是token消耗的指數(shù)級上升。
這種極其隱蔽的資源消耗邏輯,以及OpenClaw可能帶來的安全風險,對于沖著“免費安裝”去的普通用戶來說是致命的。
這也解釋了技術社區(qū)的態(tài)度為什么會與普通用戶近期的態(tài)度截然相反。
騰訊這次公益活動的后續(xù)消息也能一定程度上反映這個問題:在為用戶免費安裝OpenClaw,還頒發(fā)“小龍蝦出生證明”后,幾個小時過去就已經有網友反饋賬戶被持續(xù)小額扣費,累計200元以上。
雖然騰訊馬上回應稱費用是歷史行為產生,與OpenClaw部署無關,但這已經給用戶們敲響了警鐘:免費安裝絕不等于免費使用。
而近期各大國產AI企業(yè)接連推出Coding Plan相關產品作為直接購買API的高性價比替代方案,本質上也是一種銷售多余token和云服務器的方式。
對于這次“養(yǎng)蝦”熱潮,Linuxdo論壇上一位用戶評論道:
![]()
言辭雖然有些偏激,但卻一針見血。
“折騰”本身沒有錯,技術愛好者們探索新工具、嘗試新方案,這就是推動技術進步的源動力。
但回到產品本身,OpenClaw仍然面臨一個尷尬的局面:部署門檻幾乎為零,但有效使用門檻依然很高。
或許,這個周末安裝OpenClaw的大部分人,都享受到了部署成功那一瞬間的成就感,有了茶余飯后“我也在養(yǎng)蝦”的談資,卻無法感受到工具本身能夠帶來的實際價值。
在技術社區(qū)中,我看到一個值得分享的觀點:
使用OpenClaw的人應該具備以下三個條件:
①非常明確OpenClaw能做什么;
②非常明確OpenClaw如何實現(xiàn)價值;
③帶著目的去使用并實現(xiàn)良好的效果;
但現(xiàn)實往往與之相反:很多人因為跟風或好奇而安裝OpenClaw,結果發(fā)現(xiàn)天馬行空的預期與實際的能力邊界完全對不上,“一句話干完一天活”的幻想落空后又不清楚OpenClaw還能做什么,最后自然無法實現(xiàn)預期效果,要么放在那里再也不動,要么直接卸載刪除。
這就是典型的“產品能力超前,用戶需求滯后”。
現(xiàn)在的這波熱潮,本質上只是新一輪的跟風。前有一鍵部署,后有免費安裝,跟風“養(yǎng)蝦”的人越來越多,魚缸里的寵物也越來越多。
不可否認的是,在革命性的新產品誕生后,總會有人能將自己的創(chuàng)意發(fā)揮出遠超token成本的價值。
但對于大部分普通用戶來說,技術本身無罪,但傳播過程中信息的過度簡化和預期管理的缺失,以及“免費”二字帶來的盲目熱情,反而讓探索者承擔了不必要的試錯成本。
熱潮終會褪去,留下的才是真正解決問題的工具和使用者。
PinchBench這類基準測試的出現(xiàn),意味著智能體已經從實驗室的demo走向現(xiàn)實。
它不否認創(chuàng)新的熱情,而是去建立一套可討論、可比較、可迭代的評估方案。
對于開發(fā)者,它是優(yōu)化模型和工具鏈的參照系;對于用戶,它是理性選擇技術方案的決策輔助。
PinchBench這次愿意把評分邏輯公開于眾的嘗試,至少讓用戶在選擇前有了一份可驗證的依據(jù)。
更重要的是,在這個智能體爆發(fā)的時代,保持清醒比跟上潮流更重要。
快報
根據(jù)《網絡安全法》實名制要求,請綁定手機號后發(fā)表評論