Anthropic產(chǎn)品負(fù)責(zé)人Scott White在接受CNBC專訪時(shí)表示:"我們真切地希望確保這項(xiàng)技術(shù)能夠?yàn)樗邢胍褂眠@些模型的人真正發(fā)揮作用。我們的核心關(guān)注點(diǎn)始終是:如何讓Claude更好地幫助您完成那些在工作中不一定想親自處理的任務(wù)?"

編碼能力首次超越人類專家

在最具權(quán)威性和挑戰(zhàn)性的SWE-bench Verified測(cè)試中,Opus 4.5取得了80.9%的驚人成績(jī)。這一表現(xiàn)不僅顯著超越了OpenAI剛剛發(fā)布的GPT-5.1-Codex-Max(77.9%)和谷歌上周推出的Gemini 3 Pro(76.2%),更在Anthropic內(nèi)部最嚴(yán)格的工程能力測(cè)試中創(chuàng)造了新的歷史記錄。

"在我們規(guī)定的2小時(shí)時(shí)限內(nèi),Claude Opus 4.5的得分高于任何人類候選人",Anthropic在官方博客中鄭重宣布。這項(xiàng)測(cè)試原本是為選拔頂級(jí)性能工程師而設(shè)計(jì)的,專門評(píng)估候選人在時(shí)間壓力下的技術(shù)能力和專業(yè)判斷力。

雖然公司方面謹(jǐn)慎地表示,這項(xiàng)測(cè)試并不衡量候選人可能具備的其他關(guān)鍵技能,如協(xié)作、溝通或多年經(jīng)驗(yàn)形成的本能,但這一里程碑式的結(jié)果無疑引發(fā)了業(yè)界對(duì)"AI將如何重塑工程技術(shù)行業(yè)"的深度思考。

智能與成本的完美平衡

Opus 4.5引入了創(chuàng)新的"努力參數(shù)"(effort parameter)機(jī)制,讓開發(fā)者能夠在性能與成本之間找到最佳平衡點(diǎn)。這一設(shè)計(jì)充分體現(xiàn)了Anthropic對(duì)實(shí)際應(yīng)用場(chǎng)景的深刻理解。

具體數(shù)據(jù)顯示,在中等努力水平設(shè)置下,Opus 4.5能夠匹配Sonnet 4.5在SWE-bench Verified上的最佳表現(xiàn),同時(shí)輸出token使用量減少了76%。而在高等努力水平下,Opus 4.5的性能比Sonnet 4.5高出4.3個(gè)百分點(diǎn),同時(shí)token使用量仍減少48%。

這種效率提升在實(shí)際企業(yè)應(yīng)用中產(chǎn)生了顯著效果。GitHub首席產(chǎn)品官M(fèi)ario Rodriguez證實(shí):"早期測(cè)試顯示,Opus 4.5在內(nèi)部編碼基準(zhǔn)測(cè)試中表現(xiàn)卓越,同時(shí)將token使用量減半,特別適合代碼遷移和代碼重構(gòu)等復(fù)雜任務(wù)。"

Replit總裁Michele Catasta進(jìn)一步補(bǔ)充道:"Opus 4.5在我們的內(nèi)部基準(zhǔn)測(cè)試中擊敗了Sonnet 4.5和競(jìng)爭(zhēng)對(duì)手,同時(shí)使用更少的token解決相同問題。在規(guī)模應(yīng)用中,這種效率優(yōu)勢(shì)將產(chǎn)生復(fù)合效應(yīng)。"

AI智能體學(xué)會(huì)自主優(yōu)化

更令人驚嘆的是,Opus 4.5展現(xiàn)出了前所未有的自我優(yōu)化能力。日本電商巨頭樂天公司的測(cè)試結(jié)果令人震驚:基于Opus 4.5的AI代理僅用4次迭代就達(dá)到了峰值性能,而其他模型即使經(jīng)過10次迭代仍無法達(dá)到同等質(zhì)量水平。

樂天商業(yè)AI總經(jīng)理Yusuke Kaji表示:"我們的代理能夠自主優(yōu)化自身能力——在4次迭代中就達(dá)到了峰值性能,而其他模型即使在10次迭代后也無法匹配這種質(zhì)量。"

Anthropic的Albert解釋說,這種能力并非模型在更新自身的權(quán)重參數(shù),而是在迭代改進(jìn)解決問題的工具和方法。"它在一個(gè)任務(wù)中迭代優(yōu)化某項(xiàng)技能,試圖通過優(yōu)化技能來獲得更好的性能,從而完成這個(gè)任務(wù)。"

這種自我進(jìn)化能力不僅限于編碼任務(wù)。Albert表示,Anthropic在創(chuàng)建專業(yè)文檔、電子表格和演示文稿等方面也觀察到了顯著的改進(jìn)。"測(cè)試者告訴我們,這是他們?cè)谀P痛H之間見過的最大的飛躍,甚至從Sonnet 4.5到Opus 4.5的進(jìn)步,比過去任何兩個(gè)連續(xù)模型之間的進(jìn)步都要大。"

全面升級(jí)的工作流集成

伴隨著模型的重磅發(fā)布,Anthropic同步推出了一系列生產(chǎn)力工具的重大更新:

Claude for Chrome現(xiàn)已全面向所有Max用戶開放,實(shí)現(xiàn)了真正的跨瀏覽器智能操作能力。用戶現(xiàn)在可以在瀏覽器標(biāo)簽頁中無縫使用Claude的各項(xiàng)功能,大大提升了工作效率。

Claude for Excel正式面向Max、Team和Enterprise用戶發(fā)布,新增了對(duì)數(shù)據(jù)透視表、圖表分析和文件上傳等高級(jí)功能的支持。這意味著財(cái)務(wù)分析師、顧問和會(huì)計(jì)師等知識(shí)工作者現(xiàn)在可以更高效地處理復(fù)雜的數(shù)據(jù)分析任務(wù)。

桌面版Claude Code現(xiàn)在支持本地與云端開發(fā)會(huì)話的并行運(yùn)行,為開發(fā)者提供了前所未有的靈活性。同時(shí),新引入的"程序化工具調(diào)用"功能允許Claude直接編寫和執(zhí)行代碼來調(diào)用函數(shù),極大地?cái)U(kuò)展了其自動(dòng)化能力。

企業(yè)級(jí)防護(hù)能力全面提升

在安全性能方面,Opus 4.5展現(xiàn)了顯著的進(jìn)步。根據(jù)Anthropic發(fā)布的系統(tǒng)卡數(shù)據(jù),新模型在抵御提示注入攻擊方面的穩(wěn)健性大幅提升:

在單次提示注入攻擊測(cè)試中,Opus 4.5的成功率僅為4.7%,遠(yuǎn)低于Gemini 3 Pro的12.5%和GPT-5.1的12.6%。即使在10次攻擊嘗試下,成功率也控制在33.6%,相比競(jìng)爭(zhēng)對(duì)手的60.7%和58.2%有了明顯改善。

在代理編碼評(píng)估中,Opus 4.5對(duì)150個(gè)惡意編碼請(qǐng)求的拒絕率達(dá)到了100%,展現(xiàn)了出色的安全防護(hù)能力。不過,在Claude Code環(huán)境下測(cè)試惡意軟件創(chuàng)建、DDoS攻擊代碼編寫等場(chǎng)景時(shí),模型的拒絕率約為78%,而在計(jì)算機(jī)使用場(chǎng)景中的拒絕率超過88%,這說明在特定環(huán)境下仍需保持警惕。

開發(fā)生態(tài):為下一代AI應(yīng)用奠基

Anthropic此次還對(duì)Claude開發(fā)者平臺(tái)進(jìn)行了重要升級(jí)。增強(qiáng)的上下文管理和內(nèi)存功能使代理任務(wù)性能提升了近15%,而新的多代理協(xié)調(diào)能力讓構(gòu)建復(fù)雜AI系統(tǒng)變得更加可行。

這些改進(jìn)在實(shí)際應(yīng)用中已經(jīng)產(chǎn)生了顯著效果。金融建模公司Fundamental Research Labs聯(lián)合創(chuàng)始人Nico Christie報(bào)告稱:"在我們內(nèi)部的評(píng)估中,準(zhǔn)確率提高了20%,效率提升了15%,曾經(jīng)看似無法完成的復(fù)雜任務(wù)現(xiàn)在變得可以實(shí)現(xiàn)了。"

Cursor CEO Michael Truell評(píng)價(jià)道:"Opus 4.5相比之前的Claude模型在Cursor內(nèi)部有了顯著改進(jìn),在困難編碼任務(wù)上具有更好的定價(jià)和智能表現(xiàn)。"Cognition CEO Scott Wu補(bǔ)充說:"該模型在我們最困難的評(píng)估中提供了更強(qiáng)結(jié)果,并在30分鐘自主編碼會(huì)話中保持了一致的性能。"

AI民主化進(jìn)程加速

此次發(fā)布正值A(chǔ)I競(jìng)爭(zhēng)進(jìn)入白熱化階段——OpenAI在上周剛剛推出GPT-5.1系列,谷歌的Gemini 3也才亮相七天。Anthropic在短短兩個(gè)月內(nèi)完成了Haiku、Sonnet、Opus三個(gè)產(chǎn)品線的迭代更新,展現(xiàn)了驚人的研發(fā)速度和技術(shù)積累。

更令人印象深刻的是,Anthropic在2025年第一季度實(shí)現(xiàn)了20億美元的年化收入,較前期的10億美元翻了一番。年消費(fèi)超過10萬美元的客戶數(shù)量同比增長(zhǎng)了八倍,這充分顯示了市場(chǎng)對(duì)其技術(shù)的高度認(rèn)可。

Albert坦言,這種快速的發(fā)布節(jié)奏部分得益于使用Claude來加速自身開發(fā)。"我們?cè)趯?shí)際產(chǎn)品構(gòu)建和模型研究方面都看到了Claude本身的很多協(xié)助和加速作用。"

當(dāng)AI在專業(yè)工程測(cè)試中開始系統(tǒng)性超越人類專家,我們正站在一個(gè)歷史性的轉(zhuǎn)折點(diǎn)上。Claude Opus 4.5的發(fā)布不僅代表了技術(shù)的突破,更預(yù)示著工作方式的根本性變革。這一刻,我們見證的不僅是另一個(gè)AI模型的發(fā)布,而是智能計(jì)算新時(shí)代的開啟。

本文系作者 山自 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

12:28

摩根大通和高盛向?qū)_基金提供做空私募信貸的工具

12:26

OpenAI再出手:計(jì)劃收購(gòu)Python工具初創(chuàng)公司Astral

12:18

長(zhǎng)達(dá)一年看空后,摩根大通宣布:戰(zhàn)術(shù)性轉(zhuǎn)為看漲美元

12:13

消息人士:馬斯克團(tuán)隊(duì)采購(gòu)光伏設(shè)備預(yù)計(jì)將在5月第一周發(fā)貨

12:11

也門胡塞武裝稱可能封鎖曼德海峽

12:10

港股午評(píng):科指大跌1.71%,小米、阿里領(lǐng)跌,黃金股反彈

11:55

高盛:預(yù)計(jì)英國(guó)央行今年不降息,明年逐步降至3%

11:54

星網(wǎng)宇達(dá):因投資收益列報(bào)錯(cuò)誤收監(jiān)管函

11:53

港股黃金股反彈,靈寶黃金、紫金黃金國(guó)際漲超7%

11:48

工商銀行提醒做好貴金屬市場(chǎng)風(fēng)險(xiǎn)防控

11:46

港股光伏太陽能板塊走強(qiáng),鈞達(dá)股份拉升漲超10%

11:45

特斯拉計(jì)劃采購(gòu)中國(guó)光伏設(shè)備?企業(yè)回應(yīng):確有此事

11:43

A股午評(píng):創(chuàng)業(yè)板指半日漲3.3%刷新年內(nèi)新高,光伏、CPO概念股爆發(fā)

11:31

島上供電能力超4倍增長(zhǎng),220千伏潿洲島跨海聯(lián)網(wǎng)工程投運(yùn)

11:30

創(chuàng)業(yè)板指刷新階段高點(diǎn)

11:23

儲(chǔ)能概念持續(xù)走強(qiáng),首航新能、德業(yè)股份漲停續(xù)創(chuàng)歷史新高

11:19

創(chuàng)業(yè)板指漲逾3%,寧德時(shí)代等權(quán)重股大幅走高

11:15

中國(guó)人均體育場(chǎng)地面積達(dá)3.11平方米

11:14

美國(guó)白宮據(jù)稱不會(huì)實(shí)施原油出口禁令

11:12

漲勢(shì)持續(xù),深圳華強(qiáng)北16G內(nèi)存半年多漲700元左右

掃描下載App