AI編程已經(jīng)成為生成式AI落地的過程中最熱門的賽道之一,不過,近日一支由國際算法奧賽金牌得主組成的科研團隊發(fā)表的論文卻跟AI編程“潑了一盆冷水”。

AI優(yōu)勢仍停留在“知識密集型”

這支由國際算法奧賽金牌得主組成的科研團隊對目前市面上常見的大模型產(chǎn)品(包括了GPT-4o、DeepSeek R1、Claude 3等20個頂級大模型)進行了測試(點擊閱讀LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?),測試主要內(nèi)容是:一個由Codeforces、ICPC和IOI這些頂級賽事中的問題組成的LiveCodeBench Pro基準(zhǔn)測試,在過程中,這些問題會持續(xù)更新,以降低數(shù)據(jù)污染的可能性,共計設(shè)置了584道編程賽題。

他們?yōu)槊恳粋€問題進行了算法類別的標(biāo)注,并對模型生成的失敗提交進行了逐行分析。

在難度層級設(shè)置上面,團隊采用 Codeforces  Elo評級啟發(fā)式方法進行難度標(biāo)注。官方Elo評級≤2000 的問題標(biāo)記為 “簡單”:世界級選手通??墒褂脴?biāo)準(zhǔn)教科書技術(shù)和觀察在約 15 分鐘內(nèi)解決;中等層級(2000~3000)包含需要融合兩種或更多成熟算法,并結(jié)合非平凡數(shù)學(xué)推理和觀察的問題;任何評級 > 3000 的問題視為 “難”——這些挑戰(zhàn)通常依賴極復(fù)雜、非明顯的推導(dǎo)或演繹飛躍,需要對算法理論的精湛掌握和深厚的數(shù)學(xué)直覺。超過 99.9% 的參與者無法解決,甚至在實時競賽中最強選手有時也未能解決。

根據(jù)該團隊發(fā)布的論文顯示,在沒有外部工具的情況下,表現(xiàn)最佳的模型在中等難度問題上的通過率僅為53%,在難題上通過率為0%,而這些領(lǐng)域正是人類專家的強項。

除此之外,他們還發(fā)現(xiàn),LLMs在實現(xiàn)密集型問題上表現(xiàn)出色,但在涉及微妙算法推理和復(fù)雜案例分析的問題上卻表現(xiàn)不佳,常常生成看似正確實則錯誤的推理。高性能似乎主要由實現(xiàn)精度和工具增強驅(qū)動,而非 superior reasoning(優(yōu)越的推理能力)。

同時,團隊還對大模型在某些方面的失敗分析了原因,分析表明 LLM 的代碼通常語法更可靠,但在構(gòu)思正確算法或從問題中提取正確觀察所需的高級推理中掙扎。盡管我們的正式注釋僅涵蓋 o3-mini 的提交,初步人工檢查表明大多數(shù)現(xiàn)有 LLM 共享相同的錯誤模式。

該團隊在經(jīng)過測試之后,得出了四個結(jié)論:

AI編程已是“兵家必爭之地”

雖然測試的結(jié)果不盡如人意,但AI編程已經(jīng)成為科技大廠必爭的市場,也是他們繼續(xù)AI故事的重要一環(huán)。比如,微軟基于GPT-4模型推出了GitHub Copilot提供代碼補全、生成和錯誤修復(fù)功能,支持多種IDE(如VS Code、JetBrains),并新增“智能體”功能,可自主執(zhí)行開發(fā)任務(wù);OpenAI推出了Codex智能體,支持代碼生成和復(fù)雜任務(wù)處理,與GitHub深度整合;谷歌推出了Gemini 2.5 Pro與JulesAI代理服務(wù);字節(jié)跳動推出了集成Claude 3.7和GPT-4o模型的AI原生IDE支持快速原型開發(fā),以及MarsCode一站式開發(fā)平臺;美團上線了AI編程工具“NoCode” ........

從目前發(fā)展趨勢上看,國內(nèi)與國際科技公司聚焦的方向不盡相同,國際廠商更為強調(diào)智能體和復(fù)雜任務(wù)處理;國內(nèi)工具如通義靈碼、Trae等更注重本土化適配和快速開發(fā)。

AI編程當(dāng)下如此之火,也讓一些程序員產(chǎn)生了可能被AI“替代”的焦慮。不過,通過前文提及的團隊測試不難看出,在一些非知識密集型的編程場景下,程序員的價值依舊很大,能力自然也超過AI。所以,雖然AI編程成為熱門賽道,但對于企業(yè)而言,一位有經(jīng)驗,能操作高難度,具備“創(chuàng)造力”的程序員,依舊是企業(yè)數(shù)字化過程中的中堅力量。

而大模型僅在知識密集型的場景下具備顯著優(yōu)勢,也不僅僅體現(xiàn)在編程領(lǐng)域。在此前筆者與行業(yè)內(nèi)多名專家的交流中,他們也都向筆者表示了,大模型現(xiàn)在的比較有優(yōu)勢的場景還是主要集中在知識密集型的場景下。在這些場景下,AI確實能夠幫助企業(yè)實現(xiàn)降本增效,不過這種能力距離我們期待的,能夠統(tǒng)籌全局的智能體,還有很大差距。當(dāng)AI能獨立解決IOI金牌題時,通用人工智能才會真正到來。(本文首發(fā)于鈦媒體APP,作者|張申宇,編輯丨蓋虹達)

本文系作者 Leo張ToB雜談 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容
  • 推理模型優(yōu)勢有限,AI 編程要走的路,簡直比登天還難!

    回復(fù) 6月26日 · via iphone
  • 推理模型提升有限,AI 編程想進階難如登天!

    回復(fù) 6月26日 · via h5
  • 增加嘗試次數(shù)也救不了場,AI 編程想突破,根本沒那么容易!

    回復(fù) 6月26日 · via h5
  • 大模型代碼語法行,算法構(gòu)思卻不行,太矛盾了!

    回復(fù) 6月26日 · via h5
  • 靠 AI 編程實現(xiàn)通用人工智能?簡直就是天方夜譚!

    回復(fù) 6月26日 · via pc
  • 企業(yè)數(shù)字化還得靠程序員,AI 編程離挑大梁差遠了!

    回復(fù) 6月26日 · via iphone
  • 觀察密集型問題搞不定,AI 編程應(yīng)用直接受限一大半!

    回復(fù) 6月26日 · via iphone
  • 頂級大模型難題通過率居然是 0%,吹得神乎其神,原來也就這水平!

    回復(fù) 6月26日 · via android
  • 大模型相同錯誤模式頻出,開發(fā)團隊不優(yōu)化下?

    回復(fù) 6月26日 · via pc
  • 這測試結(jié)果一出,AI 編程的 “泡沫” 該降降溫了!

    回復(fù) 6月26日 · via android
更多評論

快報

更多

20:13

交建股份:實際控制人俞發(fā)祥因涉嫌犯罪被采取刑事強制措施

20:07

國家郵政局:要切實抓好交通強國郵政專項試點工作

20:07

中央網(wǎng)信辦召開構(gòu)建網(wǎng)絡(luò)空間命運共同體十周年座談會

20:06

12月22日新聞聯(lián)播速覽26條

20:02

天璣科技:公司及相關(guān)責(zé)任人涉嫌串通投標(biāo)被提起訴訟

19:56

金盤科技:擬發(fā)行16.72億元可轉(zhuǎn)債,用于數(shù)據(jù)中心電源模塊等

19:54

布倫特原油期貨漲幅擴大至2%,報61.251美元/桶

19:49

旭升集團:實際控制人變更為廣州市人民政府,股票復(fù)牌

19:48

機構(gòu):2025年第三季度全球云基礎(chǔ)設(shè)施服務(wù)支出達到1026億美元

19:48

WTI原油期貨漲幅擴大至2%,報57.651美元/桶

19:35

凌云光:全資子公司擬作為基石投資者認(rèn)購智譜香港首次公開發(fā)行股份

19:33

《互聯(lián)網(wǎng)藥品醫(yī)療器械信息服務(wù)備案管理規(guī)定》發(fā)布

19:31

紅旗連鎖:股東永輝超市擬合計減持不超3%股份

19:30

毅昌科技:控股股東籌劃控制權(quán)變更事項,股票停牌

19:29

漁業(yè)法修訂草案三審稿完善對環(huán)境影響評價文件的相關(guān)規(guī)定

19:29

歡樂家:股東擬詢價轉(zhuǎn)讓總股本的4.07%

19:17

霍尼韋爾下調(diào)Q4銷售額預(yù)期

19:13

華夏幸福:董事會拒絕中國平安人壽增加五項臨時提案至股東大會

19:13

報道稱明年英偉達GB300出貨量可達5.5萬臺,Vera Rubin200預(yù)計明年四季度出貨

19:11

中色股份:全資子公司擬1.06億美元收購Raura公司99.9%股權(quán)

39

掃描下載App