AI編程已經(jīng)成為生成式AI落地的過程中最熱門的賽道之一,不過,近日一支由國際算法奧賽金牌得主組成的科研團(tuán)隊發(fā)表的論文卻跟AI編程“潑了一盆冷水”。

AI優(yōu)勢仍停留在“知識密集型”

這支由國際算法奧賽金牌得主組成的科研團(tuán)隊對目前市面上常見的大模型產(chǎn)品(包括了GPT-4o、DeepSeek R1、Claude 3等20個頂級大模型)進(jìn)行了測試(點(diǎn)擊閱讀LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?),測試主要內(nèi)容是:一個由Codeforces、ICPC和IOI這些頂級賽事中的問題組成的LiveCodeBench Pro基準(zhǔn)測試,在過程中,這些問題會持續(xù)更新,以降低數(shù)據(jù)污染的可能性,共計設(shè)置了584道編程賽題。

他們?yōu)槊恳粋€問題進(jìn)行了算法類別的標(biāo)注,并對模型生成的失敗提交進(jìn)行了逐行分析。

在難度層級設(shè)置上面,團(tuán)隊采用 Codeforces  Elo評級啟發(fā)式方法進(jìn)行難度標(biāo)注。官方Elo評級≤2000 的問題標(biāo)記為 “簡單”:世界級選手通??墒褂脴?biāo)準(zhǔn)教科書技術(shù)和觀察在約 15 分鐘內(nèi)解決;中等層級(2000~3000)包含需要融合兩種或更多成熟算法,并結(jié)合非平凡數(shù)學(xué)推理和觀察的問題;任何評級 > 3000 的問題視為 “難”——這些挑戰(zhàn)通常依賴極復(fù)雜、非明顯的推導(dǎo)或演繹飛躍,需要對算法理論的精湛掌握和深厚的數(shù)學(xué)直覺。超過 99.9% 的參與者無法解決,甚至在實時競賽中最強(qiáng)選手有時也未能解決。

根據(jù)該團(tuán)隊發(fā)布的論文顯示,在沒有外部工具的情況下,表現(xiàn)最佳的模型在中等難度問題上的通過率僅為53%,在難題上通過率為0%,而這些領(lǐng)域正是人類專家的強(qiáng)項。

除此之外,他們還發(fā)現(xiàn),LLMs在實現(xiàn)密集型問題上表現(xiàn)出色,但在涉及微妙算法推理和復(fù)雜案例分析的問題上卻表現(xiàn)不佳,常常生成看似正確實則錯誤的推理。高性能似乎主要由實現(xiàn)精度和工具增強(qiáng)驅(qū)動,而非 superior reasoning(優(yōu)越的推理能力)。

同時,團(tuán)隊還對大模型在某些方面的失敗分析了原因,分析表明 LLM 的代碼通常語法更可靠,但在構(gòu)思正確算法或從問題中提取正確觀察所需的高級推理中掙扎。盡管我們的正式注釋僅涵蓋 o3-mini 的提交,初步人工檢查表明大多數(shù)現(xiàn)有 LLM 共享相同的錯誤模式。

該團(tuán)隊在經(jīng)過測試之后,得出了四個結(jié)論:

AI編程已是“兵家必爭之地”

雖然測試的結(jié)果不盡如人意,但AI編程已經(jīng)成為科技大廠必爭的市場,也是他們繼續(xù)AI故事的重要一環(huán)。比如,微軟基于GPT-4模型推出了GitHub Copilot提供代碼補(bǔ)全、生成和錯誤修復(fù)功能,支持多種IDE(如VS Code、JetBrains),并新增“智能體”功能,可自主執(zhí)行開發(fā)任務(wù);OpenAI推出了Codex智能體,支持代碼生成和復(fù)雜任務(wù)處理,與GitHub深度整合;谷歌推出了Gemini 2.5 Pro與JulesAI代理服務(wù);字節(jié)跳動推出了集成Claude 3.7和GPT-4o模型的AI原生IDE支持快速原型開發(fā),以及MarsCode一站式開發(fā)平臺;美團(tuán)上線了AI編程工具“NoCode” ........

從目前發(fā)展趨勢上看,國內(nèi)與國際科技公司聚焦的方向不盡相同,國際廠商更為強(qiáng)調(diào)智能體和復(fù)雜任務(wù)處理;國內(nèi)工具如通義靈碼、Trae等更注重本土化適配和快速開發(fā)。

AI編程當(dāng)下如此之火,也讓一些程序員產(chǎn)生了可能被AI“替代”的焦慮。不過,通過前文提及的團(tuán)隊測試不難看出,在一些非知識密集型的編程場景下,程序員的價值依舊很大,能力自然也超過AI。所以,雖然AI編程成為熱門賽道,但對于企業(yè)而言,一位有經(jīng)驗,能操作高難度,具備“創(chuàng)造力”的程序員,依舊是企業(yè)數(shù)字化過程中的中堅力量。

而大模型僅在知識密集型的場景下具備顯著優(yōu)勢,也不僅僅體現(xiàn)在編程領(lǐng)域。在此前筆者與行業(yè)內(nèi)多名專家的交流中,他們也都向筆者表示了,大模型現(xiàn)在的比較有優(yōu)勢的場景還是主要集中在知識密集型的場景下。在這些場景下,AI確實能夠幫助企業(yè)實現(xiàn)降本增效,不過這種能力距離我們期待的,能夠統(tǒng)籌全局的智能體,還有很大差距。當(dāng)AI能獨(dú)立解決IOI金牌題時,通用人工智能才會真正到來。(本文首發(fā)于鈦媒體APP,作者|張申宇,編輯丨蓋虹達(dá))

本文系作者 Leo張ToB雜談 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點(diǎn)擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容
  • 推理模型優(yōu)勢有限,AI 編程要走的路,簡直比登天還難!

    回復(fù) 2025.06.26 · via iphone
  • 推理模型提升有限,AI 編程想進(jìn)階難如登天!

    回復(fù) 2025.06.26 · via h5
  • 增加嘗試次數(shù)也救不了場,AI 編程想突破,根本沒那么容易!

    回復(fù) 2025.06.26 · via h5
  • 大模型代碼語法行,算法構(gòu)思卻不行,太矛盾了!

    回復(fù) 2025.06.26 · via h5
  • 靠 AI 編程實現(xiàn)通用人工智能?簡直就是天方夜譚!

    回復(fù) 2025.06.26 · via pc
  • 企業(yè)數(shù)字化還得靠程序員,AI 編程離挑大梁差遠(yuǎn)了!

    回復(fù) 2025.06.26 · via iphone
  • 觀察密集型問題搞不定,AI 編程應(yīng)用直接受限一大半!

    回復(fù) 2025.06.26 · via iphone
  • 頂級大模型難題通過率居然是 0%,吹得神乎其神,原來也就這水平!

    回復(fù) 2025.06.26 · via android
  • 大模型相同錯誤模式頻出,開發(fā)團(tuán)隊不優(yōu)化下?

    回復(fù) 2025.06.26 · via pc
  • 這測試結(jié)果一出,AI 編程的 “泡沫” 該降降溫了!

    回復(fù) 2025.06.26 · via android
更多評論
39

掃描下載App