AI編程已經(jīng)成為生成式AI落地的過程中最熱門的賽道之一,不過,近日一支由國際算法奧賽金牌得主組成的科研團隊發(fā)表的論文卻跟AI編程“潑了一盆冷水”。
這支由國際算法奧賽金牌得主組成的科研團隊對目前市面上常見的大模型產(chǎn)品(包括了GPT-4o、DeepSeek R1、Claude 3等20個頂級大模型)進行了測試(點擊閱讀LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?),測試主要內(nèi)容是:一個由Codeforces、ICPC和IOI這些頂級賽事中的問題組成的LiveCodeBench Pro基準(zhǔn)測試,在過程中,這些問題會持續(xù)更新,以降低數(shù)據(jù)污染的可能性,共計設(shè)置了584道編程賽題。
他們?yōu)槊恳粋€問題進行了算法類別的標(biāo)注,并對模型生成的失敗提交進行了逐行分析。
在難度層級設(shè)置上面,團隊采用 Codeforces Elo評級啟發(fā)式方法進行難度標(biāo)注。官方Elo評級≤2000 的問題標(biāo)記為 “簡單”:世界級選手通??墒褂脴?biāo)準(zhǔn)教科書技術(shù)和觀察在約 15 分鐘內(nèi)解決;中等層級(2000~3000)包含需要融合兩種或更多成熟算法,并結(jié)合非平凡數(shù)學(xué)推理和觀察的問題;任何評級 > 3000 的問題視為 “難”——這些挑戰(zhàn)通常依賴極復(fù)雜、非明顯的推導(dǎo)或演繹飛躍,需要對算法理論的精湛掌握和深厚的數(shù)學(xué)直覺。超過 99.9% 的參與者無法解決,甚至在實時競賽中最強選手有時也未能解決。
根據(jù)該團隊發(fā)布的論文顯示,在沒有外部工具的情況下,表現(xiàn)最佳的模型在中等難度問題上的通過率僅為53%,在難題上通過率為0%,而這些領(lǐng)域正是人類專家的強項。
除此之外,他們還發(fā)現(xiàn),LLMs在實現(xiàn)密集型問題上表現(xiàn)出色,但在涉及微妙算法推理和復(fù)雜案例分析的問題上卻表現(xiàn)不佳,常常生成看似正確實則錯誤的推理。高性能似乎主要由實現(xiàn)精度和工具增強驅(qū)動,而非 superior reasoning(優(yōu)越的推理能力)。
同時,團隊還對大模型在某些方面的失敗分析了原因,分析表明 LLM 的代碼通常語法更可靠,但在構(gòu)思正確算法或從問題中提取正確觀察所需的高級推理中掙扎。盡管我們的正式注釋僅涵蓋 o3-mini 的提交,初步人工檢查表明大多數(shù)現(xiàn)有 LLM 共享相同的錯誤模式。
該團隊在經(jīng)過測試之后,得出了四個結(jié)論:
雖然測試的結(jié)果不盡如人意,但AI編程已經(jīng)成為科技大廠必爭的市場,也是他們繼續(xù)AI故事的重要一環(huán)。比如,微軟基于GPT-4模型推出了GitHub Copilot提供代碼補全、生成和錯誤修復(fù)功能,支持多種IDE(如VS Code、JetBrains),并新增“智能體”功能,可自主執(zhí)行開發(fā)任務(wù);OpenAI推出了Codex智能體,支持代碼生成和復(fù)雜任務(wù)處理,與GitHub深度整合;谷歌推出了Gemini 2.5 Pro與JulesAI代理服務(wù);字節(jié)跳動推出了集成Claude 3.7和GPT-4o模型的AI原生IDE支持快速原型開發(fā),以及MarsCode一站式開發(fā)平臺;美團上線了AI編程工具“NoCode” ........
從目前發(fā)展趨勢上看,國內(nèi)與國際科技公司聚焦的方向不盡相同,國際廠商更為強調(diào)智能體和復(fù)雜任務(wù)處理;國內(nèi)工具如通義靈碼、Trae等更注重本土化適配和快速開發(fā)。
AI編程當(dāng)下如此之火,也讓一些程序員產(chǎn)生了可能被AI“替代”的焦慮。不過,通過前文提及的團隊測試不難看出,在一些非知識密集型的編程場景下,程序員的價值依舊很大,能力自然也超過AI。所以,雖然AI編程成為熱門賽道,但對于企業(yè)而言,一位有經(jīng)驗,能操作高難度,具備“創(chuàng)造力”的程序員,依舊是企業(yè)數(shù)字化過程中的中堅力量。
而大模型僅在知識密集型的場景下具備顯著優(yōu)勢,也不僅僅體現(xiàn)在編程領(lǐng)域。在此前筆者與行業(yè)內(nèi)多名專家的交流中,他們也都向筆者表示了,大模型現(xiàn)在的比較有優(yōu)勢的場景還是主要集中在知識密集型的場景下。在這些場景下,AI確實能夠幫助企業(yè)實現(xiàn)降本增效,不過這種能力距離我們期待的,能夠統(tǒng)籌全局的智能體,還有很大差距。當(dāng)AI能獨立解決IOI金牌題時,通用人工智能才會真正到來。(本文首發(fā)于鈦媒體APP,作者|張申宇,編輯丨蓋虹達)
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論
推理模型優(yōu)勢有限,AI 編程要走的路,簡直比登天還難!
推理模型提升有限,AI 編程想進階難如登天!
增加嘗試次數(shù)也救不了場,AI 編程想突破,根本沒那么容易!
大模型代碼語法行,算法構(gòu)思卻不行,太矛盾了!
靠 AI 編程實現(xiàn)通用人工智能?簡直就是天方夜譚!
企業(yè)數(shù)字化還得靠程序員,AI 編程離挑大梁差遠了!
觀察密集型問題搞不定,AI 編程應(yīng)用直接受限一大半!
頂級大模型難題通過率居然是 0%,吹得神乎其神,原來也就這水平!
大模型相同錯誤模式頻出,開發(fā)團隊不優(yōu)化下?
這測試結(jié)果一出,AI 編程的 “泡沫” 該降降溫了!