黄色AV网站网址,免费 AV 婷婷,精品国产91无码大片在线观看

AI編程已經(jīng)成為生成式AI落地的過程中最熱門的賽道之一，不過，近日一支由國際算法奧賽金牌得主組成的科研團(tuán)隊發(fā)表的論文卻跟AI編程“潑了一盆冷水”。

AI優(yōu)勢仍停留在“知識密集型”

這支由國際算法奧賽金牌得主組成的科研團(tuán)隊對目前市面上常見的大模型產(chǎn)品（包括了GPT-4o、DeepSeek R1、Claude 3等20個頂級大模型）進(jìn)行了測試（點(diǎn)擊閱讀LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?），測試主要內(nèi)容是：一個由Codeforces、ICPC和IOI這些頂級賽事中的問題組成的LiveCodeBench Pro基準(zhǔn)測試，在過程中，這些問題會持續(xù)更新，以降低數(shù)據(jù)污染的可能性，共計設(shè)置了584道編程賽題。

他們?yōu)槊恳粋€問題進(jìn)行了算法類別的標(biāo)注，并對模型生成的失敗提交進(jìn)行了逐行分析。

在難度層級設(shè)置上面，團(tuán)隊采用 Codeforces Elo評級啟發(fā)式方法進(jìn)行難度標(biāo)注。官方Elo評級≤2000 的問題標(biāo)記為 “簡單”：世界級選手通?？墒褂脴?biāo)準(zhǔn)教科書技術(shù)和觀察在約 15 分鐘內(nèi)解決；中等層級（2000~3000）包含需要融合兩種或更多成熟算法，并結(jié)合非平凡數(shù)學(xué)推理和觀察的問題；任何評級 > 3000 的問題視為 “難”——這些挑戰(zhàn)通常依賴極復(fù)雜、非明顯的推導(dǎo)或演繹飛躍，需要對算法理論的精湛掌握和深厚的數(shù)學(xué)直覺。超過 99.9% 的參與者無法解決，甚至在實時競賽中最強(qiáng)選手有時也未能解決。

根據(jù)該團(tuán)隊發(fā)布的論文顯示，在沒有外部工具的情況下，表現(xiàn)最佳的模型在中等難度問題上的通過率僅為53%，在難題上通過率為0%，而這些領(lǐng)域正是人類專家的強(qiáng)項。

除此之外，他們還發(fā)現(xiàn)，LLMs在實現(xiàn)密集型問題上表現(xiàn)出色，但在涉及微妙算法推理和復(fù)雜案例分析的問題上卻表現(xiàn)不佳，常常生成看似正確實則錯誤的推理。高性能似乎主要由實現(xiàn)精度和工具增強(qiáng)驅(qū)動，而非 superior reasoning（優(yōu)越的推理能力）。

同時，團(tuán)隊還對大模型在某些方面的失敗分析了原因，分析表明 LLM 的代碼通常語法更可靠，但在構(gòu)思正確算法或從問題中提取正確觀察所需的高級推理中掙扎。盡管我們的正式注釋僅涵蓋 o3-mini 的提交，初步人工檢查表明大多數(shù)現(xiàn)有 LLM 共享相同的錯誤模式。

AI編程已是“兵家必爭之地”

雖然測試的結(jié)果不盡如人意，但AI編程已經(jīng)成為科技大廠必爭的市場，也是他們繼續(xù)AI故事的重要一環(huán)。比如，微軟基于GPT-4模型推出了GitHub Copilot提供代碼補(bǔ)全、生成和錯誤修復(fù)功能，支持多種IDE（如VS Code、JetBrains），并新增“智能體”功能，可自主執(zhí)行開發(fā)任務(wù)；OpenAI推出了Codex智能體，支持代碼生成和復(fù)雜任務(wù)處理，與GitHub深度整合；谷歌推出了Gemini 2.5 Pro與JulesAI代理服務(wù)；字節(jié)跳動推出了集成Claude 3.7和GPT-4o模型的AI原生IDE支持快速原型開發(fā)，以及MarsCode一站式開發(fā)平臺；美團(tuán)上線了AI編程工具“NoCode” ........

從目前發(fā)展趨勢上看，國內(nèi)與國際科技公司聚焦的方向不盡相同，國際廠商更為強(qiáng)調(diào)智能體和復(fù)雜任務(wù)處理；國內(nèi)工具如通義靈碼、Trae等更注重本土化適配和快速開發(fā)。

AI編程當(dāng)下如此之火，也讓一些程序員產(chǎn)生了可能被AI“替代”的焦慮。不過，通過前文提及的團(tuán)隊測試不難看出，在一些非知識密集型的編程場景下，程序員的價值依舊很大，能力自然也超過AI。所以，雖然AI編程成為熱門賽道，但對于企業(yè)而言，一位有經(jīng)驗，能操作高難度，具備“創(chuàng)造力”的程序員，依舊是企業(yè)數(shù)字化過程中的中堅力量。

而大模型僅在知識密集型的場景下具備顯著優(yōu)勢，也不僅僅體現(xiàn)在編程領(lǐng)域。在此前筆者與行業(yè)內(nèi)多名專家的交流中，他們也都向筆者表示了，大模型現(xiàn)在的比較有優(yōu)勢的場景還是主要集中在知識密集型的場景下。在這些場景下，AI確實能夠幫助企業(yè)實現(xiàn)降本增效，不過這種能力距離我們期待的，能夠統(tǒng)籌全局的智能體，還有很大差距。當(dāng)AI能獨(dú)立解決IOI金牌題時，通用人工智能才會真正到來。（本文首發(fā)于鈦媒體APP，作者｜張申宇，編輯丨蓋虹達(dá)）

本文系作者 Leo張ToB雜談授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報道，點(diǎn)擊這里。

發(fā)表評論

0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求，請綁定手機(jī)號后發(fā)表評論

請登錄后輸入評論內(nèi)容

Poka無邊際游泳池
推理模型優(yōu)勢有限，AI 編程要走的路，簡直比登天還難！
回復(fù) 2025.06.26 · via iphone
蓋三界有名的
推理模型提升有限，AI 編程想進(jìn)階難如登天！
回復(fù) 2025.06.26 · via h5
隔壁郭憨憨
增加嘗試次數(shù)也救不了場，AI 編程想突破，根本沒那么容易！
回復(fù) 2025.06.26 · via h5
七個鴨梨
大模型代碼語法行，算法構(gòu)思卻不行，太矛盾了！
回復(fù) 2025.06.26 · via h5
青提不吐皮
靠 AI 編程實現(xiàn)通用人工智能？簡直就是天方夜譚！
回復(fù) 2025.06.26 · via pc
小爺別吃了
企業(yè)數(shù)字化還得靠程序員，AI 編程離挑大梁差遠(yuǎn)了！
回復(fù) 2025.06.26 · via iphone
宿命像潮汐
觀察密集型問題搞不定，AI 編程應(yīng)用直接受限一大半！
回復(fù) 2025.06.26 · via iphone
長久先生
頂級大模型難題通過率居然是 0%，吹得神乎其神，原來也就這水平！
回復(fù) 2025.06.26 · via android
等酒醇香
大模型相同錯誤模式頻出，開發(fā)團(tuán)隊不優(yōu)化下？
回復(fù) 2025.06.26 · via pc
櫻雪夢月-333
這測試結(jié)果一出，AI 編程的 “泡沫” 該降降溫了！
回復(fù) 2025.06.26 · via android

更多評論

快報