大模型圈,變天了。

2026年3月29日,一份名為FutureX的全球動態(tài)評測榜單刷新了成績。北京中關(guān)村學(xué)院信息智能團(tuán)隊自主研發(fā)的智能體系統(tǒng)Milkyway,以60.9分的絕對優(yōu)勢霸榜!

這個分?jǐn)?shù)有多夸張?

作為對比,由埃隆·馬斯克(Elon Musk)旗下xAI打造、曾被寄予厚望的Grok-4,在這份榜單上僅拿到了25.9分。Milkyway的得分是它的一倍還多(Grok-4曾拿下該項目的首期冠軍)。

陳天橋團(tuán)隊的MiroFlow框架(搭載GPT-5等),得分也高達(dá)57.5分。它在最難的Level 4依然能逼近50分大關(guān),對復(fù)雜不確定性的掌控力令人驚嘆。

智譜的GLM-5-thinking則拿到37.3分,深度求索的DeepSeek-V3.2-thinking拿下31.2分。阿里的千問Qwen-3.5-plus-thinking則拿到26.9分,位列第17。

Grok-4以25.9分排在第18位。馬斯克曾公開斷言:“預(yù)測未來的能力,是對模型智能性最好的測試。”

如今,這場關(guān)于“預(yù)言能力”的殘酷試煉,撕下了傳統(tǒng)大模型靠“刷靜態(tài)題庫”營造的遮羞布。

誰在成功預(yù)判真實世界?

過去幾年,所有前沿大模型在MMLU、HumanEval這些傳統(tǒng)學(xué)術(shù)題庫里,幾乎都能輕松刷出90%以上的高分。

但商業(yè)世界不需要做題家。市場真正關(guān)心的是:大模型能預(yù)測下周某款爆品的銷量嗎?能判斷地緣博弈的走向嗎?

一部分敏銳的頂尖團(tuán)隊已經(jīng)交出了答卷。在FutureX已經(jīng)公開的過往實戰(zhàn)記錄(FutureX-Past數(shù)據(jù)集)中,記錄了大量被AI智能體成功拆解的真實世界考題:

比如微觀商業(yè)。 AI需要在2025年底,通過自主抓取網(wǎng)頁和歷史數(shù)據(jù),預(yù)測Temu美國區(qū)特定商戶在12月5日的某款商品精準(zhǔn)銷量。

比如宏觀氣候。 AI需要基于NASA的Gistemp數(shù)據(jù),推演12月全球平均氣溫相較于歷史基準(zhǔn)期的偏差。

甚至還有高度嘈雜的地緣政治與體育賽事。 預(yù)測誰能進(jìn)入2026年1月葡萄牙總統(tǒng)選舉的第二輪;預(yù)測墨西哥甲級聯(lián)賽中,克雷塔羅足球俱樂部對陣蒂華納的賽果。

面對這些問題,瞎蒙是沒有用的。系統(tǒng)必須像頂級情報分析師一樣,在全球碎片化的蛛絲馬跡中搜尋信號,過濾虛假新聞,最終給出一個沒有模糊空間的答案。

對錯,全由現(xiàn)實世界來裁定。

AI告別開卷考試

為什么各大巨頭現(xiàn)在都盯著FutureX?因為它是真正的“閉卷實戰(zhàn)”。

這個由字節(jié)跳動Seed團(tuán)隊、斯坦福大學(xué)、復(fù)旦大學(xué)和普林斯頓大學(xué)等聯(lián)合發(fā)起的國際評測基準(zhǔn),徹底干掉了一個大模型作弊的溫床——數(shù)據(jù)污染。

以往的靜態(tài)考題,模型在訓(xùn)練時可能早就把答案背下來了。但FutureX考的是尚未揭曉的未來事件。它每天從全球195個高質(zhì)量信源中實時提取新考題,模型根本無從作弊。

FutureX采用的是“折疊式”評分邏輯,拒絕模型靠蒙對簡單的“是與否”來刷分。它大幅壓縮了二元對立事件的數(shù)量,并將難度分為四個等級:

Level 1 是基礎(chǔ)事件,權(quán)重僅占10% 8。

Level 2 考察有變量的趨勢預(yù)測,占20% 8。

Level 3(多步深度推理)與 Level 4(極高不確定性的宏觀預(yù)測)作為難點資產(chǎn),合計占了總分的70%。

這就像是一張考卷,前面的選擇題只占30分,剩下70分全是需要海量推演的壓軸大題。

階層固化與偏科大賞:各家大模型的殘酷折疊

在這種高壓測試下,2026年3月的真實榜單展現(xiàn)出了極其冰冷的技術(shù)分化。

以被其他家反超的Grok-4為例,拆解Grok-4的成績單會發(fā)現(xiàn)一個致命弱點:它在Level 1的簡單任務(wù)里拿了71.43的高分,但在需要深度推理的Level 3,得分卻發(fā)生了斷崖式下跌,僅有8.21分。而以第三方Agent接入的基礎(chǔ)模型GPT5.2更是慘烈,如同失去方向感的盲人,僅得10.3分。

不過,總分拉胯不代表全盤皆輸。為了更精準(zhǔn)地衡量大模型的工業(yè)落地能力,F(xiàn)utureX專門設(shè)立了“細(xì)分預(yù)測任務(wù)”(涵蓋基礎(chǔ)事件與要求極高精度的FutureX-Pro垂直領(lǐng)域),這直接暴露了各家大模型的“偏科”體質(zhì):

政治與科技領(lǐng)域:擅長邏輯推理的GPT-5分別以72%和68%的準(zhǔn)確率稱霸,DeepSeek-R1和Claude-3.7緊隨其后。

體育賽事(高頻動態(tài)博弈):DeepSeek-R1拔得頭籌(64%),Claude-3.7(60%)排在次席。

金融(FutureX-Finance):要求預(yù)測財報和宏觀指標(biāo),誤差必須控制在5%以內(nèi)。GPT-5-high和Grok-4在這里找回了主場,分別以46.37和41.25分領(lǐng)跑。

零售(FutureX-Retail):考驗銷量與供應(yīng)鏈預(yù)測。Claude-Opus和Kimi-K2展現(xiàn)出極強(qiáng)的“商業(yè)直覺”,在評估不確定性的概率分布任務(wù)上得分最高。

公共衛(wèi)生(FutureX-PublicHealth):解讀官方公報預(yù)測疾病指標(biāo)。GPT-5-High和Kimi-K2-thinking憑借極高的問題覆蓋率占據(jù)榜首。

此外,字節(jié)的豆包(Seed1.6)和谷歌的Gemini Deep Research也在各類高難度交叉分析榜單中穩(wěn)居前四。

Milkyway和MiroMind之所以能在綜合榜單上超越這些“偏科”的算力怪獸,秘密不在于參數(shù)量,而在于“Harness層(腳手架)”和“驗證機(jī)制”的深度攻關(guān)。它們引入了DAG(有向無環(huán)圖)推理協(xié)議和雙層驗證器。簡單來說,它們在模型內(nèi)部建了一個“風(fēng)控中臺”,每搜索一條信息、每推理一步,都有機(jī)制在實時審計,強(qiáng)制糾錯。

一個時代結(jié)束了,新的機(jī)會正在升起

FutureX的榜單更迭,不僅僅是一場技術(shù)極客的狂歡,它向所有創(chuàng)業(yè)者和普通人釋放了一個強(qiáng)烈的信號:

第一,套殼聊天的時代結(jié)束了。

大模型的價值不再是寫幾首詩、寫幾封郵件,而是走向“Action Engine(行動引擎)”。誰能幫企業(yè)在紅海物流停擺前提前兩周調(diào)整供應(yīng)鏈?誰能在金融市場里捕捉到微弱的宏觀信號?高價值的“預(yù)見力”才是下一步的真金白銀。

第二,產(chǎn)業(yè)鏈的縫隙藏著大機(jī)會。

沒有哪一個模型能夠通吃所有細(xì)分領(lǐng)域。這正是創(chuàng)業(yè)者的機(jī)會。搭建更優(yōu)秀的智能體外殼(Agent Harness)、設(shè)計更抗干擾的驗證流、在特定垂直領(lǐng)域(如零售銷量、病理演變、區(qū)域地緣)投喂高質(zhì)量的反饋信號。

未來的贏家,不一定是擁有最多GPU的人,但一定是最懂如何在不確定性中建立規(guī)則、馴服AI的人。(本文首發(fā)鈦媒體App,作者|硅谷Technews,編輯|林深) 

作品聲明:內(nèi)容由AI生成
本文系作者 AGI-Signal 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容

掃描下載App