03 跑分還是實(shí)戰(zhàn)?

每當(dāng)有大模型發(fā)布,業(yè)內(nèi)都會(huì)習(xí)慣性地思考,這到底是靠刷榜拿分,還是真能在真實(shí)場(chǎng)景里干活?

目前,各大權(quán)威基準(zhǔn)測(cè)試顯示,MiMo-V2系列在邏輯推理和代碼領(lǐng)域的成績(jī),位居全球第一梯隊(duì)。

AIME 2025數(shù)學(xué)基準(zhǔn)測(cè)試中,MiMo-V2 Flash得分94.1%表明,已具備了接近人類頂尖競(jìng)賽選手的能力 。

SWE-Bench測(cè)試顯示,MiMo-V2-Pro在編程任務(wù)上不僅大幅領(lǐng)先于國(guó)內(nèi)競(jìng)品,且在多項(xiàng)指標(biāo)上與全球頂級(jí)模型并駕齊驅(qū)。

但質(zhì)疑在于,傳統(tǒng)的靜態(tài)基準(zhǔn)測(cè)試已無法衡量真實(shí)的智能水平。那么,MiMo-V2在真實(shí)的人類任務(wù)中表現(xiàn)如何?

在以實(shí)戰(zhàn)著稱的PinchBench和Claw-Eval榜單上,小米這組模型展現(xiàn)出了強(qiáng)大的執(zhí)行力。

PinchBench榜單中,MiMo-V2-Pro的任務(wù)完結(jié)率高達(dá)85%,目前穩(wěn)居全球前三,僅次于目前頂級(jí)陣營(yíng)(Claude 4.6 系列、GPT-5.4)。

在Claw-Eval中,MiMo-V2的指令服從度達(dá)到了97%,表現(xiàn)了對(duì)復(fù)雜工具鏈的理解深度。

事實(shí)上,MiMo-V2也在被開發(fā)者們用腳投票,真實(shí)調(diào)用量驚人。

OpenRouter數(shù)據(jù)顯示,MiMo-V2-Pro(Hunter)上線后多日占據(jù)日榜第一,大量來自開發(fā)者真實(shí)Agent工作流。

來源:OpenRouter LLM Leaderboard(2026.3.10-2026.3.16)

社區(qū)實(shí)測(cè)后也給出了積極反饋,很多人認(rèn)為這套組合把可用性拉到了新高度。

但也有開發(fā)者質(zhì)疑,MiMo-V2有“面向特定框架/特定評(píng)測(cè)目標(biāo)強(qiáng)優(yōu)化”的嫌疑。

小米官方與OpenClaw生態(tài)都反復(fù)強(qiáng)調(diào)對(duì)OpenClaw工具調(diào)用與多步任務(wù)的優(yōu)化,同時(shí)公開訓(xùn)練細(xì)節(jié)(數(shù)據(jù)配方、算力、RL 過程)缺失,很難從第一性原理排除“對(duì)OpenClaw等少數(shù)Agent基準(zhǔn)過擬合”的可能性。

此外,也有開發(fā)者測(cè)試后表示,在安全對(duì)齊上,MiMo-V2-Pro與MiMo-V2-Omni差異明顯,前者強(qiáng)審查,后者更開放。這對(duì)企業(yè)合規(guī)、跨境產(chǎn)品一致性、安全體驗(yàn)提出了挑戰(zhàn)。

04 小米的AI野心

無論外界對(duì)這組模型的表現(xiàn)是否有爭(zhēng)議,小米的這次出手,已經(jīng)足夠讓整個(gè)大模型圈重新評(píng)價(jià)它。

2026年,中國(guó)大模型市場(chǎng)已經(jīng)進(jìn)入落地決戰(zhàn)階段,真正比拼的是誰(shuí)能把模型真正嵌入用戶日常場(chǎng)景。

就在這個(gè)節(jié)點(diǎn),小米把MiMo-V2系列直接推上前臺(tái)。

過去三年,小米AI給外界的印象始終停留在應(yīng)用層:超級(jí)小愛語(yǔ)音助手、澎湃OS的智能插件、手機(jī)端側(cè)的局部?jī)?yōu)化。它更像是一個(gè)終端廠商的輔助功能,而非獨(dú)立的基礎(chǔ)模型玩家。

然而,隨著MiMo-V2-Flash開源沖到全球Agent榜第二,再到這次MiMo兩款模型的匿名測(cè)試,小米不再是追隨者,而是開始建立自己的技術(shù)譜系。

這也意味著,小米的目標(biāo)不只是證明自己做得出大模型,而是要進(jìn)一步證明,這套能力可以成為整個(gè)生態(tài)的新底座。

因此,小米真正的AI戰(zhàn)略,是要構(gòu)建“人-車-家”生態(tài)里的統(tǒng)一智能層。

通過把MiMo系列深度嵌入小米自有的垂直鏈路——芯片(澎湃芯片)、操作系統(tǒng)(澎湃OS)、大模型、終端設(shè)備(手機(jī)、汽車、智能家居),讓AI不再是App里的對(duì)話框,而是系統(tǒng)級(jí)的原生能力。

例如,用戶在手機(jī)上說一句“幫我把今天會(huì)議紀(jì)要整理好”,MiMo-V2直接理解意圖,自動(dòng)調(diào)用WPS生成文檔,同時(shí)把關(guān)鍵行動(dòng)項(xiàng)推送到車機(jī)導(dǎo)航和家居日程。

汽車行駛中檢測(cè)到用戶疲勞,MiMo-V2結(jié)合手機(jī)傳感器和車內(nèi)攝像頭,直接調(diào)整空調(diào)、播放指定音樂,甚至提前通知智能家居煮咖啡。

這種閉環(huán)執(zhí)行,依賴的是小米獨(dú)有的生態(tài)優(yōu)勢(shì):超過7億月活躍用戶、超過10億IoT設(shè)備,以及澎湃OS對(duì)硬件的完整權(quán)限控制。

其他純模型廠商只能停留在云端API調(diào)用,但小米卻能把意圖直接轉(zhuǎn)化為物理世界的動(dòng)作。

羅福莉曾在內(nèi)部多次強(qiáng)調(diào):小米不追求孤立的超級(jí)模型,而是要讓AI“走出對(duì)話框,接管真實(shí)生活”。

這正是小米與DeepSeek、智譜、月之暗面等純模型玩家的根本區(qū)別。前者靠生態(tài)落地,后者靠參數(shù)和API定價(jià)。

換句話說,小米正在完成一次根本轉(zhuǎn)型:從賣硬件的科技公司,變成用AI重新定義用戶生活方式的生態(tài)服務(wù)商。

MiMo-V2系列只是這個(gè)戰(zhàn)略的第一張牌。

05 競(jìng)爭(zhēng)格局將如何重塑?

小米此番發(fā)力,直接把國(guó)產(chǎn)大模型的競(jìng)爭(zhēng)推入新階段。

最先感受到?jīng)_擊的是價(jià)格體系。

MiMo-V2系列API定價(jià)僅為Claude Opus 4.6的五分之一:256K上下文以內(nèi),輸入1美元/百萬(wàn)token,輸出3美元;即使擴(kuò)展至1M上下文,費(fèi)用也僅翻倍。

這一價(jià)格,直接把此前動(dòng)輒數(shù)十美元的Agent調(diào)用門檻拉到極低。

有開發(fā)者反饋,不少團(tuán)隊(duì)在測(cè)試MiMo Claw免費(fèi)體驗(yàn)后,已開始將部分生產(chǎn)任務(wù)遷移過來,“成本驟降”成為最常見的評(píng)價(jià)。

在國(guó)內(nèi)市場(chǎng),小米的突然入局也讓格局出現(xiàn)明顯裂變。

阿里通義、字節(jié)豆包等此前各自占據(jù)參數(shù)或應(yīng)用優(yōu)勢(shì)的大模型,現(xiàn)在必須面對(duì)一個(gè)同時(shí)擁有頂級(jí)Agent能力和10億IoT設(shè)備生態(tài)的對(duì)手。

小米補(bǔ)齊了中國(guó)大模型最缺的落地閉環(huán),把競(jìng)爭(zhēng)焦點(diǎn)從“誰(shuí)的參數(shù)更大”徹底轉(zhuǎn)向“誰(shuí)能真正跑通真實(shí)場(chǎng)景”。

對(duì)DeepSeek而言,壓力也很直接:技術(shù)路線被繼承,Agent執(zhí)行場(chǎng)景又被小米用硬件生態(tài)提前卡位。

全球視角下,小米正成為能與Apple Intelligence形成對(duì)標(biāo)格局的硬件級(jí)AI生態(tài)。

蘋果目前仍以封閉端側(cè)小模型為主,強(qiáng)調(diào)隱私與本地計(jì)算;

小米則通過開放低價(jià)API+全鏈路權(quán)限,實(shí)現(xiàn)云端意圖理解到物理設(shè)備執(zhí)行的無縫銜接。7億月活用戶和澎湃OS的系統(tǒng)級(jí)控制權(quán),可能會(huì)讓小米在AI普惠速度上領(lǐng)先一步。

06 結(jié)語(yǔ)

匿名模型的發(fā)布,并不是一次簡(jiǎn)單的測(cè)試,而是小米技術(shù)自信的一次集中亮相。

這意味著,小米已經(jīng)不滿足于只做 AI 能力的承接者,而是在嘗試進(jìn)入模型、系統(tǒng)與生態(tài)協(xié)同更深的一層。

這套體系最終能否成立,還需要時(shí)間驗(yàn)證。

但可以確定的是,小米已經(jīng)不再只是旁觀這場(chǎng)競(jìng)賽,而是正式走進(jìn)了牌桌中央。

本文系作者 世界模型工場(chǎng) 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

07:31

內(nèi)塔尼亞胡:以方將“暫停”空襲伊朗能源設(shè)施

07:29

伊朗發(fā)動(dòng)“真實(shí)承諾-4”第65、66輪軍事行動(dòng),首次使用升級(jí)版“卡德爾”導(dǎo)彈

07:24

美軍或奪島以迫使伊朗開放霍爾木茲海峽

07:17

六國(guó)發(fā)表聯(lián)合聲明:準(zhǔn)備采取措施保障霍爾木茲海峽安全

07:14

美股收評(píng):三大指數(shù)齊跌,光通信概念逆市走強(qiáng),閃迪續(xù)刷新高

2026-03-19 22:58

內(nèi)存漲價(jià)潮席卷全球,32G內(nèi)存條從800元暴漲到3800元

2026-03-19 22:57

團(tuán)隊(duì)版 OpenClaw (Clawith)宣布開源

2026-03-19 22:54

多家航司國(guó)際航線燃油附加費(fèi)上調(diào)

2026-03-19 22:22

美股光通信概念股強(qiáng)勢(shì)拉升,Applied Optoelectronics 漲超6%

2026-03-19 22:13

ST泉為:公司及實(shí)控人、董事長(zhǎng)褚一凡因涉嫌信息披露違法違規(guī)被證監(jiān)會(huì)立案調(diào)查

2026-03-19 22:03

現(xiàn)貨黃金跌3.78%,報(bào)4636.60美元/盎司

2026-03-19 22:02

東方財(cái)富:發(fā)布2026-2028年股東分紅回報(bào)規(guī)劃

2026-03-19 21:55

美元指數(shù)日內(nèi)走低0.50%,最低報(bào)99.70

2026-03-19 21:51

首都在線:2025年虧損1.7億元

2026-03-19 21:35

中國(guó)聯(lián)通:2025年凈利潤(rùn)同比增長(zhǎng)1.1%,擬派發(fā)全年股利約51.12億元

2026-03-19 21:35

納斯達(dá)克中國(guó)金龍指數(shù)跌3.0%,報(bào)6804.11點(diǎn)

2026-03-19 21:34

美股開盤:三大指數(shù)集體低開,美光科技跌超8%

2026-03-19 21:18

3月19日美股盤前要聞

2026-03-19 21:16

歐洲央行:維持三大關(guān)鍵利率不變,符合市場(chǎng)預(yù)期

2026-03-19 21:08

NYMEX鉑金主力合約跌超9%,報(bào)1870.1美元/盎司

掃描下載App