每當(dāng)有大模型發(fā)布,業(yè)內(nèi)都會(huì)習(xí)慣性地思考,這到底是靠刷榜拿分,還是真能在真實(shí)場(chǎng)景里干活?
目前,各大權(quán)威基準(zhǔn)測(cè)試顯示,MiMo-V2系列在邏輯推理和代碼領(lǐng)域的成績(jī),位居全球第一梯隊(duì)。
AIME 2025數(shù)學(xué)基準(zhǔn)測(cè)試中,MiMo-V2 Flash得分94.1%表明,已具備了接近人類頂尖競(jìng)賽選手的能力 。
SWE-Bench測(cè)試顯示,MiMo-V2-Pro在編程任務(wù)上不僅大幅領(lǐng)先于國(guó)內(nèi)競(jìng)品,且在多項(xiàng)指標(biāo)上與全球頂級(jí)模型并駕齊驅(qū)。
![]()
但質(zhì)疑在于,傳統(tǒng)的靜態(tài)基準(zhǔn)測(cè)試已無法衡量真實(shí)的智能水平。那么,MiMo-V2在真實(shí)的人類任務(wù)中表現(xiàn)如何?
在以實(shí)戰(zhàn)著稱的PinchBench和Claw-Eval榜單上,小米這組模型展現(xiàn)出了強(qiáng)大的執(zhí)行力。
PinchBench榜單中,MiMo-V2-Pro的任務(wù)完結(jié)率高達(dá)85%,目前穩(wěn)居全球前三,僅次于目前頂級(jí)陣營(yíng)(Claude 4.6 系列、GPT-5.4)。
在Claw-Eval中,MiMo-V2的指令服從度達(dá)到了97%,表現(xiàn)了對(duì)復(fù)雜工具鏈的理解深度。
事實(shí)上,MiMo-V2也在被開發(fā)者們用腳投票,真實(shí)調(diào)用量驚人。
OpenRouter數(shù)據(jù)顯示,MiMo-V2-Pro(Hunter)上線后多日占據(jù)日榜第一,大量來自開發(fā)者真實(shí)Agent工作流。
![]()
來源:OpenRouter LLM Leaderboard(2026.3.10-2026.3.16)
社區(qū)實(shí)測(cè)后也給出了積極反饋,很多人認(rèn)為這套組合把可用性拉到了新高度。
但也有開發(fā)者質(zhì)疑,MiMo-V2有“面向特定框架/特定評(píng)測(cè)目標(biāo)強(qiáng)優(yōu)化”的嫌疑。
小米官方與OpenClaw生態(tài)都反復(fù)強(qiáng)調(diào)對(duì)OpenClaw工具調(diào)用與多步任務(wù)的優(yōu)化,同時(shí)公開訓(xùn)練細(xì)節(jié)(數(shù)據(jù)配方、算力、RL 過程)缺失,很難從第一性原理排除“對(duì)OpenClaw等少數(shù)Agent基準(zhǔn)過擬合”的可能性。
此外,也有開發(fā)者測(cè)試后表示,在安全對(duì)齊上,MiMo-V2-Pro與MiMo-V2-Omni差異明顯,前者強(qiáng)審查,后者更開放。這對(duì)企業(yè)合規(guī)、跨境產(chǎn)品一致性、安全體驗(yàn)提出了挑戰(zhàn)。
無論外界對(duì)這組模型的表現(xiàn)是否有爭(zhēng)議,小米的這次出手,已經(jīng)足夠讓整個(gè)大模型圈重新評(píng)價(jià)它。
2026年,中國(guó)大模型市場(chǎng)已經(jīng)進(jìn)入落地決戰(zhàn)階段,真正比拼的是誰(shuí)能把模型真正嵌入用戶日常場(chǎng)景。
就在這個(gè)節(jié)點(diǎn),小米把MiMo-V2系列直接推上前臺(tái)。
過去三年,小米AI給外界的印象始終停留在應(yīng)用層:超級(jí)小愛語(yǔ)音助手、澎湃OS的智能插件、手機(jī)端側(cè)的局部?jī)?yōu)化。它更像是一個(gè)終端廠商的輔助功能,而非獨(dú)立的基礎(chǔ)模型玩家。
然而,隨著MiMo-V2-Flash開源沖到全球Agent榜第二,再到這次MiMo兩款模型的匿名測(cè)試,小米不再是追隨者,而是開始建立自己的技術(shù)譜系。
這也意味著,小米的目標(biāo)不只是證明自己做得出大模型,而是要進(jìn)一步證明,這套能力可以成為整個(gè)生態(tài)的新底座。
因此,小米真正的AI戰(zhàn)略,是要構(gòu)建“人-車-家”生態(tài)里的統(tǒng)一智能層。
通過把MiMo系列深度嵌入小米自有的垂直鏈路——芯片(澎湃芯片)、操作系統(tǒng)(澎湃OS)、大模型、終端設(shè)備(手機(jī)、汽車、智能家居),讓AI不再是App里的對(duì)話框,而是系統(tǒng)級(jí)的原生能力。
例如,用戶在手機(jī)上說一句“幫我把今天會(huì)議紀(jì)要整理好”,MiMo-V2直接理解意圖,自動(dòng)調(diào)用WPS生成文檔,同時(shí)把關(guān)鍵行動(dòng)項(xiàng)推送到車機(jī)導(dǎo)航和家居日程。
汽車行駛中檢測(cè)到用戶疲勞,MiMo-V2結(jié)合手機(jī)傳感器和車內(nèi)攝像頭,直接調(diào)整空調(diào)、播放指定音樂,甚至提前通知智能家居煮咖啡。
這種閉環(huán)執(zhí)行,依賴的是小米獨(dú)有的生態(tài)優(yōu)勢(shì):超過7億月活躍用戶、超過10億IoT設(shè)備,以及澎湃OS對(duì)硬件的完整權(quán)限控制。
其他純模型廠商只能停留在云端API調(diào)用,但小米卻能把意圖直接轉(zhuǎn)化為物理世界的動(dòng)作。
羅福莉曾在內(nèi)部多次強(qiáng)調(diào):小米不追求孤立的超級(jí)模型,而是要讓AI“走出對(duì)話框,接管真實(shí)生活”。
這正是小米與DeepSeek、智譜、月之暗面等純模型玩家的根本區(qū)別。前者靠生態(tài)落地,后者靠參數(shù)和API定價(jià)。
換句話說,小米正在完成一次根本轉(zhuǎn)型:從賣硬件的科技公司,變成用AI重新定義用戶生活方式的生態(tài)服務(wù)商。
MiMo-V2系列只是這個(gè)戰(zhàn)略的第一張牌。
小米此番發(fā)力,直接把國(guó)產(chǎn)大模型的競(jìng)爭(zhēng)推入新階段。
最先感受到?jīng)_擊的是價(jià)格體系。
MiMo-V2系列API定價(jià)僅為Claude Opus 4.6的五分之一:256K上下文以內(nèi),輸入1美元/百萬(wàn)token,輸出3美元;即使擴(kuò)展至1M上下文,費(fèi)用也僅翻倍。
這一價(jià)格,直接把此前動(dòng)輒數(shù)十美元的Agent調(diào)用門檻拉到極低。
有開發(fā)者反饋,不少團(tuán)隊(duì)在測(cè)試MiMo Claw免費(fèi)體驗(yàn)后,已開始將部分生產(chǎn)任務(wù)遷移過來,“成本驟降”成為最常見的評(píng)價(jià)。
在國(guó)內(nèi)市場(chǎng),小米的突然入局也讓格局出現(xiàn)明顯裂變。
阿里通義、字節(jié)豆包等此前各自占據(jù)參數(shù)或應(yīng)用優(yōu)勢(shì)的大模型,現(xiàn)在必須面對(duì)一個(gè)同時(shí)擁有頂級(jí)Agent能力和10億IoT設(shè)備生態(tài)的對(duì)手。
小米補(bǔ)齊了中國(guó)大模型最缺的落地閉環(huán),把競(jìng)爭(zhēng)焦點(diǎn)從“誰(shuí)的參數(shù)更大”徹底轉(zhuǎn)向“誰(shuí)能真正跑通真實(shí)場(chǎng)景”。
對(duì)DeepSeek而言,壓力也很直接:技術(shù)路線被繼承,Agent執(zhí)行場(chǎng)景又被小米用硬件生態(tài)提前卡位。
全球視角下,小米正成為能與Apple Intelligence形成對(duì)標(biāo)格局的硬件級(jí)AI生態(tài)。
蘋果目前仍以封閉端側(cè)小模型為主,強(qiáng)調(diào)隱私與本地計(jì)算;
小米則通過開放低價(jià)API+全鏈路權(quán)限,實(shí)現(xiàn)云端意圖理解到物理設(shè)備執(zhí)行的無縫銜接。7億月活用戶和澎湃OS的系統(tǒng)級(jí)控制權(quán),可能會(huì)讓小米在AI普惠速度上領(lǐng)先一步。
匿名模型的發(fā)布,并不是一次簡(jiǎn)單的測(cè)試,而是小米技術(shù)自信的一次集中亮相。
這意味著,小米已經(jīng)不滿足于只做 AI 能力的承接者,而是在嘗試進(jìn)入模型、系統(tǒng)與生態(tài)協(xié)同更深的一層。
這套體系最終能否成立,還需要時(shí)間驗(yàn)證。
但可以確定的是,小米已經(jīng)不再只是旁觀這場(chǎng)競(jìng)賽,而是正式走進(jìn)了牌桌中央。
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論