圖片由AI生成

商湯正式開源多模態(tài)自主推理模型SenseNova-MARS(8B/32B雙版本)。這是商湯首個支持動態(tài)視覺推理和圖文搜索深度融合的Agentic VLM模型,能自己規(guī)劃步驟、調(diào)用工具,搞定復(fù)雜任務(wù),讓AI具備“執(zhí)行能力”。

在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基準(zhǔn)測試中,SenseNova-MARS取得開源模型中的SOTA成績,超越了Gemini-3.0-Pro、GPT-5.2等頂級閉源模型,在搜索推理和視覺理解兩大領(lǐng)域領(lǐng)跑。
在MMSearch榜單(圖文搜索核心評測)中,模型以74.27分登頂,超過GPT-5.2(66.08分);HR-MMSearch(高清細(xì)節(jié)搜索評測)中以54.43分領(lǐng)先,拉開與閉源模型的差距。圖片來源:商湯技術(shù)報告

在MMSearch榜單(圖文搜索核心評測)中,模型以74.27分登頂,超過GPT-5.2(66.08分);HR-MMSearch(高清細(xì)節(jié)搜索評測)中以54.43分領(lǐng)先,拉開與閉源模型的差距。圖片來源:SenseNova-MARS技術(shù)報告

簡單理解,該模型解決的問題有二:“查遍全網(wǎng)”的知識密集型任務(wù),“火眼金睛”的細(xì)粒度視覺分析。

SenseNova-MARS能實實在在落地到我們生活和工作的場景,解決需要“多步驟推理+多工具協(xié)作”的問題。

市面上一些AI的工具調(diào)用,遇到需要“先放大細(xì)節(jié)、再識別物體、最后查背景”的復(fù)雜任務(wù)會束手無策。

而SenseNova-MARS能從產(chǎn)品和行業(yè)峰會的照片中,識別企業(yè)的標(biāo)志,快速搜集產(chǎn)品、企業(yè)的信息,以及時間、數(shù)量、參數(shù)等細(xì)節(jié)要素,輔助分析行業(yè)情況和格局。
1

圖片來源:SenseNova-MARS技術(shù)報告

同時,SenseNova-MARS能從賽事照片中識別畫面中的Logo、人物等信息,追溯比賽或人員背景信息,幫助補充重要細(xì)節(jié)。
圖片來源:SenseNova-MARS技術(shù)報告

圖片來源:SenseNova-MARS技術(shù)報告

擁有這種“自主思考+多工具協(xié)作”的能力,SenseNova-MARS能夠自動解決“細(xì)節(jié)識別 + 信息檢索 + 邏輯推理”復(fù)雜任務(wù),實現(xiàn)工作效率提升。

之所以能夠?qū)崿F(xiàn)上述能力,SenseNova-MARS采用了“因材施教”的訓(xùn)練方法。

第一階段:打基礎(chǔ)。針對跨模態(tài)多跳搜索推理訓(xùn)練數(shù)據(jù)稀缺的痛點,提出了基于多模智能體的自動化數(shù)據(jù)合成引擎,采用細(xì)粒度視覺錨點 + 多跳深度關(guān)聯(lián)檢索的機(jī)制,動態(tài)挖掘并關(guān)聯(lián)跨網(wǎng)頁實體的邏輯,自動化構(gòu)建高復(fù)雜度的多跳推理鏈路,同時引入閉環(huán)自洽性校驗來去除幻覺數(shù)據(jù),構(gòu)造出具備嚴(yán)密邏輯鏈條與高知識密度的多跳搜索問答數(shù)據(jù)。

用篩選的“高難度案例”做教材,每個案例都標(biāo)注了“該用什么工具、步驟是什么”,讓AI先學(xué)會基本的“破案邏輯”。這些案例都是從海量數(shù)據(jù)中挑出的“硬骨頭”,確保AI一開始就接觸真實復(fù)雜場景。

第二階段:練實戰(zhàn)。采用“強(qiáng)化學(xué)習(xí)”——就像偵探在一次次破案中積累經(jīng)驗,AI每做對一次決策(比如選對工具、步驟合理)就會獲得獎勵,做錯了就調(diào)整策略。為了避免AI“學(xué)偏”,研究團(tuán)隊還加了個“穩(wěn)定器”——BN-GSPO算法,讓它在處理簡單題和復(fù)雜題時都能保持穩(wěn)定進(jìn)步,不會出現(xiàn)“偏科”。

這種基于雙階段歸一化的優(yōu)雅機(jī)制,有效平滑了動態(tài)工具調(diào)用返回分布多樣性帶來的優(yōu)化波動并確保了學(xué)習(xí)信號分布的一致性,從而解決了跨模態(tài)多步多工具智能體訓(xùn)練過程中的收斂性難題。

經(jīng)過這樣的訓(xùn)練,AI不僅學(xué)會了用工具,更培養(yǎng)“工具使用直覺”——知道在什么情況下應(yīng)該使用哪些工具,以及如何將不同工具的結(jié)果有機(jī)結(jié)合起來。

商湯日日新SenseNova-MARS模型、代碼、數(shù)據(jù)集全開源,支持Hugging Face直接下載。(作者|李程程,編輯|李玉鵬)

本文系作者 LCC_Beta版 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

17:30

2026太空算力產(chǎn)業(yè)大會將在北京啟幕

17:29

樹立和踐行正確政績觀學(xué)習(xí)教育中央指導(dǎo)組派駐地方和單位名單公布

17:28

世貿(mào)組織第14屆部長級會議在雅溫得閉幕,成員同意盡快就未決議題進(jìn)行磋商

17:26

2連板貴廣網(wǎng)絡(luò):公司不涉及算力相關(guān)業(yè)務(wù)

17:25

伊朗稱未與美國直接對話,僅通過第三方傳遞信息

17:24

上交所對*ST星農(nóng)及有關(guān)責(zé)任人予以公開譴責(zé)

17:21

基金年報被要求詳列年度“罰單”明細(xì)

17:21

易方達(dá)基金:恒生紅利低波ETF易方達(dá)4月3日起暫停申購

17:19

耐世特泰國制造工廠正式投產(chǎn)

17:19

九安醫(yī)療今日漲停,有2家機(jī)構(gòu)專用席位凈賣出1.17億元

17:18

伊朗沖突打亂沙特原油常規(guī)定價機(jī)制,緊張的買家尋求替代方式

17:17

華安基金:華安標(biāo)普全球石油指數(shù)(LOF)4月3日暫停贖回

17:16

歐元區(qū)3月經(jīng)濟(jì)景氣指數(shù)為96.6,低于預(yù)期

17:15

神劍股份今日漲停,3家機(jī)構(gòu)專用席位凈買入1.35億元

17:15

邁為股份今日跌15.78%,有3家機(jī)構(gòu)專用席位凈賣出1.98億元

17:15

廣聯(lián)航空今日20cm漲停,3家機(jī)構(gòu)專用席位凈買入1.28億元

17:14

華泰證券:2025年凈利潤163.83億元,同比增長6.72%

17:13

市場監(jiān)管總局與歐盟委員會競爭總司共同舉辦第28屆中歐競爭政策周

17:06

中國攻克液氫燃料航空渦輪動力關(guān)鍵技術(shù)

17:04

面對多線作戰(zhàn)局面,以色列通過創(chuàng)紀(jì)錄預(yù)算

掃描下載App