VideoWorld模型架構(gòu)概覽:左為整體架構(gòu),右為潛在動(dòng)態(tài)模型;圖片來源:豆包

VideoWorld基于一種潛在動(dòng)態(tài)模型(LDM),可高效壓縮視頻幀間的變化信息,在保留豐富視覺信息的同時(shí),壓縮關(guān)鍵決策和動(dòng)作相關(guān)的視覺變化,顯著提升知識(shí)學(xué)習(xí)效率和效果。在不依賴任何強(qiáng)化學(xué)習(xí)搜索或獎(jiǎng)勵(lì)函數(shù)機(jī)制前提下,它達(dá)到了專業(yè)5段9x9圍棋水平,并能夠在多種環(huán)境中執(zhí)行機(jī)器人任務(wù)。

該項(xiàng)目代碼與模型已開源。有字節(jié)內(nèi)部人士透露,VideoWorld視覺模型屬于學(xué)術(shù)研究項(xiàng)目,是在探索新的技術(shù)方法,目前并未應(yīng)用至產(chǎn)品端。需指出,豆包的VideoWorld并不完美,在真實(shí)世界環(huán)境中的應(yīng)用,仍面臨著高質(zhì)量視頻生成和多環(huán)境泛化等挑戰(zhàn)。

現(xiàn)有多模態(tài)模型大多依賴語言或標(biāo)簽數(shù)據(jù)學(xué)習(xí)知識(shí),但語言描述往往難以捕捉真實(shí)世界中的復(fù)雜信息。

視覺認(rèn)知是指通過視覺系統(tǒng)對(duì)周圍環(huán)境進(jìn)行感知、理解和解釋的能力,在人工智能領(lǐng)域,視覺認(rèn)知賦予機(jī)器通過圖像和視頻數(shù)據(jù)來理解和解釋世界的能力,使機(jī)器能夠像人類一樣“看”和“理解”周圍的環(huán)境,是人工智能邁向更高智能水平的關(guān)鍵一步。

僅僅依靠圖片視頻即可訓(xùn)練,純視覺模型昭示AI脫離人類自主學(xué)習(xí)潛力,智能硬件落地或加速推進(jìn)。民生證券認(rèn)為,視覺認(rèn)知世界的能力有望激活以視頻監(jiān)控、智能家居攝像頭等為代表的“視覺市場(chǎng)”,使其在視頻大模型的能力催化下獲得收益。

AI視覺技術(shù)可實(shí)現(xiàn)對(duì)商品盜竊的偵測(cè)及客流分析;圖片來源:開源證券

AI視覺技術(shù)可實(shí)現(xiàn)對(duì)商品盜竊的偵測(cè)及客流分析;圖片來源:開源證券

慧博云通研報(bào)顯示,純視覺模型有望助力機(jī)器人、自動(dòng)駕駛等純視覺場(chǎng)景下模型的訓(xùn)練。在機(jī)器人領(lǐng)域,AI視覺技術(shù)可以實(shí)現(xiàn)對(duì)機(jī)器人操作環(huán)境的視覺認(rèn)知和理解,提高機(jī)器人的自主性和智能化水平。在自動(dòng)駕駛領(lǐng)域,VideoWorld的技術(shù)可以提升車輛對(duì)環(huán)境的理解和決策能力,為更安全的自動(dòng)駕駛系統(tǒng)提供支持。

當(dāng)前,中國(guó)機(jī)器視覺行業(yè)正處于高速成長(zhǎng)階段。根據(jù)CBInsight數(shù)據(jù),中國(guó)已是繼美國(guó)、日本之后的第三大機(jī)器視覺領(lǐng)域應(yīng)用市場(chǎng)。而據(jù)高工機(jī)器人產(chǎn)業(yè)研究所(GGII)預(yù)測(cè),至2025年全球機(jī)器視覺市場(chǎng)規(guī)模將超過1200億元;2025年我國(guó)機(jī)器視覺市場(chǎng)規(guī)模將達(dá)到468.74億元。

此外,綜合多家機(jī)構(gòu)觀點(diǎn),VideoWorld的出現(xiàn)將在技術(shù)端使視頻轉(zhuǎn)碼、視覺算法、視覺系統(tǒng)、ISP芯片等技術(shù)發(fā)展受益,在應(yīng)用端還可能為AI眼鏡注入新的發(fā)展機(jī)遇。

對(duì)于AI眼鏡行業(yè)自身而言,核心環(huán)節(jié)在于推理芯片、AI模型、顯示技術(shù)等,VideoWorld開源或顯著提高應(yīng)用廠商AI模型能力,還可二次開發(fā)、靈活部署,加速智能眼鏡模型優(yōu)化。

近期,小米AI眼鏡已獲得入網(wǎng)許可。消息稱小米AI眼鏡原定于3月至4月發(fā)布,現(xiàn)計(jì)劃提前至2月,與小米15 Ultra同臺(tái)亮相。消費(fèi)電子納入國(guó)補(bǔ),也有望強(qiáng)化政策對(duì)AI眼鏡的消費(fèi)刺激預(yù)期。

繼OpenAI閉源后,大模型廠商呈現(xiàn)閉源趨勢(shì),直至DeepSeek將高性價(jià)比的R1模型開源。浙商證券認(rèn)為,長(zhǎng)期來看,國(guó)產(chǎn)大模型“算法創(chuàng)新+開源生態(tài)”有望構(gòu)建一條聯(lián)合創(chuàng)新之路,推動(dòng)中國(guó)AI領(lǐng)先。未來大模型若能形成繁榮的開源生態(tài),AI基礎(chǔ)模型有望加快創(chuàng)新,AI應(yīng)用部署門檻降低以及成本帶動(dòng)應(yīng)用繁榮,并催化推理算力需求快速增長(zhǎng);在推理端,軟件企業(yè)合作趨勢(shì)也將強(qiáng)化。

風(fēng)險(xiǎn)提示:AI產(chǎn)業(yè)發(fā)展不及預(yù)期;下游互聯(lián)網(wǎng)巨頭資本開支下滑;AI商業(yè)化產(chǎn)品發(fā)布不及預(yù)期;政策不確定性帶來的風(fēng)險(xiǎn);上游供應(yīng)不及預(yù)期。

科股寶VIP由鈦媒體App與北京商報(bào)聯(lián)合推出,相關(guān)數(shù)據(jù)及信息已獲得北京商報(bào)授權(quán)。 風(fēng)險(xiǎn)提示:本產(chǎn)品內(nèi)容僅供參考,不構(gòu)成投資建議。投資有風(fēng)險(xiǎn),入市需謹(jǐn)慎。
科股一線拆解

快報(bào)

更多

11:40

韓文秀:全方位應(yīng)對(duì)人工智能沖擊,促進(jìn)高質(zhì)量充分就業(yè)

11:35

南京調(diào)整汽車購新補(bǔ)貼政策內(nèi)容

10:46

專屬代碼“NXA”啟用,首票空運(yùn)貨物運(yùn)抵雄安綜合保稅區(qū)

10:45

暴漲40%,霍爾木茲海峽“梗阻” 沖擊氦氣供應(yīng)鏈

10:19

微信推出官方龍蝦插件

09:27

馬斯克被裁定因誤導(dǎo)言論讓推特股東“虧錢”

09:26

羽毛球大降價(jià)

09:11

美以伊開戰(zhàn)兩周,伊朗反擊已致美損失約8億美元

09:05

伊朗回應(yīng)特朗普襲擊電廠威脅

09:04

特朗普要求伊朗48小時(shí)內(nèi)開放霍爾木茲海峽

09:04

中國(guó)充電聯(lián)盟:2026年1-2月充電基礎(chǔ)設(shè)施增量為91.8萬個(gè)

2026-03-21 22:08

香港引進(jìn)102家重點(diǎn)企業(yè)逾40家布局人工智能

2026-03-21 21:54

中國(guó)貿(mào)促會(huì)副會(huì)長(zhǎng)劉健男會(huì)見丹麥諾和諾德公司全球執(zhí)行副總裁林意明

2026-03-21 21:53

中東至少9國(guó)39座能源設(shè)施受損

2026-03-21 21:42

加拿大不列顛哥倫比亞省省長(zhǎng)尹大衛(wèi)將于今年晚些時(shí)候訪華

2026-03-21 21:00

葛均波擔(dān)任上海百匯醫(yī)院首席科學(xué)家,明確表示“不領(lǐng)薪”

2026-03-21 20:30

伊朗稱美以攻擊波斯灣內(nèi)私人船只及客運(yùn)交通工具

2026-03-21 20:28

何立峰會(huì)見跨國(guó)公司負(fù)責(zé)人

2026-03-21 20:15

伊拉克稱伊朗天然氣供應(yīng)量恢復(fù)至每日500萬立方米

2026-03-21 20:09

3月21日新聞聯(lián)播速覽29條

掃描下載App