VideoWorld模型架構(gòu)概覽:左為整體架構(gòu),右為潛在動(dòng)態(tài)模型;圖片來源:豆包
VideoWorld基于一種潛在動(dòng)態(tài)模型(LDM),可高效壓縮視頻幀間的變化信息,在保留豐富視覺信息的同時(shí),壓縮關(guān)鍵決策和動(dòng)作相關(guān)的視覺變化,顯著提升知識(shí)學(xué)習(xí)效率和效果。在不依賴任何強(qiáng)化學(xué)習(xí)搜索或獎(jiǎng)勵(lì)函數(shù)機(jī)制前提下,它達(dá)到了專業(yè)5段9x9圍棋水平,并能夠在多種環(huán)境中執(zhí)行機(jī)器人任務(wù)。
該項(xiàng)目代碼與模型已開源。有字節(jié)內(nèi)部人士透露,VideoWorld視覺模型屬于學(xué)術(shù)研究項(xiàng)目,是在探索新的技術(shù)方法,目前并未應(yīng)用至產(chǎn)品端。需指出,豆包的VideoWorld并不完美,在真實(shí)世界環(huán)境中的應(yīng)用,仍面臨著高質(zhì)量視頻生成和多環(huán)境泛化等挑戰(zhàn)。
![]()
現(xiàn)有多模態(tài)模型大多依賴語言或標(biāo)簽數(shù)據(jù)學(xué)習(xí)知識(shí),但語言描述往往難以捕捉真實(shí)世界中的復(fù)雜信息。
視覺認(rèn)知是指通過視覺系統(tǒng)對(duì)周圍環(huán)境進(jìn)行感知、理解和解釋的能力,在人工智能領(lǐng)域,視覺認(rèn)知賦予機(jī)器通過圖像和視頻數(shù)據(jù)來理解和解釋世界的能力,使機(jī)器能夠像人類一樣“看”和“理解”周圍的環(huán)境,是人工智能邁向更高智能水平的關(guān)鍵一步。
僅僅依靠圖片視頻即可訓(xùn)練,純視覺模型昭示AI脫離人類自主學(xué)習(xí)潛力,智能硬件落地或加速推進(jìn)。民生證券認(rèn)為,視覺認(rèn)知世界的能力有望激活以視頻監(jiān)控、智能家居攝像頭等為代表的“視覺市場(chǎng)”,使其在視頻大模型的能力催化下獲得收益。
![]()
AI視覺技術(shù)可實(shí)現(xiàn)對(duì)商品盜竊的偵測(cè)及客流分析;圖片來源:開源證券
慧博云通研報(bào)顯示,純視覺模型有望助力機(jī)器人、自動(dòng)駕駛等純視覺場(chǎng)景下模型的訓(xùn)練。在機(jī)器人領(lǐng)域,AI視覺技術(shù)可以實(shí)現(xiàn)對(duì)機(jī)器人操作環(huán)境的視覺認(rèn)知和理解,提高機(jī)器人的自主性和智能化水平。在自動(dòng)駕駛領(lǐng)域,VideoWorld的技術(shù)可以提升車輛對(duì)環(huán)境的理解和決策能力,為更安全的自動(dòng)駕駛系統(tǒng)提供支持。
當(dāng)前,中國(guó)機(jī)器視覺行業(yè)正處于高速成長(zhǎng)階段。根據(jù)CBInsight數(shù)據(jù),中國(guó)已是繼美國(guó)、日本之后的第三大機(jī)器視覺領(lǐng)域應(yīng)用市場(chǎng)。而據(jù)高工機(jī)器人產(chǎn)業(yè)研究所(GGII)預(yù)測(cè),至2025年全球機(jī)器視覺市場(chǎng)規(guī)模將超過1200億元;2025年我國(guó)機(jī)器視覺市場(chǎng)規(guī)模將達(dá)到468.74億元。
此外,綜合多家機(jī)構(gòu)觀點(diǎn),VideoWorld的出現(xiàn)將在技術(shù)端使視頻轉(zhuǎn)碼、視覺算法、視覺系統(tǒng)、ISP芯片等技術(shù)發(fā)展受益,在應(yīng)用端還可能為AI眼鏡注入新的發(fā)展機(jī)遇。
對(duì)于AI眼鏡行業(yè)自身而言,核心環(huán)節(jié)在于推理芯片、AI模型、顯示技術(shù)等,VideoWorld開源或顯著提高應(yīng)用廠商AI模型能力,還可二次開發(fā)、靈活部署,加速智能眼鏡模型優(yōu)化。
近期,小米AI眼鏡已獲得入網(wǎng)許可。消息稱小米AI眼鏡原定于3月至4月發(fā)布,現(xiàn)計(jì)劃提前至2月,與小米15 Ultra同臺(tái)亮相。消費(fèi)電子納入國(guó)補(bǔ),也有望強(qiáng)化政策對(duì)AI眼鏡的消費(fèi)刺激預(yù)期。
![]()
繼OpenAI閉源后,大模型廠商呈現(xiàn)閉源趨勢(shì),直至DeepSeek將高性價(jià)比的R1模型開源。浙商證券認(rèn)為,長(zhǎng)期來看,國(guó)產(chǎn)大模型“算法創(chuàng)新+開源生態(tài)”有望構(gòu)建一條聯(lián)合創(chuàng)新之路,推動(dòng)中國(guó)AI領(lǐng)先。未來大模型若能形成繁榮的開源生態(tài),AI基礎(chǔ)模型有望加快創(chuàng)新,AI應(yīng)用部署門檻降低以及成本帶動(dòng)應(yīng)用繁榮,并催化推理算力需求快速增長(zhǎng);在推理端,軟件企業(yè)合作趨勢(shì)也將強(qiáng)化。
風(fēng)險(xiǎn)提示:AI產(chǎn)業(yè)發(fā)展不及預(yù)期;下游互聯(lián)網(wǎng)巨頭資本開支下滑;AI商業(yè)化產(chǎn)品發(fā)布不及預(yù)期;政策不確定性帶來的風(fēng)險(xiǎn);上游供應(yīng)不及預(yù)期。
快報(bào)