通用視頻生成是一門好技術(shù),不是Sora的好生意

對話伊始,姚霆便開門見山地給出了自己的判斷。在他看來,Sora的“失敗”可以從三個維度來理解。

"第一,Sora想做的是非常通用的視頻生成,但這與垂直領(lǐng)域的應(yīng)用需求相對脫離。"姚霆分析道,"OpenAI天然沒有視頻相關(guān)的業(yè)務(wù),也沒有那樣的生態(tài)。"

第二,成本是不可忽視的現(xiàn)實(shí)問題。"今天跟互聯(lián)網(wǎng)時代不一樣,所有的服務(wù)上線背后都在跑GPU,成本還是很昂貴的。"姚霆坦言,智象每一次模型迭代,推理成本都是首要考量因素,做模型架構(gòu)本身就要考慮成本,否則后面就沒法做大量服務(wù)。

第三,Sora缺乏商業(yè)化的土壤。對比字節(jié)跳動的Seedance和快手的可靈,這兩家公司的視頻生成產(chǎn)品都能與主營業(yè)務(wù)形成協(xié)同,而OpenAI并沒有這樣的業(yè)務(wù)場景來承接技術(shù)能力。

Sora的退場,也折射出國內(nèi)外視頻生成路線的差異。

"國外更看重模型架構(gòu)的創(chuàng)新,國內(nèi)則傾向于做大而全的平臺鏈路。"姚霆觀察道。對于智象來說,這兩條路都不是唯一選擇。

"我們是從技術(shù)出身的,以前在微軟的時候,大家想做全世界最好的模型,對標(biāo)谷歌、Facebook、CMU、伯克利。"姚霆回憶,"做視頻理解的模型,這種基因天然就是希望模型上有架構(gòu)創(chuàng)新。"

智象也的確在踐行這一點(diǎn)。從2023年的Unet架構(gòu),到DiT,再到自回歸+DiT的融合,直到今天全新的全模態(tài)架構(gòu),智象每一次迭代都試圖在技術(shù)層面做更多的創(chuàng)新,而且每次還是精準(zhǔn)的踩住了整個技術(shù)迭代的突破口。

"但同時,在中國做這件事,肯定還是要以垂直領(lǐng)域的商業(yè)化作為導(dǎo)向。"姚霆強(qiáng)調(diào),"不是為了做模型炫技,而是要有商業(yè)化落地的指標(biāo)。"

世界模型的五個等級——從靜態(tài)復(fù)刻到"輪回"

世界模型的概念在過去一年里經(jīng)歷了劇烈的收斂過程,也是當(dāng)前多數(shù)大模型相關(guān)企業(yè)想要講述的故事。

"世界模型的定義一直很廣,早期可以分成三個類別。"姚霆解釋道,"第一類是以語言模型為主,屬于高層知識的提煉和壓縮;第二類是Yann LeCun做的JEPA,偏中層的表達(dá)學(xué)習(xí);第三類是底層的像素生成,也就是視頻生成。"

但如今,世界模型的定義正在收斂。姚霆認(rèn)為,今天的世界模型可以大致分為三類:在視頻生成模型中融入因果關(guān)系和物理規(guī)律;根據(jù)用戶指令實(shí)時生成場景(如Genie-3);以及跟具身智能強(qiáng)相關(guān)的World Action Model。

對于智象而言,姚霆更看重兩個維度的突破。

"第一個是模型側(cè),要用一個神經(jīng)網(wǎng)絡(luò)同時理解和生成文本、圖像、視頻、3D以及動作。"姚霆強(qiáng)調(diào),"它一定是端到端的全模態(tài)架構(gòu),各個模態(tài)之間不會單獨(dú)編碼,而是統(tǒng)一的tokenization。"

為什么要追求"全模態(tài)"而非"多模態(tài)"?姚霆的解釋很直接:"世界模型好歹要跟物理世界打通,如果不打通憑什么叫世界模型?從這個角度來說肯定要有具身的數(shù)據(jù),不然就是割裂的數(shù)字世界模型。"

在他看來,世界模型的底座是基于視頻訓(xùn)練出來的,還是基于VLA(視覺-語言-動作)訓(xùn)練出來的,其實(shí)并不重要,最終的形態(tài)一定是任意輸入,任意輸出,想怎么輸入,想它輸出什么它就可以輸出什么。

但這還不是終局。

"從宏觀角度,我對世界模型分了幾個等級。"姚霆說,"第一級是靜態(tài)復(fù)刻,就是一幅圖;第二級是視頻,有三維有時間域;第三級是交互;第四級加入物理規(guī)律和因果關(guān)系;第五級,終局是輪回。"

他進(jìn)一步解釋道,"輪回是什么?是完美的因果關(guān)系。比如蝴蝶效應(yīng),今天我在這兒扇了一下翅膀,明天那個地方就應(yīng)該出現(xiàn)海嘯。再往上一級,才是真正的世界模型,才是真正的推理。"

這個說法聽起來有些哲學(xué)意味,但姚霆很快將其拉回到產(chǎn)品層面。

"第二個維度是Agent。"他說,"所有的Agentic App等于一個平臺(可能是PC或手機(jī))乘以Harness(對底層skills的管理、適配和組合),再加上底層的skills(可能是OS或OpenAI)。"

姚霆舉例說明:用戶想做一個VLOG,只需要輸入"我想賺錢"這一句話,Agent就能自動搜索、調(diào)用、編排各種skills,完成從腳本撰寫到視頻制作的全流程。

"這需要全模態(tài)的支持。"姚霆強(qiáng)調(diào),"底層有文本、視頻、圖像、語音,全打通了,才能知道誰跟誰該怎么組合。"

大廠環(huán)伺,創(chuàng)業(yè)公司如何出牌?

快手可靈月收入突破兩千萬美元,即夢背靠字節(jié)過億的生態(tài)日活。在這樣的雙寡頭格局下,智象這樣的創(chuàng)業(yè)公司如何找到出路?

"大廠在資本、人才、算力上都有優(yōu)勢,包括入口。"姚霆坦率表示,但在某些條件下,它的束縛也會比較多,難免對主營業(yè)務(wù)有所妥協(xié)。相比之下,創(chuàng)業(yè)公司的團(tuán)隊(duì)架構(gòu)更加靈活。

"AI時代,機(jī)會是相對平等的。"姚霆說,"但作為初創(chuàng)公司,有幾點(diǎn)還是要做好。"

第一,認(rèn)知要新。

"首先要對整個趨勢有充分的預(yù)判,不能等大廠做到什么樣我們再復(fù)制,這樣基本就沒機(jī)會。"姚霆強(qiáng)調(diào),"還要有堅(jiān)持,要做正確但很難的事情。智象的產(chǎn)品經(jīng)理現(xiàn)在必須會用vibe-coding(AI輔助編程)。"

第二,速度要快。

"AI產(chǎn)品的穩(wěn)定版本,產(chǎn)品推上線,用戶用兩次能成功得到一次想要的結(jié)果,這就是穩(wěn)定版本。"姚霆說,"讓用戶使用、反饋、迭代,這樣才能形成壁壘。"

第三,架構(gòu)要靈活。

"產(chǎn)品和技術(shù)的邊界越來越模糊,因?yàn)楫a(chǎn)品也可以通過vibe-coding寫前端。"姚霆打了個比方,"有點(diǎn)像打牌,上手一副牌很難改變,但出牌方式可以調(diào)整,有些‘王炸’是要拆掉的。"

面對大廠競爭,智象的應(yīng)對策略已經(jīng)明確:2026年的核心戰(zhàn)略是搭建"1+1+3"的架構(gòu)體系。

"第一個'1'是全模態(tài)底座大模型,這是最重要的。"姚霆解釋道,"第二個'1'是HiHarness平臺,可以理解為中間的Harness層,負(fù)責(zé)打通各種skills。'3'是優(yōu)先級最高的三個Agent:專業(yè)創(chuàng)作者智能體、商業(yè)營銷內(nèi)容生成智能體、AI影視智能體。未來還會拓展出更多方向,比如具身智能、游戲引擎等。"

這個架構(gòu)的核心邏輯,是從"分而治之"轉(zhuǎn)向"并而治之"。

姚霆說,"以前不同創(chuàng)作用不同方式,可能是工具可能是內(nèi)容,今天會變成一個并而治之。底座是Agent,上面根據(jù)不同場景去實(shí)例化。"

他把這個邏輯比作搜索引擎:"當(dāng)年做搜索引擎,下面有眾多網(wǎng)頁,今天網(wǎng)頁變成skills,如何在海量里面尋找、定位、編排,這是核心問題。"

全模態(tài)底座的價(jià)值就在于此,如果全模態(tài)模型天然把這些模態(tài)之間打通,那么只要建一套索引就可以解決所有模態(tài)的事情,不管用戶輸入什么,想要得到什么,都可以給到用戶最終結(jié)果。(本文作者 | 張帥,編輯 | 楊林)

轉(zhuǎn)載請注明出處、作者和本文鏈接。
聲明:文章內(nèi)容僅供參考、交流、學(xué)習(xí)、不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報(bào)

更多

15:50

上港集團(tuán):3月預(yù)計(jì)完成集裝箱吞吐量469.2萬標(biāo)準(zhǔn)箱,同比增長8.8%

15:48

小米金融旗下上海融資租賃公司增資至8億,增幅約33%

15:46

網(wǎng)信辦征求意見:任何組織和個人提供、使用數(shù)字虛擬人服務(wù)應(yīng)當(dāng)尊重知識產(chǎn)權(quán)和商業(yè)道德,不得侵害他人依法享有的知識產(chǎn)權(quán)

15:41

京東與榮耀達(dá)成千億戰(zhàn)略合作,三年全渠道銷售目標(biāo)1000億元

15:39

事關(guān)數(shù)字虛擬人信息服務(wù),國家網(wǎng)信辦公開征求意見

15:38

國家網(wǎng)信辦征求意見:禁止誘導(dǎo)未成年人沉迷數(shù)字虛擬人服務(wù)

15:24

工信部批復(fù)設(shè)立深圳國家級互聯(lián)網(wǎng)骨干直聯(lián)點(diǎn)

15:18

2026太空算力產(chǎn)業(yè)大會發(fā)布十大重點(diǎn)攻關(guān)項(xiàng)目

15:17

國債期貨收盤多數(shù)上漲,30年期主力合約漲0.21%

15:16

商務(wù)部等9部門聯(lián)合印發(fā)《服務(wù)消費(fèi)提質(zhì)惠民行動2026年工作方案》

15:16

工信部電子信息司與中興通訊、小米集團(tuán)對接電子信息制造業(yè)“十五五”發(fā)展規(guī)劃

15:15

上期所同意中遠(yuǎn)海運(yùn)物流供應(yīng)鏈有限公司及下屬子公司開展集團(tuán)交割業(yè)務(wù)

15:14

上期所同意物產(chǎn)中大集團(tuán)股份有限公司及下屬公司開展集團(tuán)交割業(yè)務(wù)

15:14

大商所:設(shè)立線型低密度聚乙烯、聚丙烯、聚氯乙烯品種集團(tuán)交割庫

15:13

2026款小鵬 MONA M03正式發(fā)布,算力最高1500TOPS

15:08

雷軍名下有品信息科技公司減資至4000萬

15:06

國內(nèi)商品期貨收盤漲跌不一,燃料油漲超7%

15:06

A股收評:三大指數(shù)集體下跌,CPO概念、光通信走高

14:58

賽力斯成立創(chuàng)鑫投資公司,注冊資本5億

14:57

韓法稱將就霍爾木茲海峽航運(yùn)安全加強(qiáng)合作

掃描下載App