對話伊始,姚霆便開門見山地給出了自己的判斷。在他看來,Sora的“失敗”可以從三個維度來理解。
"第一,Sora想做的是非常通用的視頻生成,但這與垂直領(lǐng)域的應(yīng)用需求相對脫離。"姚霆分析道,"OpenAI天然沒有視頻相關(guān)的業(yè)務(wù),也沒有那樣的生態(tài)。"
第二,成本是不可忽視的現(xiàn)實(shí)問題。"今天跟互聯(lián)網(wǎng)時代不一樣,所有的服務(wù)上線背后都在跑GPU,成本還是很昂貴的。"姚霆坦言,智象每一次模型迭代,推理成本都是首要考量因素,做模型架構(gòu)本身就要考慮成本,否則后面就沒法做大量服務(wù)。
第三,Sora缺乏商業(yè)化的土壤。對比字節(jié)跳動的Seedance和快手的可靈,這兩家公司的視頻生成產(chǎn)品都能與主營業(yè)務(wù)形成協(xié)同,而OpenAI并沒有這樣的業(yè)務(wù)場景來承接技術(shù)能力。
Sora的退場,也折射出國內(nèi)外視頻生成路線的差異。
"國外更看重模型架構(gòu)的創(chuàng)新,國內(nèi)則傾向于做大而全的平臺鏈路。"姚霆觀察道。對于智象來說,這兩條路都不是唯一選擇。
"我們是從技術(shù)出身的,以前在微軟的時候,大家想做全世界最好的模型,對標(biāo)谷歌、Facebook、CMU、伯克利。"姚霆回憶,"做視頻理解的模型,這種基因天然就是希望模型上有架構(gòu)創(chuàng)新。"
智象也的確在踐行這一點(diǎn)。從2023年的Unet架構(gòu),到DiT,再到自回歸+DiT的融合,直到今天全新的全模態(tài)架構(gòu),智象每一次迭代都試圖在技術(shù)層面做更多的創(chuàng)新,而且每次還是精準(zhǔn)的踩住了整個技術(shù)迭代的突破口。
"但同時,在中國做這件事,肯定還是要以垂直領(lǐng)域的商業(yè)化作為導(dǎo)向。"姚霆強(qiáng)調(diào),"不是為了做模型炫技,而是要有商業(yè)化落地的指標(biāo)。"
世界模型的概念在過去一年里經(jīng)歷了劇烈的收斂過程,也是當(dāng)前多數(shù)大模型相關(guān)企業(yè)想要講述的故事。
"世界模型的定義一直很廣,早期可以分成三個類別。"姚霆解釋道,"第一類是以語言模型為主,屬于高層知識的提煉和壓縮;第二類是Yann LeCun做的JEPA,偏中層的表達(dá)學(xué)習(xí);第三類是底層的像素生成,也就是視頻生成。"
但如今,世界模型的定義正在收斂。姚霆認(rèn)為,今天的世界模型可以大致分為三類:在視頻生成模型中融入因果關(guān)系和物理規(guī)律;根據(jù)用戶指令實(shí)時生成場景(如Genie-3);以及跟具身智能強(qiáng)相關(guān)的World Action Model。
對于智象而言,姚霆更看重兩個維度的突破。
"第一個是模型側(cè),要用一個神經(jīng)網(wǎng)絡(luò)同時理解和生成文本、圖像、視頻、3D以及動作。"姚霆強(qiáng)調(diào),"它一定是端到端的全模態(tài)架構(gòu),各個模態(tài)之間不會單獨(dú)編碼,而是統(tǒng)一的tokenization。"
為什么要追求"全模態(tài)"而非"多模態(tài)"?姚霆的解釋很直接:"世界模型好歹要跟物理世界打通,如果不打通憑什么叫世界模型?從這個角度來說肯定要有具身的數(shù)據(jù),不然就是割裂的數(shù)字世界模型。"
在他看來,世界模型的底座是基于視頻訓(xùn)練出來的,還是基于VLA(視覺-語言-動作)訓(xùn)練出來的,其實(shí)并不重要,最終的形態(tài)一定是任意輸入,任意輸出,想怎么輸入,想它輸出什么它就可以輸出什么。
但這還不是終局。
![]()
"從宏觀角度,我對世界模型分了幾個等級。"姚霆說,"第一級是靜態(tài)復(fù)刻,就是一幅圖;第二級是視頻,有三維有時間域;第三級是交互;第四級加入物理規(guī)律和因果關(guān)系;第五級,終局是輪回。"
他進(jìn)一步解釋道,"輪回是什么?是完美的因果關(guān)系。比如蝴蝶效應(yīng),今天我在這兒扇了一下翅膀,明天那個地方就應(yīng)該出現(xiàn)海嘯。再往上一級,才是真正的世界模型,才是真正的推理。"
這個說法聽起來有些哲學(xué)意味,但姚霆很快將其拉回到產(chǎn)品層面。
"第二個維度是Agent。"他說,"所有的Agentic App等于一個平臺(可能是PC或手機(jī))乘以Harness(對底層skills的管理、適配和組合),再加上底層的skills(可能是OS或OpenAI)。"
姚霆舉例說明:用戶想做一個VLOG,只需要輸入"我想賺錢"這一句話,Agent就能自動搜索、調(diào)用、編排各種skills,完成從腳本撰寫到視頻制作的全流程。
"這需要全模態(tài)的支持。"姚霆強(qiáng)調(diào),"底層有文本、視頻、圖像、語音,全打通了,才能知道誰跟誰該怎么組合。"
快手可靈月收入突破兩千萬美元,即夢背靠字節(jié)過億的生態(tài)日活。在這樣的雙寡頭格局下,智象這樣的創(chuàng)業(yè)公司如何找到出路?
"大廠在資本、人才、算力上都有優(yōu)勢,包括入口。"姚霆坦率表示,但在某些條件下,它的束縛也會比較多,難免對主營業(yè)務(wù)有所妥協(xié)。相比之下,創(chuàng)業(yè)公司的團(tuán)隊(duì)架構(gòu)更加靈活。
"AI時代,機(jī)會是相對平等的。"姚霆說,"但作為初創(chuàng)公司,有幾點(diǎn)還是要做好。"
第一,認(rèn)知要新。
"首先要對整個趨勢有充分的預(yù)判,不能等大廠做到什么樣我們再復(fù)制,這樣基本就沒機(jī)會。"姚霆強(qiáng)調(diào),"還要有堅(jiān)持,要做正確但很難的事情。智象的產(chǎn)品經(jīng)理現(xiàn)在必須會用vibe-coding(AI輔助編程)。"
第二,速度要快。
"AI產(chǎn)品的穩(wěn)定版本,產(chǎn)品推上線,用戶用兩次能成功得到一次想要的結(jié)果,這就是穩(wěn)定版本。"姚霆說,"讓用戶使用、反饋、迭代,這樣才能形成壁壘。"
第三,架構(gòu)要靈活。
"產(chǎn)品和技術(shù)的邊界越來越模糊,因?yàn)楫a(chǎn)品也可以通過vibe-coding寫前端。"姚霆打了個比方,"有點(diǎn)像打牌,上手一副牌很難改變,但出牌方式可以調(diào)整,有些‘王炸’是要拆掉的。"
面對大廠競爭,智象的應(yīng)對策略已經(jīng)明確:2026年的核心戰(zhàn)略是搭建"1+1+3"的架構(gòu)體系。
"第一個'1'是全模態(tài)底座大模型,這是最重要的。"姚霆解釋道,"第二個'1'是HiHarness平臺,可以理解為中間的Harness層,負(fù)責(zé)打通各種skills。'3'是優(yōu)先級最高的三個Agent:專業(yè)創(chuàng)作者智能體、商業(yè)營銷內(nèi)容生成智能體、AI影視智能體。未來還會拓展出更多方向,比如具身智能、游戲引擎等。"
![]()
這個架構(gòu)的核心邏輯,是從"分而治之"轉(zhuǎn)向"并而治之"。
姚霆說,"以前不同創(chuàng)作用不同方式,可能是工具可能是內(nèi)容,今天會變成一個并而治之。底座是Agent,上面根據(jù)不同場景去實(shí)例化。"
他把這個邏輯比作搜索引擎:"當(dāng)年做搜索引擎,下面有眾多網(wǎng)頁,今天網(wǎng)頁變成skills,如何在海量里面尋找、定位、編排,這是核心問題。"
全模態(tài)底座的價(jià)值就在于此,如果全模態(tài)模型天然把這些模態(tài)之間打通,那么只要建一套索引就可以解決所有模態(tài)的事情,不管用戶輸入什么,想要得到什么,都可以給到用戶最終結(jié)果。(本文作者 | 張帥,編輯 | 楊林)
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論