97福利视频av资源站,日韩成人无码不卡!

對話伊始，姚霆便開門見山地給出了自己的判斷。在他看來，Sora的“失敗”可以從三個維度來理解。

"第一，Sora想做的是非常通用的視頻生成，但這與垂直領(lǐng)域的應(yīng)用需求相對脫離。"姚霆分析道，"OpenAI天然沒有視頻相關(guān)的業(yè)務(wù)，也沒有那樣的生態(tài)。"

第二，成本是不可忽視的現(xiàn)實(shí)問題。"今天跟互聯(lián)網(wǎng)時代不一樣，所有的服務(wù)上線背后都在跑GPU，成本還是很昂貴的。"姚霆坦言，智象每一次模型迭代，推理成本都是首要考量因素，做模型架構(gòu)本身就要考慮成本，否則后面就沒法做大量服務(wù)。

第三，Sora缺乏商業(yè)化的土壤。對比字節(jié)跳動的Seedance和快手的可靈，這兩家公司的視頻生成產(chǎn)品都能與主營業(yè)務(wù)形成協(xié)同，而OpenAI并沒有這樣的業(yè)務(wù)場景來承接技術(shù)能力。

"國外更看重模型架構(gòu)的創(chuàng)新，國內(nèi)則傾向于做大而全的平臺鏈路。"姚霆觀察道。對于智象來說，這兩條路都不是唯一選擇。

"我們是從技術(shù)出身的，以前在微軟的時候，大家想做全世界最好的模型，對標(biāo)谷歌、Facebook、CMU、伯克利。"姚霆回憶，"做視頻理解的模型，這種基因天然就是希望模型上有架構(gòu)創(chuàng)新。"

智象也的確在踐行這一點(diǎn)。從2023年的Unet架構(gòu)，到DiT，再到自回歸+DiT的融合，直到今天全新的全模態(tài)架構(gòu)，智象每一次迭代都試圖在技術(shù)層面做更多的創(chuàng)新，而且每次還是精準(zhǔn)的踩住了整個技術(shù)迭代的突破口。

"但同時，在中國做這件事，肯定還是要以垂直領(lǐng)域的商業(yè)化作為導(dǎo)向。"姚霆強(qiáng)調(diào)，"不是為了做模型炫技，而是要有商業(yè)化落地的指標(biāo)。"

世界模型的五個等級——從靜態(tài)復(fù)刻到"輪回"

世界模型的概念在過去一年里經(jīng)歷了劇烈的收斂過程，也是當(dāng)前多數(shù)大模型相關(guān)企業(yè)想要講述的故事。

"世界模型的定義一直很廣，早期可以分成三個類別。"姚霆解釋道，"第一類是以語言模型為主，屬于高層知識的提煉和壓縮；第二類是Yann LeCun做的JEPA，偏中層的表達(dá)學(xué)習(xí)；第三類是底層的像素生成，也就是視頻生成。"

但如今，世界模型的定義正在收斂。姚霆認(rèn)為，今天的世界模型可以大致分為三類：在視頻生成模型中融入因果關(guān)系和物理規(guī)律；根據(jù)用戶指令實(shí)時生成場景（如Genie-3）；以及跟具身智能強(qiáng)相關(guān)的World Action Model。

"第一個是模型側(cè)，要用一個神經(jīng)網(wǎng)絡(luò)同時理解和生成文本、圖像、視頻、3D以及動作。"姚霆強(qiáng)調(diào)，"它一定是端到端的全模態(tài)架構(gòu)，各個模態(tài)之間不會單獨(dú)編碼，而是統(tǒng)一的tokenization。"

為什么要追求"全模態(tài)"而非"多模態(tài)"？姚霆的解釋很直接："世界模型好歹要跟物理世界打通，如果不打通憑什么叫世界模型？從這個角度來說肯定要有具身的數(shù)據(jù)，不然就是割裂的數(shù)字世界模型。"

在他看來，世界模型的底座是基于視頻訓(xùn)練出來的，還是基于VLA（視覺-語言-動作）訓(xùn)練出來的，其實(shí)并不重要，最終的形態(tài)一定是任意輸入，任意輸出，想怎么輸入，想它輸出什么它就可以輸出什么。

"從宏觀角度，我對世界模型分了幾個等級。"姚霆說，"第一級是靜態(tài)復(fù)刻，就是一幅圖；第二級是視頻，有三維有時間域；第三級是交互；第四級加入物理規(guī)律和因果關(guān)系；第五級，終局是輪回。"

他進(jìn)一步解釋道，"輪回是什么？是完美的因果關(guān)系。比如蝴蝶效應(yīng)，今天我在這兒扇了一下翅膀，明天那個地方就應(yīng)該出現(xiàn)海嘯。再往上一級，才是真正的世界模型，才是真正的推理。"

這個說法聽起來有些哲學(xué)意味，但姚霆很快將其拉回到產(chǎn)品層面。

"第二個維度是Agent。"他說，"所有的Agentic App等于一個平臺（可能是PC或手機(jī)）乘以Harness（對底層skills的管理、適配和組合），再加上底層的skills（可能是OS或OpenAI）。"

姚霆舉例說明：用戶想做一個VLOG，只需要輸入"我想賺錢"這一句話，Agent就能自動搜索、調(diào)用、編排各種skills，完成從腳本撰寫到視頻制作的全流程。

"這需要全模態(tài)的支持。"姚霆強(qiáng)調(diào)，"底層有文本、視頻、圖像、語音，全打通了，才能知道誰跟誰該怎么組合。"

大廠環(huán)伺，創(chuàng)業(yè)公司如何出牌？

快手可靈月收入突破兩千萬美元，即夢背靠字節(jié)過億的生態(tài)日活。在這樣的雙寡頭格局下，智象這樣的創(chuàng)業(yè)公司如何找到出路？

"大廠在資本、人才、算力上都有優(yōu)勢，包括入口。"姚霆坦率表示，但在某些條件下，它的束縛也會比較多，難免對主營業(yè)務(wù)有所妥協(xié)。相比之下，創(chuàng)業(yè)公司的團(tuán)隊(duì)架構(gòu)更加靈活。

"AI時代，機(jī)會是相對平等的。"姚霆說，"但作為初創(chuàng)公司，有幾點(diǎn)還是要做好。"

"首先要對整個趨勢有充分的預(yù)判，不能等大廠做到什么樣我們再復(fù)制，這樣基本就沒機(jī)會。"姚霆強(qiáng)調(diào)，"還要有堅(jiān)持，要做正確但很難的事情。智象的產(chǎn)品經(jīng)理現(xiàn)在必須會用vibe-coding（AI輔助編程）。"

"AI產(chǎn)品的穩(wěn)定版本，產(chǎn)品推上線，用戶用兩次能成功得到一次想要的結(jié)果，這就是穩(wěn)定版本。"姚霆說，"讓用戶使用、反饋、迭代，這樣才能形成壁壘。"

"產(chǎn)品和技術(shù)的邊界越來越模糊，因?yàn)楫a(chǎn)品也可以通過vibe-coding寫前端。"姚霆打了個比方，"有點(diǎn)像打牌，上手一副牌很難改變，但出牌方式可以調(diào)整，有些‘王炸’是要拆掉的。"

面對大廠競爭，智象的應(yīng)對策略已經(jīng)明確：2026年的核心戰(zhàn)略是搭建"1+1+3"的架構(gòu)體系。

"第一個'1'是全模態(tài)底座大模型，這是最重要的。"姚霆解釋道，"第二個'1'是HiHarness平臺，可以理解為中間的Harness層，負(fù)責(zé)打通各種skills。'3'是優(yōu)先級最高的三個Agent：專業(yè)創(chuàng)作者智能體、商業(yè)營銷內(nèi)容生成智能體、AI影視智能體。未來還會拓展出更多方向，比如具身智能、游戲引擎等。"

這個架構(gòu)的核心邏輯，是從"分而治之"轉(zhuǎn)向"并而治之"。

姚霆說，"以前不同創(chuàng)作用不同方式，可能是工具可能是內(nèi)容，今天會變成一個并而治之。底座是Agent，上面根據(jù)不同場景去實(shí)例化。"

他把這個邏輯比作搜索引擎："當(dāng)年做搜索引擎，下面有眾多網(wǎng)頁，今天網(wǎng)頁變成skills，如何在海量里面尋找、定位、編排，這是核心問題。"

全模態(tài)底座的價(jià)值就在于此，如果全模態(tài)模型天然把這些模態(tài)之間打通，那么只要建一套索引就可以解決所有模態(tài)的事情，不管用戶輸入什么，想要得到什么，都可以給到用戶最終結(jié)果。（本文作者 | 張帥，編輯 | 楊林）

快報(bào)