Seedance 2.0生成的AI視頻讓好萊塢著名編劇大喊:我們要完蛋了

因為功能著實強大,Seedance 2.0最近在全球互聯(lián)網(wǎng)掀起了一股AI創(chuàng)作的熱潮,短期內(nèi)大量電影級的AI視頻橫空出世。

作為觀看者,每個人都在感嘆AI技術(shù)的迭代速度實在驚人;而作為Seedance 2.0的使用者,他們是如何評價這款產(chǎn)品的,更值得我們關(guān)注。

如果說當初Sora的出現(xiàn),讓世界看到了AI“無中生有”的魔力,那么Seedance 2.0則將討論的焦點,從“能生成什么”拉回到了“如何精確地生成我想要的”。

Seedance 2.0通過一個強大的多維參考系統(tǒng),將模糊的創(chuàng)意轉(zhuǎn)化為AI可執(zhí)行的精確指令。而且在角色一致性、原生音畫同步、自動鏡頭切換等方面取得了驚人的進步。

 

當然,除了分析Seedance 2.0優(yōu)點、特點,使用者們也不可避免地談到了它的短板,而這些需要改進的“短板”可能就是未來AI視頻大模型的發(fā)展方向。

AI的進化之路還遠遠看不到終點,甚至有沒有終點都要打個問號。

而每次有Seedance 2.0這樣驚人的產(chǎn)品問世,我們的緊迫感恐怕都要增加好幾分。學(xué)習(xí),真的永無止境。

01 告別隨機生成,精準拿捏你的創(chuàng)作思路:Seedance 2.0的可控性優(yōu)勢明顯

Seedance 2.0的核心競爭力,并非單一技術(shù)的點狀突破,而是一套以“導(dǎo)演意圖”為中心、協(xié)同工作的架構(gòu)設(shè)計。創(chuàng)作者終于有機會從“祈禱AI能聽懂”的被動角色,轉(zhuǎn)變?yōu)槭治湛刂婆_的導(dǎo)演。

具體來說,Seedance 2.0的過人之處,首先體現(xiàn)在其統(tǒng)一的多模態(tài)音視頻聯(lián)合生成架構(gòu)。

與傳統(tǒng)模型單一的“文本到視頻”路徑不同,Seedance 2.0能同時理解并融合文字、圖片視頻、音頻四種模態(tài)的輸入。這意味著,你可以用文字描述故事,用圖片定義角色和風(fēng)格,用視頻指定運鏡,用音頻驅(qū)動節(jié)奏和口型。

Seedance 2.0能同時理解并融合文字、圖片、視頻、音頻四種模態(tài)的輸入

這個架構(gòu)的核心是“導(dǎo)演模式”,它通過一個強大的多維參考系統(tǒng),將模糊的創(chuàng)意轉(zhuǎn)化為AI可執(zhí)行的精確指令。

例如,Seedance 2.0允許用戶同時上傳多達9張圖片、3段視頻和3段音頻,構(gòu)建一個豐富的“素材庫”。

更妙的是,它引入了一種類似編程中“@”符號的引用系統(tǒng),通過在提示詞中使用@Image1、@Video1等標簽,創(chuàng)作者可以精確地將指令與特定素材綁定。

例如,“讓@Image1中的角色跳@Video1中的舞蹈”,這種結(jié)構(gòu)化的指令遠比冗長的自然語言描述更高效、更無歧義。

更進一步,創(chuàng)作者可以調(diào)整每個參考素材的“影響權(quán)重”。例如,你可以將角色圖片的權(quán)重調(diào)高以確保面部高度保真,同時將運動參考視頻的權(quán)重調(diào)低,允許AI在遵循大體動作的同時進行更平滑的創(chuàng)意發(fā)揮。

Seedance 2.0 在指令遵循、運動質(zhì)量、畫面美感、音頻表現(xiàn)等各個維度都處于行業(yè)領(lǐng)先地位

穩(wěn)定、同步智能——在Seedance 2.0強大的多模態(tài)音視頻聯(lián)合生成架構(gòu)之下,幾項關(guān)鍵技術(shù)也得以突破,共同解決了AI視頻創(chuàng)作中的核心痛點。

以往模型在鏡頭切換后,角色“換臉”或服裝細節(jié)改變的問題屢見不鮮。Seedance 2.0通過允許用戶上傳角色的多角度參考圖(如正面、側(cè)面、四分之三臉),在模型內(nèi)部構(gòu)建了一個更穩(wěn)定的3D幾何表征。 

這使得角色在進行轉(zhuǎn)身、光影變化等動態(tài)過程時,其核心面部特征和服飾細節(jié)得以保持高度一致,為生成多鏡頭序列提供了堅實的技術(shù)保障。

音畫不同步是AI視頻的另一大頑疾。Seedance 2.0利用其底層的Seed 2.0大模型,通過一種被稱為“雙分支擴散變換器”的架構(gòu),實現(xiàn)了原生視頻與音頻(包括對白、音效、環(huán)境聲)在同一生成過程中的精確同步。 

其最令人驚嘆的一點是,模型甚至可以僅憑一張靜態(tài)的面部照片,重建出高度模仿該人物音色和語氣的語音。雖然該功能因潛在倫理和法律風(fēng)險被緊急暫停,但它展示了模型在理解生物特征與聲音關(guān)聯(lián)方面的驚人深度。 

同時,音頻波形可以直接驅(qū)動角色面部動畫,實現(xiàn)高度逼真的口型匹配,讓數(shù)字角色的表演不再“貌合神離”。 

Seedance 2.0內(nèi)置了一個“敘事規(guī)劃器”,它能像導(dǎo)演一樣思考。當你給出一個故事梗概,它能自動將其分解為專業(yè)的鏡頭序列(如遠景-中景-特寫),并在切換過程中保持角色和風(fēng)格的統(tǒng)一。

即使是不懂分鏡的普通用戶,也能生成具有電影感的蒙太奇片段,極大地降低了視頻敘事的門檻。

02 光鮮之下的技術(shù)瓶頸Seedance 2.0仍有很大提升空間

盡管Seedance 2.0在可控性上邁出了一大步,但從技術(shù)層面審視,它距離完美的“世界模擬器”仍有顯著差距。與Sora 2和Google Veo 3.1等競品相比,Seedance 2.0也并非在所有方面都遙遙領(lǐng)先。

當前的AI視頻模型,其對物理世界的理解仍停留在“模式匹配”而非“第一性原理”的層面。這導(dǎo)致在處理復(fù)雜或不常見的物理交互時,模型會暴露出短板。 

例如,雖然Seedance 2.0生成的簡單的水花飛濺效果尚可,但對于更復(fù)雜的液體流動、布料在高速運動下的褶皺與拉伸、毛發(fā)的精細飄動等,它的模擬結(jié)果仍顯生硬,缺乏真實感。

在處理多個物體碰撞、堆疊或精細操作時,Seedance 2.0偶爾會出現(xiàn)穿模、懸浮或不自然的加速等“AI怪癖”,它對物體間的空間關(guān)系和力學(xué)傳遞的理解仍有很大提升空間。

雖然Seedance 2.0在單次生成的十幾秒內(nèi)保持了較好的連貫性,但將時間尺度拉長,問題便開始浮現(xiàn)。目前所有視頻模型都面臨著“記憶衰減”的挑戰(zhàn)。 

在一個長達數(shù)分鐘的敘事視頻中,如何確保角色行為的前后動機一致、場景中的物體狀態(tài)保持連續(xù),這對模型的長時程記憶能力提出了極高要求。目前,這類視頻仍需依賴人工剪輯和分段生成來保證效果。

另外,在一些用戶生成的視頻中可以觀察到,即使是Seedance 2.0,在視頻后半段也可能出現(xiàn)細微的“紋理漂移”或“閃爍”現(xiàn)象,尤其是在精細的圖案、文字或背景元素上。

上文提到的AI短片《Apex》中,車輛碰撞的角度和車窗碎裂的方式顯然對不上,車上的文字也疑似亂碼

對比Sora 2Veo 3.1兩大競品,Seedance 2.0在多個維度上展現(xiàn)出差異化優(yōu)勢,同時也暴露出一些劣勢。

Sora和Veo追求的是“模擬一個真實的世界”,而Seedance 2.0追求的是“構(gòu)建一個可控的片場”。對于需要快速產(chǎn)出、對真實感要求極高的短內(nèi)容,Veo 3.1的原生音畫同步可能是更優(yōu)選。但對于需要精細控制角色表演、鏡頭語言和藝術(shù)風(fēng)格的專業(yè)創(chuàng)作者,Seedance 2.0提供的“導(dǎo)演模式”無疑更具吸引力。

當脫離參考、僅憑文本生成純寫實內(nèi)容時,Seedance 2.0生成的人物真實感和光影細節(jié)的精細度有時會不及兩家競品。這可能源于雙方在模型架構(gòu)和訓(xùn)練數(shù)據(jù)側(cè)重上的不同設(shè)計哲學(xué)。

03 “世界模型”是終極進化方向?VR普及后,AI模型必將進軍3D場景

通過分析Seedance 2.0所展現(xiàn)出的優(yōu)勢與不足,我們已經(jīng)可以在一定程度上勾勒出AI視頻模型下一階段的演進藍圖。未來的競爭,或?qū)⒉辉賰H僅是生成更清晰、更逼真的畫面,而是構(gòu)建一個更懂物理、更懂敘事的“世界模型”。

在AI領(lǐng)域,“世界模型”是一個經(jīng)常被提及的概念。

簡單來說,世界模型 = 讓 AI 在腦子里“模擬整個世界”。它不是簡單的“看圖、生成視頻”,而是讓 AI 學(xué)會世界有什么物體、物體之間怎么互動、物理規(guī)則是什么、事情會怎么發(fā)展,然后在內(nèi)部構(gòu)建一個虛擬的、可推理的世界。

“世界模型”可能是AI視頻大模型的終極進化方向

下一代視頻模型的核心突破,將是其“世界模型”的深度和廣度。這要求模型具備更強的因果推理能力,實現(xiàn)基于統(tǒng)一物理邏輯的全局一致性。

例如,當提示詞描述“一陣風(fēng)吹過”,模型不僅應(yīng)生成樹葉搖擺的畫面,更應(yīng)能推理出這陣風(fēng)會如何影響遠處的旗幟、人物的頭發(fā)以及水面的波紋。這種基于統(tǒng)一物理邏輯的全局一致性,將是實現(xiàn)AI視頻真正沉浸感的關(guān)鍵。

就像游戲引擎一樣,先構(gòu)建一個虛擬世界,然后在這個世界中“運行”一個事件,并用虛擬攝像機“拍攝”下來。在這個范式下,所有的物理交互、光影變化、角色行為都將是自洽且符合邏輯的。

而且,隨著Apple Vision Pro等空間計算設(shè)備的普及,未來的AI視頻模型,其輸出或?qū)⒉辉倬窒抻谝粋€平面的“畫框”,而可能是一個完整的、可供用戶進入和探索的3D場景。

隨著空間計算設(shè)備的普及,未來的AI視頻模型很可能進行3D場景的探索

創(chuàng)作者或許可以直接在3D空間中布置虛擬攝像機,規(guī)劃其運動軌跡,而AI則負責(zé)實時渲染出該視角下的視頻流。Seedance 2.0的“導(dǎo)演模式”可以看作是這一方向的早期雛形。

總而言之,Seedance 2.0的出現(xiàn),是一個重要的行業(yè)風(fēng)向標——在AI視頻的下半場,單純的生成能力不再是唯一的王牌,“可控性”和“可預(yù)測性”將成為衡量一個模型是否具備工業(yè)化潛力的核心標準。

對于創(chuàng)作者而言,技術(shù)正從一個難以駕馭的“創(chuàng)意伙伴”,轉(zhuǎn)變?yōu)橐粋€真正得心應(yīng)手的“創(chuàng)作工具”,好的創(chuàng)意只會獲得更大的發(fā)揮空間。

本文系作者 極客電影Geekmovie 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

10:52

現(xiàn)貨黃金向上觸及4700美元

10:52

奢侈品股跌至2022年以來最低,受需求擔(dān)憂加劇影響

10:48

中央決定:姚來英任國家煙草專賣局黨組書記

10:47

美登月版圖巨變,NASA擬讓SpaceX替代波音核心職能

10:44

體育概念震蕩拉升,共創(chuàng)草坪漲停

10:43

小米汽車:新一代SU7“準現(xiàn)車”鎖單后預(yù)計1—5周即可交付

10:42

壓力大會加重皮炎,中國科學(xué)家首次發(fā)現(xiàn)科學(xué)證據(jù)

10:41

高盛擬4月啟動績效裁員,規(guī)模或為1%-3%

10:38

今日MMLC電池級碳酸鋰(早盤)價格較昨日上漲50元/噸

10:36

世貿(mào)組織:中東沖突或拖累全球貿(mào)易增長前景

10:35

消息稱英特爾本月底CPU漲價10%

10:34

籌資1000億美元,亞馬遜貝索斯擬設(shè)立基金收購制造企業(yè)并引入AI

10:29

工信部部長李樂成調(diào)研信息技術(shù)創(chuàng)新應(yīng)用和未來產(chǎn)業(yè)發(fā)展研究工作

10:28

滬深兩市成交額突破1萬億,較上一日此時放量超400億

10:27

美國批準部分俄羅斯原油的交付與銷售

10:24

預(yù)測市場Kalshi完成新一輪超10億美元融資,估值達220億美元

10:22

德國汽車半導(dǎo)體公司Elmos考慮出售,市值23億歐元

10:22

章源鎢業(yè)上調(diào)3月下半月長單采購報價

10:21

太空光伏概念震蕩走強,拉普拉斯?jié)q近10%

10:20

聯(lián)邦快遞第三財季業(yè)績和展望均超預(yù)期,盤后股價大漲逾9%

掃描下載App