2026年3月底到4月初,AI視頻賽道在兩周內(nèi)連續(xù)發(fā)生了兩件標(biāo)志性事件。
第一件:曾經(jīng)被行業(yè)奉為“白月光”的 Sora,于3月24日被 OpenAI 宣布全面關(guān)停——獨(dú)立 App、API 接口及 ChatGPT 內(nèi)嵌視頻功能全部下線,OpenAI 徹底退出消費(fèi)級視頻生成市場。
第二件:不到兩周后的4月7日,一匹代號為“歡樂馬”(HappyHorse-1.0)的匿名模型,毫無征兆地空降全網(wǎng)最權(quán)威的 AI 視頻盲測榜單 Artificial Analysis,以壓倒性的分?jǐn)?shù)直接登頂。
一個是硅谷巨頭在日均1500萬美元的燒錢游戲中選擇認(rèn)輸,一個是來歷不明的技術(shù)黑馬踢穿了中國團(tuán)隊長期把持的盲測榜首。兩件事發(fā)生在同一時間窗口,看似無關(guān),實(shí)則指向同一個判斷:AI 視頻的競爭規(guī)則正在發(fā)生質(zhì)變——從“誰的模型更聰明”轉(zhuǎn)向“誰的算力更便宜、誰的合規(guī)墻更厚”。
![]()
![]()
判斷一匹黑馬的成色,先看裁判是誰。
Artificial Analysis Video Arena 不是廠商自嗨的公關(guān)榜,而是幾千名真實(shí)用戶在完全不知情的情況下,對生成的視頻盲測投出的 Elo 積分。
HappyHorse-1.0 的成績單是壓倒性的。
![]()
在“文本到視頻(不含音頻)”賽道,它拿下 1357 分(截至4月9日),甩開第二名 Seedance 2.0(1273 分)整整 84 分。這意味著在盲測中,用戶選擇它的概率顯著高于其他任何模型。被它踩在腳下的,不僅有字節(jié)跳動,還有 Kling 3.0、SkyReels V4 等一眾明星產(chǎn)品。
![]()
不過“偏科”也是事實(shí)。一旦納入音頻維度,它在“文本到視頻(含音頻)”賽道上以 1217 分僅以 3 分之差輸給了 Seedance 2.0(1220 分)。換句話說,HappyHorse-1.0 踢穿的是字節(jié)的純視覺技術(shù)口碑防線,但在音頻-視覺綜合體驗(yàn)上,Seedance 仍然守住了陣地。
這場屠榜的意義,更多在于打破了“國產(chǎn)視頻模型已經(jīng)固化”的市場預(yù)期——一個新的挑戰(zhàn)者可以憑 15B 參數(shù)的小模型,在純視覺維度上碾壓所有大廠。
它憑什么這么快?
在單張頂級 H100 顯卡上,它生成一段 1080p 高清視頻(含同步音頻)只需要 38.4 秒。速度的底氣來自底層 150 億參數(shù)(15B)的統(tǒng)一 Transformer 架構(gòu),結(jié)合 DMD-2 蒸餾技術(shù),將推理步數(shù)壓縮到僅 8 步。
通俗來說,傳統(tǒng)的視頻大模型像是一個“外包團(tuán)隊”——文本大模型先讀懂你的需求,再交接給擴(kuò)散模型去“畫圖”,中間溝通損耗極大。而 HappyHorse-1.0 采用的統(tǒng)一 Transformer 架構(gòu)是個“全能通才”,在同一個神經(jīng)網(wǎng)絡(luò)里同時處理文本和視覺像素,消除了跨模態(tài)的中間損耗。![]()
![]()
有意思的是,HappyHorse-1.0 在登榜初期(4月7-8日)曾被質(zhì)疑為“營銷期貨”——官網(wǎng)聲稱開源,但 GitHub 倉庫和模型下載鏈接一度全是 404 或“敬請期待”。但就在4月9日,多家媒體報道稱其已正式宣布開源,用戶可在官網(wǎng)通過文本生成和圖片生成兩種方式在線體驗(yàn)。從“薛定諤的開源”到真金白銀放出權(quán)重,只用了不到 48 小時。
![]()
業(yè)界目前有兩種最主流的猜測。
一是它出自阿里淘天集團(tuán)新成立的“未來生活實(shí)驗(yàn)室”,由原快手技術(shù)副總裁、可靈AI負(fù)責(zé)人張迪領(lǐng)銜。
二是它深度借鑒了國內(nèi)初創(chuàng)公司 Sand.ai 的 daVinci-MagiHuman 底層技術(shù)——知乎用戶 Vigo Zhao 將 HappyHorse-1.0 的公開基準(zhǔn)數(shù)據(jù)與已知模型逐條核對,發(fā)現(xiàn)兩者高度吻合,界面新聞也報道稱“技術(shù)圈認(rèn)可度最高的結(jié)論”是 HappyHorse 系 daVinci-MagiHuman 的優(yōu)化迭代版本。
上述猜測目前均未得到官方證實(shí)。不過,今早有獨(dú)家消息稱,HappyHorse-1.0確系阿里巴巴研發(fā),由前快手副總裁、可靈技術(shù)負(fù)責(zé)人張迪帶隊,他于2025年11月回歸阿里。此外,阿里云將很快將該模型上線百煉平臺,阿里巴巴近期的組織調(diào)整也與此有關(guān)。
截止發(fā)稿前,阿里官方尚未回應(yīng)。
問題來了:既然手握屠龍刀,大廠為什么不開發(fā)布會?為什么要匿名混跡在第三方盲測平臺?
雖然目前缺乏官方解釋,但從行業(yè)慣例和商業(yè)邏輯推測,背后至少有兩層計劃。
第一層,是免費(fèi)的“數(shù)據(jù)收割”。
當(dāng)前 AI 視頻最大的瓶頸是缺真實(shí)的人類偏好數(shù)據(jù)。匿名空降盲測平臺,等于讓全球網(wǎng)民免費(fèi)給它做 A/B 測試。不花一分錢,就能精準(zhǔn)錨定模型在真實(shí)世界里的缺陷。
第二層,是規(guī)避致命的“合規(guī)地雷”。
AI 視頻正處在版權(quán)訴訟的火山口。在大模型沒建好數(shù)字水印和肖像攔截機(jī)制前實(shí)名發(fā)布,極易招來好萊塢的天價索賠。匿名測試,既秀了肌肉,又做好了法律上的物理隔離。
不過,從另一面看,HappyHorse-1.0 的狂歡,映襯著 Sora 的落寞。同樣是做視頻,命運(yùn)為何兩極分化?細(xì)想來看,Sora 的退出,其實(shí)撕開了這個行業(yè)最血淋淋的傷疤:ROI(投資回報率)嚴(yán)重倒掛。
據(jù) SemiAnalysis 測算,Sora 的日均運(yùn)行成本高達(dá) 1500 萬美元,一年燒掉約 54 億美元。它的擴(kuò)散模型架構(gòu)每生成 1 秒視頻需要渲染約 30 張圖像,但生成結(jié)果中常見的物體變形、運(yùn)動不連貫等問題導(dǎo)致大量視頻只能廢棄,最終可用率據(jù)分析機(jī)構(gòu)推算僅有 5% 到 10%。
產(chǎn)出 1 條可用視頻,浪費(fèi)了十倍以上的算力。當(dāng)一個工具無法嵌入用戶的日常工作流,僅僅淪為“獵奇玩具”時,沒人愿意持續(xù)買單。據(jù) a16z 合伙人披露的數(shù)據(jù),Sora 的 1 天留存率僅 10%,7 天只有 2%,30 天只剩 1%,60 天接近 0%。
Sora 用 54 億美元年成本和斷崖式下跌的留存曲線,證明了純擴(kuò)散模型暴力堆算力的路線走不通。而 HappyHorse-1.0 給出了另一個答案——15B 參數(shù)、統(tǒng)一 Transformer 架構(gòu)、8 步推理、單卡 38.4 秒。兩者之間的差距,不是參數(shù)規(guī)模,而是架構(gòu)效率。擴(kuò)散模型是算力黑洞,統(tǒng)一 Transformer 是算力壓縮器。這場架構(gòu)之爭的勝負(fù),可能比任何單次屠榜都更有行業(yè)信號意義。
再看留在場上的中國 AI 巨頭,打的是另一場算力經(jīng)濟(jì)賬。
先看 API 調(diào)用成本:
字節(jié)跳動的 Seedance 2.0,其 1080p 純視頻生成的 API 定價是 46 元人民幣 / 100 萬 Tokens。根據(jù)實(shí)測,生成 15 秒視頻約消耗 30.888 萬 Tokens,換算下來,生成一秒鐘的商業(yè)級視頻,成本約 1 元人民幣(約合 0.14 美元)。
這就是商業(yè)現(xiàn)實(shí)。對于絕大多數(shù)企業(yè)來說,直接調(diào)用每秒約一毛多美金的閉源 API,遠(yuǎn)比花上百萬元買 H100 服務(wù)器去折騰所謂的“開源模型”香得多。
如果你覺得算力便宜就是唯一壁壘,那就太天真了。
想接入 Seedance 2.0 并使用真人參考圖生成視頻,企業(yè)需要簽訂千萬級的年度預(yù)付框架合同。同時,新簽框架還須繳納預(yù)付金的 50% 或 100 萬元(取高值)作為保證金,且一年后方可逐步釋放。
這道千萬級的門檻,本質(zhì)上是讓企業(yè)為主體責(zé)任買單的保證金——將生成深偽視頻(Deepfake)的法律風(fēng)險,通過商業(yè)合同轉(zhuǎn)移給有抗風(fēng)險能力的頭部 B 端企業(yè)。
今年2月中旬,一位愛爾蘭導(dǎo)演用 Seedance 2.0 生成的湯姆·克魯斯和布拉德·皮特在屋頂打架的逼真視頻火遍全網(wǎng)。2月13日,迪士尼律師 David Singer 起草的停侵權(quán)函送達(dá)字節(jié)跳動,美國電影協(xié)會(MPA)隨后也嚴(yán)厲指控 Seedance 2.0“大規(guī)模未經(jīng)授權(quán)使用受版權(quán)保護(hù)的內(nèi)容”,演員工會 SAG-AFTRA 也對未經(jīng)授權(quán)使用會員肖像發(fā)出了尖銳批評。
為了自保,巨頭設(shè)立了極高的資金門檻與企業(yè)資質(zhì)審查(KYC)。
他們根本不在乎 C 端普通用戶能做幾段搞笑視頻,他們要的是成為 B 端工業(yè)化內(nèi)容生產(chǎn)的“水電煤”。通過壟斷算力基建和建立嚴(yán)苛的授權(quán)體系,把中長尾競爭者徹底擋在門外。
后 Sora 時代的大洗牌,給行業(yè)留下了什么?
AI 視頻的底層基建游戲,已經(jīng)是重資本、重算力的巨頭專屬牌桌。但牌桌上博弈的是基礎(chǔ)設(shè)施,桌下的縫隙里反而長出了真金白銀的機(jī)會。
核心邏輯很簡單,算力成本正在以肉眼可見的速度下探——從 Sora 時代的每秒數(shù)美元,到今天 Seedance 2.0 的每秒約 1 元人民幣,再到 HappyHorse-1.0 開源后理論上可做到的本地零邊際成本。每一次成本下探一個數(shù)量級,就會催生一批新的商業(yè)場景。
綜合來看,AI視頻生成領(lǐng)域,當(dāng)前最值得關(guān)注的三個方向可能是:
電商帶貨視頻自動化。國內(nèi)短視頻平臺的商品推廣視頻目前仍以人工拍攝為主,單條成本 500-2000 元,制作周期 2-5 天。如果用 API 算力將這個成本壓縮到 10-50 元、制作周期縮短到分鐘級,整個投放邏輯會被重寫——測試素材量可以從每天 10 條暴增到 1000 條,A/B 測試的效率和精準(zhǔn)度將質(zhì)的提升。
短劇工業(yè)化生產(chǎn)。豎屏短劇正在全球市場爆發(fā),單集預(yù)算通常在 5-15 萬元,但拍攝周期和演員成本是剛性瓶頸。AI 視頻雖然還無法替代真人演技,但在場景空鏡、過場轉(zhuǎn)場、特效畫面等“非情緒化”鏡頭上已經(jīng)可以替代 30%-40% 的拍攝工作,直接壓縮制作總成本。
出海廣告本地化。同一個產(chǎn)品在東南亞、中東、拉美投放,需要不同語言、不同人種、不同文化符號的廣告素材。傳統(tǒng)方式需要多國團(tuán)隊分別拍攝,AI 視頻可以把這個過程壓縮到一個人一臺電腦一天之內(nèi)完成,且成本幾乎不隨市場數(shù)量線性增長。
這三個方向有一個共同特征:它們不要求模型跑分第一,不要求生成電影級畫質(zhì),但要求成本足夠低、速度足夠快、穩(wěn)定性足夠好——而這恰恰是 API 調(diào)用比本地部署更適合的場景。
HappyHorse-1.0 踢開了門。但門后面站著的是字節(jié)和快手們經(jīng)營了兩年的商業(yè)基礎(chǔ)設(shè)施——算力供應(yīng)鏈、合規(guī)審查體系、B 端客戶網(wǎng)絡(luò)。
技術(shù)黑馬可以贏得一個周末的掌聲,但贏得戰(zhàn)爭需要的是另一個維度的積累。從今天起,AI 視頻的競爭規(guī)則已經(jīng)從“誰的模型更強(qiáng)”轉(zhuǎn)向“誰的工作流更厚”。(本文首發(fā)鈦媒體App,作者| AGI-Signal,編輯|林深)
快報
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論