水母在天空中飛翔(圖片來源:sora官網(wǎng))
“改變世界的產(chǎn)品”來了。
鈦媒體AGI獲悉,北京時間12月10日凌晨,美國OpenAI公司推出 AI 文生視頻模型Sora的新版本Sora Turbo,稱其比2月預(yù)覽的Sora模型更快,可生成最高1080p分辨率、最長20秒視頻,支持用戶輸入文字或上傳圖像,并上線全新UI界面,以便對生成視頻進(jìn)行修改、創(chuàng)建、擴(kuò)展、循環(huán)、混合,或用文本生成全新的內(nèi)容。
OpenAI稱,Sora Turbo將免費提供給ChatGPT Plus和Pro用戶,Plus用戶每月最多可以生成50個480p分辨率視頻,每月20美元(約合人民幣145元);Pro訂閱者則最多可生成500個視頻,并支持20秒時長、1080p分辨率,可下載無水印版視頻,對應(yīng)每月費用200美元(約合1450元)。

作為OpenAI的重要世界模擬器,你可以看到,上面這組Sora演示畫面能夠?qū)崿F(xiàn)一致性和動作連貫性,流暢度也比之前Sora預(yù)覽版高很多。
OpenAI CEO奧爾特曼(Sam Altman)表示,“視頻對 OpenAI 來說很重要,我想分享三點:首先,我們熱衷于為創(chuàng)作者打造工具。這種創(chuàng)造文化對我們至關(guān)重要,也是我們希望人類利用 AI 的方式之一。在早期測試者中,我們觀察到一種新型的協(xié)作創(chuàng)作動態(tài),這不僅有趣,而且顯示了 AI 創(chuàng)意工具的潛在使用模式;第二,我們不希望這個世界只是科技。如果 AI 系統(tǒng)主要通過文本來與人互動,我認(rèn)為我們錯過了一些重要的東西。我們希望我們的 AI 能理解并生成視頻,我認(rèn)為這將深刻改變我們使用計算機的方式;第三,這對我們的AGI路線圖至關(guān)重要。視頻將是一個重要的環(huán)境,我們或AI將在這里學(xué)習(xí)到很多關(guān)于如何實現(xiàn)我們在世界上所需的目標(biāo)。”
國內(nèi)對于此次Sora Turbo的發(fā)布看法不一。
多位 AI 行業(yè)人士向鈦媒體App表示,這是改變下一個 AI 視頻生成領(lǐng)域的新契機。也有 AI 視頻領(lǐng)域技術(shù)專家王海(匿名)對鈦媒體App坦言,“此前先機都已經(jīng)被OpenAI‘清零’,今天對于國產(chǎn)AI視頻生成行業(yè)來說可能是一場‘噩夢’。”
事實上,隨著Sora預(yù)覽版公布,過去300多天引爆了全球 AI 視頻創(chuàng)業(yè)熱潮,國外Runway、Pika、HeyGen都曾聲稱可以超越Sora,字節(jié)、快手、阿里、騰訊等互聯(lián)網(wǎng)科技巨頭也紛紛公布 AI 視頻產(chǎn)品,使用者超過百萬;智譜、生數(shù)、愛詩科技、智象未來等AI 視頻初創(chuàng)公司則已經(jīng)開始從產(chǎn)品轉(zhuǎn)向商業(yè)化。AI 短劇導(dǎo)演陳坤曾透露,AI使得的制作周期從通常的3-6個月縮短到了2個月,成本達(dá)到傳統(tǒng)制作流程的1/4以下。
生數(shù)科技聯(lián)合創(chuàng)始人、CEO唐家渝早前向鈦媒體App表示,“整體上來講,我們(中國)追趕Sora肯定比追趕GPT-4容易一些。今年一定能達(dá)到Sora目前版本的效果,很難說是三個月還是半年(笑),但這件事我們的信心還是非常足的。”
一場與Sora的中美 AI 視頻生成競爭已經(jīng)爆發(fā)。
“為什么AI視頻生成這種產(chǎn)品,優(yōu)愛騰(優(yōu)酷、愛奇藝、騰訊視頻)和B站不做,卻被快手可靈做了出來?”
早前一場私下討論中,有投資人對一位即將做 AI 視頻生成的創(chuàng)業(yè)者進(jìn)行上述質(zhì)詢。他認(rèn)為,這輪 AI 視頻生成的機會已經(jīng)與傳統(tǒng)互聯(lián)網(wǎng)視頻領(lǐng)域有很大不同,優(yōu)酷、愛奇藝、騰訊視頻都不再做 AI 視頻領(lǐng)域,但影視行業(yè)卻看到了發(fā)展需求。
2024年2月,OpenAI發(fā)布視頻生成模型Sora,首次由 AI 生成了長達(dá)1分鐘的多鏡頭長視頻,輸入寥寥數(shù)語便能生成效果炸裂視頻,鏡頭感堪比電影,震驚全球。
![]()
隨后,全球掀起了一場關(guān)于Sora的討論風(fēng)暴,猶如兩年前的ChatGPT爆火,大量 AI 公司以做“中國版Sora”為目標(biāo),眾多企業(yè)、教授、互聯(lián)網(wǎng)大廠都下場參與其中。
清華大學(xué)計算機科學(xué)與技術(shù)系博世AI教授、生數(shù)科技創(chuàng)始人兼首席科學(xué)家朱軍,曾任字節(jié)跳動AI Lab總監(jiān)、愛詩科技創(chuàng)始人王長虎,前京東集團(tuán)副總裁、加拿大工程院外籍院士、智象未來創(chuàng)始人梅濤,新加坡國立大學(xué)校長青年教授、潞晨科技創(chuàng)始人尤洋等人都已進(jìn)入 AI 視頻這一“紅海”賽道當(dāng)中創(chuàng)業(yè)。
事實上,紅杉資本2023年發(fā)布的一篇關(guān)于生成式 AI 發(fā)展進(jìn)程的預(yù)測報告中表明,在歷經(jīng)文生文、文生圖的升級迭代后,底層大模型技術(shù)迭代放緩,因此,視頻方向?qū)⑹?AI 領(lǐng)域需要重點關(guān)注的方向之一,因為視頻雜糅了文本、語音、圖像等多維度內(nèi)容,有更多的想象空間。
![]()
所謂生成式 AI 視頻生成,就是通過計算機視覺、機器學(xué)習(xí)、ViT架構(gòu)等多種AI技術(shù)手段,可實現(xiàn)視頻內(nèi)容生成過程的自動化。
無論是文生視頻,還是圖生視頻、視頻生視頻,AI 驅(qū)動的視頻生成工具的使用不斷增加,將有助于增強視頻制作工作流程,為影視、游戲、培訓(xùn)與教育、營銷與廣告、社交媒體等領(lǐng)域發(fā)展提供更多增長空間。
據(jù)Fortunebusinessinsights數(shù)據(jù),2024年,全球 AI 視頻生成市場規(guī)模預(yù)計達(dá)6.148億美元,預(yù)計到2032年,整個市場規(guī)模將超過180億元,增至25.629億美元(約合人民幣186.36億元),年復(fù)合增長率19.5%,市場前景廣闊。
早在Sora發(fā)布之前,2023年1月起,Runway、Genmo、英偉達(dá)、Pika等海外公司都迅速公布 AI 視頻生成和多模態(tài)技術(shù)產(chǎn)品。而隨著Sora爆火,AI+視頻技術(shù)和產(chǎn)品正在迅猛升級迭代,諸如電影、廣告、視頻剪輯、視頻流媒體平臺、UGC 創(chuàng)作平臺、短視頻綜合平臺等眾多行業(yè)有望受益。
![]()
截至目前,國內(nèi) AI 視頻生成參與方主要分為三類:
在這其中,智譜、生數(shù)、愛詩科技、智象未來這些初創(chuàng)公司都已經(jīng)從技術(shù)迭代轉(zhuǎn)向了商業(yè)化變現(xiàn),而快手、騰訊、阿里都已逐步為C端提供服務(wù),像騰訊已表達(dá)“不急于商業(yè)化”的態(tài)度。
商業(yè)化層面,AI視頻生成提供To C端、To B端服務(wù)兩種。如今,不少AI產(chǎn)品已經(jīng)開始進(jìn)軍海外,并且推出了較為完備的會員付費體系,快速進(jìn)行商業(yè)化變現(xiàn)。
C端層面,快手可靈、字節(jié)即夢、智譜清影、生數(shù)Vidu都提供每月的付費服務(wù),或者是有一定限額免費生成AI視頻;而B端層面,快手可靈、字節(jié)即夢(火山引擎)、生數(shù)Vidu、愛詩科技、智象未來等都提供API接口和相關(guān)解決方案服務(wù)。
以愛詩科技為例。
愛詩科技銷售負(fù)責(zé)人王平(化名)告訴鈦媒體App,其主要售賣長達(dá)5和8秒的PixVerse V3和V2.5版本,V2.5版本價格低至每次調(diào)用API價格為0.75元/張,一次可并發(fā)生成5張;V3版本提供2倍的價格,即每次調(diào)用API價格為1.5元/張,也是可并發(fā)生成5張。
同時,愛詩科技需要與企業(yè)簽訂電子版合作協(xié)議,預(yù)付費價格從幾萬到數(shù)十萬不等,最高可享受8折優(yōu)惠。
王平強調(diào),愛詩科技這種價格檔位是行業(yè)里面最低的,低于其他競爭對手(生數(shù)、可靈)的報價,但性能效果和其他同行差不多。
唐家渝透露,目前生數(shù)Vidu To B版本向每位客戶(API)的每月使用費可以從10萬到100萬元,大部分是預(yù)付費方式,客戶包括影視、互聯(lián)網(wǎng)、營銷廣告等領(lǐng)域;而To C端,Vidu提供免費版和3種收費機制,按月度訂閱,標(biāo)準(zhǔn)版、高級版、尊享版價格依次為19.99美元、59.99美元、199.99美元(約合人民幣145.22元、435.80元、1452.83元),按年訂閱價格95.99美元起,可去水印和商用,并且擁有更多新功能。
同樣是清華系的智譜AI,公布支持生成6秒時長的 AI 視頻生成產(chǎn)品“清影”,目前也已經(jīng)公開測試和開源,付費模式層面,如果加速時間,付費5元,解鎖一天(24小時)的高速通道權(quán)益;付費199元,解鎖一年的付費高速通道權(quán)益。
然而,由于技術(shù)尚未足夠成熟,目前市面上的文生視頻模型仍然存在一些缺陷。
例如,生成視頻在畫質(zhì)、細(xì)節(jié)、真實感等方面仍與真實視頻存在差距,且用戶對視頻生成過程的控制能力有限,只能通過修改文本提示來間接影響視頻生成效果,而文本與視頻的語義匹配度不足,也會導(dǎo)致生成效果不及用戶預(yù)期。
此外,國內(nèi) AI 視頻生成產(chǎn)業(yè)鏈依然不成熟,面臨算力稀缺、數(shù)據(jù)需要多輪訓(xùn)練等情況。而且,AI 視頻成本也很高,整個經(jīng)濟(jì)下行導(dǎo)致市場需求低于預(yù)期,很多企業(yè)已經(jīng)把商業(yè)化轉(zhuǎn)向了KA級大客戶和大項目,但這種大型項目回款較難,所以生數(shù)、智譜等 AI 企業(yè)都在其中尋找“商業(yè)化平衡”。
鈦媒體App則了解到,有一家國內(nèi) AI 視頻生成公司于去年成立,就已經(jīng)從企業(yè)客戶處獲得4000萬元的收入,今年預(yù)計該公司銷售收入將超過1億元,原因是他們盯上了一塊更大的蛋糕:AI 短劇市場。
短劇近年來太火,打開App Store應(yīng)用商店,榜首基本被短劇應(yīng)用霸占。用戶就愛這種幾分鐘的“快餐”,劇情快,看著過癮。市場規(guī)模方面,2023年,短劇就已經(jīng)到了373.9億元,比前年暴增267.65%,這一數(shù)字已經(jīng)頂?shù)蒙想娪捌狈康钠叱闪?,今年預(yù)計還要突破500億,直逼電影市場。
有行業(yè)人士私下向鈦媒體AGI解釋稱,越南等東南亞市場擁有大量短視頻和短劇市場需求,很多連續(xù)劇需要配音翻譯、非事實性視頻輸出,這些都已需要 AI 視頻技術(shù)的加持,目前AI短劇單一訂單價格基本在數(shù)億元規(guī)模。
多位 AI 領(lǐng)域行業(yè)人士表示,目前初創(chuàng)企業(yè)對于項目的商業(yè)“轉(zhuǎn)化率”要求越來越高,而且對于商業(yè)化訴求極為強烈,有一些 AI 視頻生成企業(yè)甚至進(jìn)入到上游算力賽道、下游影視公司賽道進(jìn)行議價,通過“打包”方式獲得更大的機會點。
“為什么美國的互聯(lián)網(wǎng)大廠,沒有每個人都做一個視頻生成模型,而中國的騰訊、字節(jié)卻在做?”最近,一位AI視頻行業(yè)人士向鈦媒體App吐槽稱,國內(nèi) AI 視頻生成領(lǐng)域也開始“卷”起來了,價格戰(zhàn)、輿論戰(zhàn)、銷售戰(zhàn)都在爆發(fā),但微軟、谷歌、Meta這些美國科技巨頭卻沒有任何視頻模型產(chǎn)品。
很顯然,從算力、算法和數(shù)據(jù)成本角度考量,中國 AI 視頻大模型公司正加速商業(yè)化,尋找到落地場景,已經(jīng)與美國 AI 領(lǐng)域出現(xiàn)不同的“打法”。
智譜AI CEO張鵬則認(rèn)為,AI生成視頻無法徹底替代影視行業(yè),真正進(jìn)入電影尚需時日。“AI行業(yè)對多模態(tài)模型的探索還處于初級階段。”
但 AI 視頻“替代”之路正無限接近成為現(xiàn)實。
12月4日晚,谷歌DeepMind團(tuán)隊發(fā)布大型基礎(chǔ)世界模型Genie 2,聲稱可以生成各種一致的世界,可玩時間長達(dá)一分鐘,無論是視頻生成效果,還是表現(xiàn)形式,都超出了普通AI視頻生成的水平。
事實上,相對于OpenAI、Luma AI這些視頻模型、多模態(tài)模型平臺,谷歌、Meta等巨頭都在瞄準(zhǔn)一個 AI 未來的賽道:世界模型,而非多模態(tài)技術(shù)。而谷歌在今年5月發(fā)布的AI視頻模型Veo如今已經(jīng)開始內(nèi)測。
此外,作為AI領(lǐng)域影響力最大的女性華人之一,斯坦福大學(xué)教授李飛飛于當(dāng)?shù)貢r間12月2日公布了其首個創(chuàng)業(yè)項目World Labs的成果——能用單張靜態(tài)圖片生成3D世界的AI產(chǎn)品。
在World Labs網(wǎng)站的演示里,由AI生成的場景均通過瀏覽器實時渲染而成,用戶可以使用箭頭鍵或鍵盤(WASD)鍵移動,然后單擊并拖動鼠標(biāo)實現(xiàn)交互,從而自由探索場景。World Labs的AI工具配備了可操控的滑塊來調(diào)節(jié)模擬景深(DoF)與模擬推拉變焦(dolly zoom),當(dāng)使用者將景深效果調(diào)至越強時,背景中的物體便會越發(fā)模糊,為整個視覺體驗增添了更多層次感與真實感。
![]()
如今,AI 視頻取代傳統(tǒng)影視制作的潮流已勢不可擋。今年6月,繼好萊塢編劇在大罷工中要求限制AI撰寫劇本之后,代表好萊塢演員權(quán)益的美國演員工會-美國電視和廣播藝人聯(lián)合會(SAG-AFTRA)表示,AI 在影視行業(yè)確有用武之地,但必須在演員同意并付費的前提下使用,譬如在計算機生成的動作、表情捕捉畫面上,“AI應(yīng)該是輔助、增強人類,而不是取代人類”。
因此,美國演員工會認(rèn)為,應(yīng)該在影視制作中約束 AI 的使用,以便保護(hù)好“人類員工”。就在今年12月,好萊塢級AI視頻《Dream Machine》預(yù)告片公布,引發(fā)關(guān)注。
回到國內(nèi),今年2月3日,騰訊混元大模型宣布上線文生視頻(text-to-video)能力,基于130億參數(shù),成為國內(nèi)規(guī)模最大AI視頻模型,并聲稱模型效果擊敗Runway Gen-3、Luma 1.6等;同日,中國電信公布文生視頻產(chǎn)品。
如今,隨著 Sora Turbo的發(fā)展,AI 視頻生成這一新興市場競爭將更為激烈。
留給“中國版Sora”們趕超的時間真的不多了。
(本文首發(fā)于鈦媒體App,作者|林志佳,編輯|胡潤峰)
![]()
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論