三级片一级片之色,久久丁香亭亭五月激情,澳门成人电影三级黄色网

今年2月16日，美國OpenAI公司發(fā)布視頻生成模型Sora，首次由 AI 生成了長達1分鐘的多鏡頭長視頻，輸入寥寥數(shù)語便能生成效果炸裂視頻，鏡頭感堪比電影，震驚全球。

隨后，全球掀起了一場關于Sora的討論風暴，猶如一年前的ChatGPT爆火，有大量 AI 公司以做“中國版 Sora”為目標。

4月27日舉行的2024中關村論壇“未來人工智能先鋒論壇”上，清華大學與生數(shù)科技聯(lián)合推出中國首個長時長、高一致性、高動態(tài)性視頻大模型Vidu，被稱為“國內首個Sora級視頻模型”，也是中國首個純自研視頻大模型。

Vidu利用Diffusion與Transformer融合架構U-ViT，支持生成長度16秒、分辨率1080P的視頻，不僅能夠模擬物理世界，還具備多鏡頭生成、時空一致性高等特點。清華大學教授、生數(shù)科技首席科學家朱軍表示，Vidu之所以能夠達到這樣的效果，是因為其技術路線正好與Sora高度一致。

更早之前的2024商湯技術交流日上，商湯科技也公布三段完全由大模型生成的視頻，并強調文生視頻平臺對于人物、動作和場景的可控性。這意味著，商湯科技在文生視頻平臺方面取得了重要技術突破。

如今，在美國OpenAI快速發(fā)展的技術環(huán)境下，中國正加緊學習并不斷創(chuàng)新，以實現(xiàn)Sora級視頻模型的技術突破，從而更早推動AGI技術的到來。

而就在4月10日，鈦媒體AGI 舉辦了第一期閉門沙龍活動。通過線上會議方式，我們邀請了兩位重磅嘉賓——生數(shù)科技產(chǎn)品負責人張旭東、商湯研究院研發(fā)總監(jiān)盧樂煒，共同探討AI視頻生成模型背后的技術細節(jié)以及行業(yè)未來趨勢。

張旭東表示，Sora比Pika、Runway更近一步，推動 AI 視頻模型落地。同時，OpenAI不僅是視頻模型，未來Sora可能還需要和GPT做一些融合。

“我對Sora的看法是，擴散模型（diffusion model）本質是做一個概率分布，隨著模型規(guī)模越來越大，概率分布越逼近于真實，生成效果也就變得更加逼真。”張旭東表示，OpenAI確實走在一個宏大目標的道路上。

盧樂煒則坦言，Sora使得Scaling law（尺度定律）起到很大的作用，這能夠推動整個產(chǎn)業(yè)往多模態(tài)大模型、文生視頻模型方向發(fā)展，促進產(chǎn)業(yè)或將實現(xiàn)AGI。

展望未來，盧樂煒強調，現(xiàn)階段離AGI還比較遠，但隨著模型容量增大，更好地吸收各個不同領域的數(shù)據(jù)，也許會有機會成為底層通用 AI 基礎模型；同時，每個大的行業(yè)確實也有它產(chǎn)品邏輯和背景，因此市場依然需要大行業(yè)的定制模型，整個需求是長期存在的；另外，未來供電和能源問題獲將成為國內發(fā)展大模型的另一重要力量。

以下是由鈦媒體AGI 整理的本次沙龍部分對話內容：

盧樂煒：從學術的角度來說，Sora利用了一個比較powerful的視頻encoder去做一個時空的patchify的一個抽取。Sora有一個更強的時空建模，在整個stage中把實際收益大大往前挪。此外還有在另一塊很大的收益上，Scaling law（尺度定律）確實起到很大的作用。如果國內的研究團隊有這種充分的資源和基礎設施去支持，肯定也可能更早去實現(xiàn)這個效果。當然OpenAI不愁資金，更方便把我們這個愿景給實現(xiàn)了。

張旭東：我對Sora的看法是這樣的，擴散模型（diffusion model）本質是做一個概率分布，隨著模型規(guī)模越來越大，概率分布越逼近于真實，生成效果也就變得更加逼真。

比如在圖像生成任務中，在一開始模型規(guī)模還沒有很大的時候，會容易出現(xiàn)人臉人手的崩壞、肢體位置不協(xié)調等問題。但隨著模型變得越來越大，圖像的語義理解、美觀性、可控性方面的水平就能得到提升。視頻任務的Sora 本質也是這個原因，基于diffusion transformer融合架構，不斷提升模型容量，生成效果就可以得到優(yōu)化。

OpenAI不僅是在視頻，在其他領域還有一些沒披露的遠大目標。那種目標是我們一聽就覺得是非常難實現(xiàn)的?？赡墁F(xiàn)在我們看到的是Sora，但再過一年又會是另外的東西，OpenAI 確實走在一個宏大目標的道路上。

張旭東：我認為Sora還不能稱之為一個特別完善的多模態(tài)。

真正的多模態(tài)應該是什么樣的，同樣以圖文場景舉例，很多真實需求其實是“圖文-圖文”的交互，比如跟設計師溝通設計需求，就是一個典型的“圖文-圖文”的交互，指著一張圖說要怎么怎么改，這里局部做些編輯，或者改下風格，輸入既有圖片，又有文字指令，設計反饋回來也是圖和文，都是圖文交錯的形式。

那讓AI來做的話，理想狀態(tài)是，輸入圖片加一些限制的指令條件，模型在理解的基礎上直接生成出來。但現(xiàn)實卻是做編輯是一套算法，做風格生成又是另外一套算法，比如使用GPT-4 Turbo。有點像是“一個聾子搭著一個啞巴”，兩個人一起協(xié)同去干活。本質上這個模型還不能真正的理解多模態(tài)的輸入，然后再轉化成一個多模態(tài)的輸出。

視頻任務是一樣的，甚至會更復雜一點。但我認為Sora比Pika、Runway更近一步，Runway、Pika只是單純的跨模態(tài)，Sora 在架構上做了更多的設計，用transformer替代了U-Net，將 Transformer 和擴散模型進行了融合。我認為Sora的架構是有潛力去支撐起圖文視頻或者更多模態(tài)的輸出。但就Sora 的形態(tài)來說，離多模態(tài)還是有挺大距離的，我覺得到目前為止還沒有一個真正意義上的多模態(tài)模型出現(xiàn)。

張旭東：Sora還是一個比較單獨的架構，目前這個架構還是有很多任務是實現(xiàn)不了的，只能去做視覺內容相關的一些東西，還是在有限的任務內，可能未來Sora還需要和GPT做一些融合才行。

盧樂煒：我覺得Sora在那個moment推出可能也是一種偶然。像GPT-4已經(jīng)發(fā)布那么久了，然后再看手里的東西，Sora正好是一個蠻不錯的有爆點的東西，所以OpenAI先推出來。他們自己也聲稱這也不算是產(chǎn)品發(fā)布，只是一個技術Preview。

再聊回剛剛說的多模態(tài)大模型，這本身不是一個新詞，這個詞到現(xiàn)在概念都換過好幾次內容。你說Sora是多模態(tài)大模型也ok。那一般來說多模態(tài)大模型更多的像是GPT-4v，偏向于圖文理解，但多模態(tài)最終的核心就是做多模態(tài)互信息的理解，無論是基于圖文對、視頻文本對、基于理解這個路線做互信息，還是說基于視頻流，它可能是弱文本重視頻的客戶信息，無論是基于對什么是一個更高效的方式，這兩個事情是殊途同歸的。它本身不是互斥而是一體的。

我判斷多模態(tài)大模型、文生視頻模型本身就是一體的，而且我覺得Gemini 大概率也是走這個路線?，F(xiàn)在它的銜接可能是偏文本，那后面可能是特征維度的銜接。因為本質多模態(tài)大模型現(xiàn)在encoder輸入，然后再引入一個多模態(tài)核心Core?，F(xiàn)在Core都升級到圖文交錯了，它已經(jīng)是視頻、音頻、圖文包括各種模態(tài)的交錯，形成那個很強的Core，因為怎么高效地形成互信息的Core才是最重要的，那可能在接它的下游，所謂decoder，之后核心要做的就是核心互信息的Core特征。但是它是不是真的能學得到這個互信息，它可能有，但是不一定有那么強，所以最終有可能是encoder輸入，然后各種模態(tài)也能decoder輸出，任何一個路徑它都能走。

盧樂煒：我覺得首先追求Transformer Attention的線性化在沒有現(xiàn)在AGI大模型的年代就有了，線性Attention復雜度的這個追求某種程度上還是在Transformer的基礎上修改的。比如Yi Tay，他在Google期間做了一個很實際的工作就是線性化Transformer。那這算不算非Transformer架構？如果算那非Transformer架構以前就多的去了，因為這里核心的關注點其實就是他Attention隨著Context變長的計算復雜度增長，那現(xiàn)在當然有像Mamba很火，包括把RNN 的經(jīng)驗帶回來的像RWKV，這些我們內部實際的推導過根本的一些公式表達，其實它是能一個統(tǒng)一的表達去表示的，所以我們也在內部研發(fā)具有創(chuàng)新性的機制。

還有一個最大的痛點就是，如果我們未來面向多模態(tài)，毫無疑問是要面臨視頻的處理。這一點其實Gemini 1.5 Pro已經(jīng)展示出來了，你的上下文支持需求會變得極端的長。假如你把所有的幀抽幀處理，那兩個小時的電影，甚至多部電影十個小時的視頻內容給到模型，那上下文需要多長，目前100萬tokens的上下文夠嗎？200萬夠嗎？目前百萬級上下文通過工程來做能支持得很好，但萬一接下來的話多模態(tài)需要的上下文長度就是1000萬1億甚至更大了？那不可能再繼續(xù)依賴工程優(yōu)化來覆蓋產(chǎn)生的這么大的cost，所以注意力機制線性化也成為現(xiàn)在大家很迫切需要的必然，也所謂的現(xiàn)在大家說不能用Transformer架構，其實我個人是不大喜歡強調說這就是非Transformer架構，因為它本身就是對他做注意力機制做改造。

過去曾經(jīng)很多同僚對他魔改過100遍了，當然現(xiàn)在的改進會更徹底一些比如RNN能不能拿回來，包括加Batch支持的各方面的改進，包括RWKV第五版，第六版往這個方向思路改進，當然現(xiàn)在還有一個大模型研發(fā)上路徑依賴的問題，如何利用這些新型結構真正的訓練出一個典型體量的大小大模型，確實需要很多的資源去驗證和調優(yōu)。

張旭東：從長期來看，架構肯定還是有許多需要去改進的點。但從比較近期或者做產(chǎn)業(yè)這個角度上來講，我自己感覺這塊工作很像實驗科學。你加一些什么東西，它得到什么樣的結果，設計什么樣的訓練策略，它能有什么結果。每次需要做很多實驗，才能得出一些有效結論。

所以不管是從經(jīng)驗還是熟悉程度出發(fā)，團隊其實很難去貿然地嘗試一個全新的架構，我覺得產(chǎn)業(yè)內還是會投入更多精力在主流架構上面去做工作。

張旭東：我自己感覺變化還是非常大的。最早我也做過一些像廣告投放的工作，它用簡單的邏輯回歸模型達到的效果也不錯，包括在金融領域也有很多應用。但它本身模型架構特別簡單，你很難給它喂上比較多的數(shù)據(jù)。

而OpenAI想做所謂的AGI，讓其擁有類似人類的智慧，那怎么實現(xiàn)？他們當時提出，知識來源于數(shù)據(jù)的壓縮。也就意味著，如果能夠把全世界的知識壓縮到一起，那就能夠擁有足夠多的智慧，然后就能把AGI做出來。從這個思路出發(fā)，首先就要求這個模型的架構要能夠去吃足夠多的數(shù)據(jù)，在大規(guī)模的數(shù)據(jù)上要能夠訓練得起來，Transformer 架構就非常適合。

當然過程中他們也嘗試過像LSTM 架構，但訓練效果不太理想。后來Transformer 出來了，他們很快切換到Transformer 上面去。從OpenAI發(fā)布的一系列技術論文來看，很早之前他們就通過GPT2驗證了Scaling law，只是當時大家都沒有意識到這個的重要性。直到GPT3參數(shù)量提升到1750億，Scaling law的作用更明顯的體現(xiàn)出來，這時候Scaling law的價值才真正的大范圍的被認識到，所以我覺得核心還是需要一個架構去壓縮更多的數(shù)據(jù)，然后剩下的比如做很多的卡的并行，做大規(guī)模的訓練，其實都是為了Scaling law服務的。

盧樂煒：因為Scaling law是在當時GPT-3.5的推出，在大家口中變得特別火熱，但我個人想說，其實Scaling law從來不是一個新的東西。深度學習發(fā)展的本質其實就是Scaling law起作用。甚至20年前到現(xiàn)在，Scaling law一直都在起作用，使得后面有深度學習的發(fā)展，包括現(xiàn)在AGI的發(fā)展，因為現(xiàn)在確實我們有了更好更多的計算資源了。過去最知名的神經(jīng)網(wǎng)絡突破就是Lecun年輕的時候用一個CPU對吧，386去訓練一個CNN出來，也是首次Mnist 上取得突破性的成績。那為何不是基于決策樹或者貝葉斯的各種東西。其實在以前包括周老師也做過堆?；臉渚W(wǎng)絡模型，也都嘗試過深度學習化的改造，那為啥不行？就是Scaling law的本質是如何能更快的吃數(shù)據(jù)，見過更多的數(shù)據(jù)，更快的訓練，計算Gradient去快速下降，確實基于神經(jīng)元是最最精簡的形式，特別能迅速優(yōu)化訓練迭代，所以我們的框架設計其實都在不斷的做減法。

為什么我們之前還會討論大模型設計究竟應該是encoder加decoder還是decode only還是prefix那時候提出了一大堆方法，那為啥最終是decode only，因為這么做結合Scaling law確實太高效了。無論從數(shù)據(jù)的準備還是整個架構的高效訓練，都非常好，能很高效地見更多的數(shù)據(jù)。包括最早的GPT，它基于的結構，為何會選一個相對更胖，層數(shù)更少的結構？Scaling law確實就是OpenAI篤定的信仰。

我們回顧過去，統(tǒng)計學習就是希望統(tǒng)計更多的數(shù)據(jù)，得出更客觀的規(guī)律或在高維的數(shù)據(jù)里面找到一個更精準的決策邊界。甚至我見過全世界所有數(shù)據(jù)，判別出一個特別準的邊界，那可能就是一個完美的模型，有個任何一個地方都不會有偏的一個邊界。

另外OpenAI決定做視頻肯定不是因為要做Sora才開始搞這些東西，他這么強大的工程團隊是一個非常強的支撐。其實我們還有一個觀察就是，關于很多新的、隨著這波浪潮起來的很多老師的初創(chuàng)公司，他們以前是做搜索起家的，也很快把這個語言大模型研發(fā)出來，并且整體的質量也是很不錯。側面驗證了前期數(shù)據(jù)工程的積累，因為過去做搜索很明顯也是跟數(shù)據(jù)打交道，然后做ranking各種東西，包括filter，對各種管線的需求都特別豐富。那OpenAI為啥在一個moment爆發(fā)，我個人覺得和微軟有關。

微軟的必應團隊，cosmos那些集群建設特別完善，你想要什么數(shù)據(jù)，他很快就能用幾十萬計的計算節(jié)點、CPU節(jié)點立刻發(fā)力，想要的各種filter 的條件都寫出來，數(shù)據(jù)支撐還是很強大的。

很多科研的資深老師也很了解，在高校包括李飛飛最近也經(jīng)常呼吁要建一個國家級的超算集群給到高校去用，因為計算資源就是一道門檻，是起到很大的幫助作用的。

盧樂煒：我是做視覺起家，大概2019年加入商湯，當時在做的一個事情就是視覺的大模型，我們一直到現(xiàn)在也在做，我們近期發(fā)布的InternVL也是現(xiàn)在業(yè)內性能最強的視覺基座大模型。關于純語言模型，大家路線就比較清晰明確，那到多模態(tài)時代就需要在之前視覺等各個模態(tài)方面經(jīng)驗都有很好的積累，可能才能發(fā)揮這樣的一個威力。

我們大概在2023年初開始做切入多模態(tài)大模型，到那年年中就有一個比較強版本，也給到我們很多B端客戶做了產(chǎn)品支撐。我們一些很知名的客戶給了反饋，就包括最近發(fā)布了車的客戶，在他的評測里面展現(xiàn)了非常不錯的性能。我們做的就是一個通用大模型，它能賦能各種比如像小愛同學這類智能助理。

可能我們沒有太多宣傳，其實我們有一些也是比較引用量比較高的一些文章。在文生視頻領域我們也是有一個比較強的學術積累，甚至在更早時間點已經(jīng)開始堆一個比較強的規(guī)模。但沒有投入特別多的力量去做宣傳。

在文生視頻領域我們也有一個比較強的學術積累，甚至在更早時間點已經(jīng)開始堆一個比較強的規(guī)模。

張旭東：生數(shù)團隊主要提供圖像生成、3D模型生成、視頻生成能力，主要面向創(chuàng)意內容生產(chǎn)場景。比如在設計領域，幫助創(chuàng)作者在初期生成大量的草圖、概念圖，更好的理解創(chuàng)作需求并尋找創(chuàng)作靈感，同時提高創(chuàng)作效率。包括游戲領域涉及大量的3D素材，傳統(tǒng)流程需要手動建模，時間成本投入巨大，通過我們的圖生3D的能力，自動生成游戲道具、玩家形象等各類3D模型，提升游戲開發(fā)效率。

但目前影響實際使用的關鍵還在于模型能力。如果模型能力沒有那么強，很多需求其實解決不了，這種時候，要么是在限定條件下，讓模型去完成一部分任務，或者是后期加入人工來完成，在過程中不斷去優(yōu)化。好的是，大家都很關注，都會想著怎么先把大模型用起來，不會被時代拋下去，這種意識能很好的推動技術向前一步。

盧樂煒：在很多大家意想不到的領域，像鋼鐵行業(yè)、煤礦行業(yè)，包括一些龍頭企業(yè)，我們都在推動多模態(tài)落地的。他們有很多過去傳統(tǒng)的需要一些更精細定義，比如最簡單的生產(chǎn)安全，那你只能定義清楚各種模型去做，并且總是發(fā)現(xiàn)有遺漏的，畢竟之前依賴于人去提前去想。

我們人為何要繼續(xù)學習，就是我們人真的要想明白，學習其實不是我們的強項，人可能總是有遺漏的，所以我們需要設計一套更文明的方法，讓它自己去自主學習，這就是一個很好的場景和契機。包括像電力系統(tǒng)做巡檢，很多電網(wǎng)系統(tǒng)就在深山里頭，不可能派專家過去，危險性很高，那可能需要無人機巡檢，那我們?yōu)殡娋W(wǎng)企業(yè)定制的大模型就能完成檢修和電網(wǎng)調度的任務，能發(fā)揮很大的作用

張旭東：端側的場景是很必需的。比如在手機相冊里輸入文字搜圖，或者快速摳圖等等，都是非常實用的場景。目前我們也跟一些手機廠商有相關合作，主要聚焦在人像場景。PC端也是一樣的，之前我們通過快捷鍵來一步步操作電腦，未來通過文字指令就能直接實現(xiàn)。我們現(xiàn)在與 AMD中國達成戰(zhàn)略合作，探索多模態(tài)大模型應用在端側的創(chuàng)新場景。

我個人感覺目前這個階段還是很難去把一個特別大的模型通用的東西搬到手機上，做的特別好，因為時間很短，大家去年才開始做大模型。但這個行業(yè)熱度很高，業(yè)內都希望盡快去落地。所以，可行的還是先以一些小的點或者場景切入，先把體驗優(yōu)化好。

現(xiàn)在大家對數(shù)據(jù)的理解更深了，可以挑更好的數(shù)據(jù)。有些時候單純的數(shù)據(jù)量多不一定是個好事，優(yōu)質數(shù)據(jù)更重要，再加上芯片也會迭代，我認為（AI PC）再過兩年就會讓大家覺得非常有用了。

盧樂煒：AI Phone是一個大的趨勢，因為過去千億、萬億參數(shù)模型，可預見的未來還是會跟隨GPT持續(xù)擴大。但是今年，從國內來說，無論是學術上還是產(chǎn)業(yè)上一個大趨勢，端側模型能夠基于Scaling Law（尺度定律）能力做出小模型，整個技術性能也比過去強很多。

當然，你指望一個2B模型現(xiàn)階段能有多強 API 能力，也不現(xiàn)實，或者這種可能性需要我們不斷探索，包括數(shù)據(jù)工程、算法積累等再做端側小模型。因此，端側模型確實能力比過去要大的多，在很小的模型參數(shù)重做出10倍大模型的同等體驗，整個還是蠻有意思的。

回到 AI Phone上來說，終端廠商對于大模型回歸“普羅大眾”有很好的愿景，尤其通過 AI 技術把手機附加值增加更多。比如，小愛一天能幾千萬次調用，而千億模型成本很貴，我們要精打細算，因此通過AI Phone，讓更多人體會到這個大模型的落地成果，而且支撐智能手機持續(xù)增長。

未來，如果80%的模型都能在端側上去完成，20%在云端，而且存在一個相當可觀的速度，那么未來端側模型肯定有發(fā)展的前景。而從我們團隊來說，我們也在跟客戶磨合做 AI Phone 的演進，未來會有一些創(chuàng)新性場景，但很多東西確實需要時間去磨合端側模型鏈條。

張旭東：首先，它（這一輪生成式AI）絕對跟之前有很大的不同。過去做一些智慧城市治理，關注800個治理問題，就找800個人采集800組數(shù)據(jù)，然后去訓很多個小模型，最終項目交付會很“痛苦”，甲方也很痛苦。但今天不一樣了，如果我們想用GPT來做圖像識別，能夠得到很精確的定義，且比較通用化。整體來說，它的通用性比之前好很多，然后現(xiàn)在我們也可以看到一些新的框架，它能夠做的更加通用。我覺得未來還是比較光明的。

盧樂煒：現(xiàn)階段，大家應該都能很明確，離AGI還比較遠。隨著模型容量增大，更好的吸收各個不同領域的數(shù)據(jù)，也許會有機會成為通用模型，因為有些大的行業(yè)還是長期需要底層通用基礎模型的，但每個大的行業(yè)確實也有它產(chǎn)品邏輯和背景，這個我們不能忽略。未來，我覺得所謂通用性 AI，我們需要有一些信念，但回到行業(yè)定制，我們客戶還是希望能有廠商緊密響應需求，本質理念都還在，所以，我覺得一定程度上，市場依然需要大行業(yè)的定制模型，整個需求是長期存在的。

張旭東：我覺得這個問題比較實際。首先，現(xiàn)在確實國內很多團隊都在投入做生成式 AI 和大模型，但我覺得，最終肯定是只有幾家能做出來。追趕Sora肯定是沒問題的，國內確實需要這樣的模型，畢竟Sora不是中國本土的，我們需要自己有這樣的東西。

其次，中國大模型能否趕超，肯定還是很難的，因為它是一個長期的過程，不是說我今天趕上了、這個月趕上了，就代表我永遠趕上了，競爭對手也在進化。OpenAI還在做更多的東西，包括“星際之門”這種花費1,000億美金的計算基礎設施，對國內是很大的挑戰(zhàn)，所以，我覺得差距肯定是會有，而且有可能會長期存在。

但是大模型能不能做成也不完全就是“鈔能力”來決定的，比如，Meta就有很多錢和幾十萬顯卡，然后Google也有很多錢，但他們也沒做出Sora。所以我覺得，中國大模型可能和最好的效果會有距離，但結合中國的場景依然能作出有價值的東西，用戶永遠是看性價比的，而不是誰的模型最 SOTA。

盧樂煒：我覺得最近也比較有趣，就比如剛提到像“星際之門”，包括黃仁勛也說，未來制約人工智能發(fā)展是電力。我們當時還比較有趣的說，那是不是意味著我們有機會“彎道超車”。

隨著時間發(fā)展，我們的大裝置需要更多的能源，這部分其實是和國外同行同步的，接下來我們可能要從液冷，轉向“水冷”，整個機房整個機子的設計完全不一樣了。這些都是對就行業(yè)的共識，供電直接就多一個0了。未來，我覺得大模型發(fā)展就還很有趣，供電問題會成為國內發(fā)展大模型的另一重要力量。

（本文首發(fā)鈦媒體App，作者｜任穎文、林志佳、AI科技組，編輯｜林志佳）

快報