日本无码中文字幕在线观看,97人人干人人草

“對(duì)于文本和視頻大模型來(lái)說(shuō)，二者的訓(xùn)練量級(jí)根本不在一個(gè)水平上，一些宣稱多模態(tài)的產(chǎn)品也都是處于Demo的狀態(tài)，并不成熟。大模型正在進(jìn)入2.0時(shí)代，這個(gè)時(shí)代需要新的大模型，需要一個(gè)以音視頻為主的而且本土化、垂類的大模型。萬(wàn)興的‘天幕’是多媒體大模型，跟文本形成了區(qū)別，對(duì)算力要求更高，當(dāng)然技術(shù)也更復(fù)雜。結(jié)合當(dāng)下的技術(shù)以及應(yīng)用場(chǎng)景來(lái)看，未來(lái)視頻也會(huì)是主流。”

大模型“走下神壇”，進(jìn)入2.0時(shí)代

據(jù)Gartner研究預(yù)測(cè),到2030年,90%的數(shù)字內(nèi)容都將是AI生成，預(yù)計(jì)2032年,全球AIGC市場(chǎng)規(guī)模將由2022年的108億美元增加至1181億美元。在AI的加持下，數(shù)字創(chuàng)意軟件產(chǎn)品是爆發(fā)式增長(zhǎng)，而AIGC的背后就是大模型，相當(dāng)于電器時(shí)代的發(fā)電廠，起到至關(guān)重要的作用。

也正是因?yàn)檫@樣，在過(guò)去的一年，大模型呈現(xiàn)井噴式增長(zhǎng)，大家會(huì)覺(jué)得大模型的春天到了。根據(jù)《北京市人工智能行業(yè)大模型創(chuàng)新應(yīng)用白皮書（2023年）》顯示，截至2023年10月，我國(guó)10億參數(shù)規(guī)模以上的大模型廠商及高校院所共計(jì)254家。上百家大模型廠商也進(jìn)一步催生出數(shù)十億的市場(chǎng)價(jià)值?？梢灶A(yù)計(jì)的是，大模型在今年也將持續(xù)火熱下去。只是，在火熱的背后，也要認(rèn)清行業(yè)的變化。

而在討論變化之前，要先理解大模型的“大”到底指的是什么？大模型扮演的角色是什么？吳太兵認(rèn)為，大模型的“大”肯定是參數(shù)多、結(jié)構(gòu)容量大，但這個(gè)“大”永遠(yuǎn)是一個(gè)相對(duì)概念，比如文字和視頻不是一個(gè)量級(jí)，不同行業(yè)的文本訓(xùn)練也不是一個(gè)量級(jí)。

至于大模型所扮演的角色，也要先對(duì)AI的發(fā)展有一個(gè)相對(duì)一致的理解。在吳太兵的理念中，這一輪的AI技術(shù)熱潮并不是偶然的，而是IT行業(yè)演進(jìn)的必然。“IT行業(yè)從1993到現(xiàn)在經(jīng)歷了30年的時(shí)間，這30年時(shí)間可以分為三個(gè)階段，每一個(gè)階段都有自己的特點(diǎn)。”

第一個(gè)階段，是Windows所代表的PC時(shí)代，是一種人機(jī)交互，人為去向機(jī)器輸入信息。第二個(gè)階段是互聯(lián)網(wǎng)時(shí)代，人與人交換信息，主要的目的在于交換。第三階段則是AI時(shí)代，在讀懂人類的需求后，機(jī)器給人輸出信息。

“AI的發(fā)展是一個(gè)順其自然到來(lái)的過(guò)程，試想一下，OpenAI就像是苦讀N年的莘莘學(xué)子，終于可以開(kāi)始掙錢養(yǎng)家了，在前30年接收各式各樣的信息后，開(kāi)始有了獨(dú)立的思維，形成了自己的一套系統(tǒng)化的框架。”

在外界還在觀望這一輪AI熱潮時(shí)，萬(wàn)興科技選擇第一時(shí)間投入進(jìn)去。值得一提的是，在此之前，萬(wàn)興科技也已在AI算法以及算力方面有所積累。從大模型出現(xiàn)，到融合大模型去推動(dòng)業(yè)務(wù)的發(fā)展，吳太兵對(duì)1.0時(shí)代大模型所扮演的角色也有了更深入的理解。

“后來(lái)我慢慢理解了，大模型本質(zhì)上相當(dāng)于一個(gè)煉鋼廠，通過(guò)高溫萃取之后，得到一些精華的產(chǎn)物。它的價(jià)值在于把海量’原材料’煉出’原材料’，但是這些’原材料’本身是不能直接使用的。”

吳太兵對(duì)鈦媒體App說(shuō)道，從來(lái)沒(méi)見(jiàn)過(guò)哪個(gè)煉鋼廠扔一塊鐵進(jìn)去以后，最后就出來(lái)一輛汽車了。1.0時(shí)代的大模型其實(shí)只解決了上游的原材料的問(wèn)題，下游的組裝是解決不了的。基于大模型，還要有更多的垂直應(yīng)用。

“大模型在音視頻垂直領(lǐng)域還存在很大的挑戰(zhàn)?；谶@樣一個(gè)想法，我堅(jiān)定地認(rèn)為，大模型正在從圖文1.0時(shí)代進(jìn)入到以音視頻多媒體為載體的2.0時(shí)代。”

根據(jù)思科公司此前發(fā)布的報(bào)告內(nèi)容指出，未來(lái)82%的消費(fèi)互聯(lián)網(wǎng)流量是視頻流量。如果從文本的角度來(lái)看，大模型的發(fā)展的確已經(jīng)很成熟，但是從視頻的角度來(lái)看是遠(yuǎn)遠(yuǎn)不夠的。目前，全世界有3.05億視頻創(chuàng)作者，43億視頻覆蓋群體，每天200億次以上的視頻播放量，視頻需求非常大。“視頻為王”時(shí)代的到來(lái)，也催生出對(duì)多媒體垂直大模型和應(yīng)用的需求。

吳太兵進(jìn)一步指出，“1.0時(shí)代，通用大模型占主流，好比‘科學(xué)家’，主要研究前沿高端，解決基礎(chǔ)理論性問(wèn)題。2.0時(shí)代，垂直大模型增長(zhǎng)趨勢(shì)明顯，好比‘工匠’，可更快速、更靈活解決細(xì)分領(lǐng)域?qū)I(yè)性問(wèn)題，可從模型到應(yīng)用場(chǎng)景對(duì)用戶一條龍賦能。”

聚焦數(shù)字創(chuàng)意垂類創(chuàng)作場(chǎng)景，“天幕”大模型已在海外商用

相比較文本生成，視頻生成大模型以及應(yīng)用由于數(shù)據(jù)、算力等多方面原因，導(dǎo)致產(chǎn)品數(shù)量較少，以及效果并沒(méi)有大家期待的那么完美。

吳太兵認(rèn)為，音頻大模型情感理解存在偏差，視頻生成大模型生產(chǎn)內(nèi)容長(zhǎng)度、一致性待提升，難形成完整的工作流。OpenAI在發(fā)布大模型之時(shí)就提出了多模態(tài)，但在視頻生成的滿意度上較低。即便是Pika labs這種火熱的產(chǎn)品，也存在明顯的拖影、模糊等問(wèn)題，質(zhì)量非常不理想。

總的來(lái)看，視頻生成目前存在三大挑戰(zhàn)。第一是數(shù)據(jù)集欠缺，視頻內(nèi)容存儲(chǔ)和標(biāo)注成本高昂，視頻相關(guān)的訓(xùn)練數(shù)據(jù)集目前仍較欠缺。第二是算力成本高昂，視頻訓(xùn)練所需的算力遠(yuǎn)高于圖片、文字等其它內(nèi)容。第三則是生成效果不佳目前仍缺乏效果可用性較好的模型作為標(biāo)桿。

“之所以行業(yè)投入那么多研發(fā)，在視頻維度還存在著么多問(wèn)題，背后核心的原因就在于視頻生成十分復(fù)雜。”

鈦媒體App了解到，視頻由很多能力和元素構(gòu)成，包括動(dòng)畫、字幕、音樂(lè)、特效、美化、貼紙、轉(zhuǎn)場(chǎng)、畫中畫，還有頂層資源、顆粒等，很復(fù)雜。整個(gè)視頻制作的鏈路、技術(shù)門檻非常高，平均制作一個(gè)視頻需要1.6小時(shí)。在構(gòu)思階段，可能需要用GPT或者文心一言，做內(nèi)容源需要本地拍攝，需要獲得資源方便去做加工，需要第三方工具，進(jìn)行效果生成，還要算力、做編解碼，總之一切沒(méi)那么簡(jiǎn)單。

在大模型2.0時(shí)代，做出符合市場(chǎng)的大模型產(chǎn)品，首先要搞清楚2.0時(shí)代的特點(diǎn)是什么。吳太兵總結(jié)了三點(diǎn)，第一是從多模態(tài)到多媒體，系統(tǒng)性解決不同模態(tài)融合的問(wèn)題。在他看來(lái)，多模態(tài)還是一個(gè)通用大模型，通過(guò)一套東西把文本、視頻、音頻、圖片全部打通，也許有可能，文本大模型從供給和使用角度體驗(yàn)已經(jīng)很好了，但是音視頻的體驗(yàn)還遠(yuǎn)遠(yuǎn)不夠，市場(chǎng)需要多媒體大模型。

第二是從通用到垂直解決方案，一條龍從模型到應(yīng)用場(chǎng)景。“通用的大模型只適合生產(chǎn)原材料，生產(chǎn)一張圖片、一段音頻，但還是需要“組裝車間”把它最后變成一款產(chǎn)品，多媒體大模型上面有一系列原子能力，通過(guò)組裝件最后變成最終的產(chǎn)品”，吳太兵表示，“指望向一個(gè)工廠扔進(jìn)一些鐵礦石，出來(lái)一輛汽車是不現(xiàn)實(shí)的。扔進(jìn)去的鐵出來(lái)的是鋼材，扔進(jìn)去的石油出來(lái)的是化工產(chǎn)品，但這些東西離你真正做成一輛汽車還有很遠(yuǎn)的距離，這中間的距離就是垂類大模型需要去做的，而不是通用性的化工廠、煉鋼廠能去解決的問(wèn)題。”

第三則是從全球到本土化，算力、數(shù)據(jù)、應(yīng)用的本土化。過(guò)去，大家指望通過(guò)一個(gè)大模型去解決全世界的問(wèn)題，但是現(xiàn)在來(lái)看，基本是不可能的。在應(yīng)用的層面，需要算力的本土化布局，需要本土化的數(shù)據(jù)，才能研發(fā)出更本土化的應(yīng)用。

“今天，我們要重視大模型本身的應(yīng)用商業(yè)化，而且要高度重視中國(guó)的應(yīng)用場(chǎng)景。結(jié)合我們所用的數(shù)據(jù)和應(yīng)用產(chǎn)品，參與全球競(jìng)爭(zhēng)的時(shí)候才更能找到自己的位置。”

依托于大模型2.0時(shí)代的三個(gè)特點(diǎn)，萬(wàn)興科技推出了“天幕”音視頻多媒體大模型，聚焦數(shù)字創(chuàng)意垂類創(chuàng)作場(chǎng)景，基于15億用戶行為及100億本土化音視頻數(shù)據(jù)，以音視頻生成式AI技術(shù)為基礎(chǔ)，支持全球不同語(yǔ)言，相關(guān)能力已在海外規(guī)?；逃?。

吳太兵向我們透露，萬(wàn)興“天幕”大模型將打造基于大模型架構(gòu)的AIGC應(yīng)用基礎(chǔ)底座，自投入研發(fā)以來(lái)，組建了百人算法團(tuán)隊(duì)，團(tuán)隊(duì)碩士和博士的比例超過(guò)70%，“天幕”大模型算法也已正式通過(guò)《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》備案。

另外，算力作為大模型的根基，萬(wàn)興“天幕”還在持續(xù)加碼NPU+GPU強(qiáng)力算力底座，訓(xùn)練則是在國(guó)內(nèi)算力和服務(wù)器基礎(chǔ)上進(jìn)行，已構(gòu)建千卡集群、自研推理框架局，并擁有一站式數(shù)據(jù)生產(chǎn)管理平臺(tái)，單日可完成百萬(wàn)級(jí)數(shù)據(jù)處理加工。

做AI時(shí)代的美的，不需要每一款產(chǎn)品都做到NO.1

站在新的發(fā)展階段，萬(wàn)興科技給自己的定義是一家以技術(shù)為基礎(chǔ)的產(chǎn)品創(chuàng)新驅(qū)動(dòng)公司，相比較技術(shù)公司，更加強(qiáng)調(diào)市場(chǎng)。“我們以產(chǎn)品創(chuàng)新為主，并不代表不關(guān)注技術(shù)，我們到長(zhǎng)沙來(lái)也是為了吸引以及留下更多的技術(shù)人才，‘拿深圳工資，住長(zhǎng)沙房子，干全球事業(yè)’，這是我們提出的口號(hào)”，吳太兵說(shuō)道。

而面對(duì)當(dāng)下市場(chǎng)出現(xiàn)的多元化競(jìng)爭(zhēng)格局，如何在AI時(shí)代持續(xù)地淘金，成為擺在很多公司面前的問(wèn)題。在吳太兵看來(lái)，讓自己不掉隊(duì)需要做到兩條腿走路，一條腿是后端的技術(shù)賦能，比如大模型、算法、算力等，另一條腿則是對(duì)前臺(tái)市場(chǎng)機(jī)遇的把控。

“除了原有的運(yùn)營(yíng)中心以外，我們還在大力招募本地化的產(chǎn)品和市場(chǎng)團(tuán)隊(duì)，希望能加速感知到市場(chǎng)的變化。而站在產(chǎn)品的角度，萬(wàn)興的邏輯則是矩陣化產(chǎn)品思維，不需要每一款產(chǎn)品都做到第一，前三就可以，‘中產(chǎn)品’的戰(zhàn)略也能讓我們做到更大的規(guī)模。”

用傳統(tǒng)的思維去看待大模型，而不是把其放在一個(gè)高大上的位置去仰望。很多人對(duì)大模型這件事非常地興奮，特別想去搏一把，因?yàn)樗麄冋J(rèn)為這可能是最接近成為比爾蓋茨、喬布斯的機(jī)會(huì)。但是，在吳太兵的設(shè)想中，大模型的確很重要，也是需要抓住的機(jī)遇，但萬(wàn)興想做的是AI時(shí)代的美的，通過(guò)矩陣化的產(chǎn)品創(chuàng)新，將自身以及市面上優(yōu)秀的大模型的能力整合起來(lái)。

他表示，“我們有大平臺(tái)，在正確的方向上，可以做N款優(yōu)秀的產(chǎn)品，這樣才能真的去擁抱這個(gè)新時(shí)代。”

在交流的最后，吳太兵還談及了“中國(guó)的Adobe”這個(gè)稱號(hào)，他認(rèn)為這是市場(chǎng)貼的，但自己對(duì)于這種對(duì)標(biāo)并沒(méi)有太排斥。用他的話說(shuō)，對(duì)標(biāo)是為了減少品牌與市場(chǎng)的溝通障礙，可以讓市場(chǎng)更快地知道萬(wàn)興是在做什么。

不過(guò)，世界上沒(méi)有兩家完全一模一樣的公司，萬(wàn)興要走的路也和Adobe不一樣，“我們更期望做的是未來(lái)的Adobe，一是有AI驅(qū)動(dòng)力，二是立足中國(guó)市場(chǎng)。還是那句話，布局AIGC,我們是認(rèn)真的，也希望更多的生態(tài)伙伴參與到多媒體大模型的建設(shè)，讓整個(gè)行業(yè)更繁榮。”（本文首發(fā)鈦媒體App，作者/杜志強(qiáng)，編輯/鐘毅）

快報(bào)