萬(wàn)興科技董事長(zhǎng)吳太兵
“對(duì)于文本和視頻大模型來(lái)說(shuō),二者的訓(xùn)練量級(jí)根本不在一個(gè)水平上,一些宣稱多模態(tài)的產(chǎn)品也都是處于Demo的狀態(tài),并不成熟。大模型正在進(jìn)入2.0時(shí)代,這個(gè)時(shí)代需要新的大模型,需要一個(gè)以音視頻為主的而且本土化、垂類的大模型。萬(wàn)興的‘天幕’是多媒體大模型,跟文本形成了區(qū)別,對(duì)算力要求更高,當(dāng)然技術(shù)也更復(fù)雜。結(jié)合當(dāng)下的技術(shù)以及應(yīng)用場(chǎng)景來(lái)看,未來(lái)視頻也會(huì)是主流。”
據(jù)Gartner研究預(yù)測(cè),到2030年,90%的數(shù)字內(nèi)容都將是AI生成,預(yù)計(jì)2032年,全球AIGC市場(chǎng)規(guī)模將由2022年的108億美元增加至1181億美元。在AI的加持下,數(shù)字創(chuàng)意軟件產(chǎn)品是爆發(fā)式增長(zhǎng),而AIGC的背后就是大模型,相當(dāng)于電器時(shí)代的發(fā)電廠,起到至關(guān)重要的作用。
也正是因?yàn)檫@樣,在過(guò)去的一年,大模型呈現(xiàn)井噴式增長(zhǎng),大家會(huì)覺(jué)得大模型的春天到了。根據(jù)《北京市人工智能行業(yè)大模型創(chuàng)新應(yīng)用白皮書(2023年)》顯示,截至2023年10月,我國(guó)10億參數(shù)規(guī)模以上的大模型廠商及高校院所共計(jì)254家。上百家大模型廠商也進(jìn)一步催生出數(shù)十億的市場(chǎng)價(jià)值??梢灶A(yù)計(jì)的是,大模型在今年也將持續(xù)火熱下去。只是,在火熱的背后,也要認(rèn)清行業(yè)的變化。
而在討論變化之前,要先理解大模型的“大”到底指的是什么?大模型扮演的角色是什么?吳太兵認(rèn)為,大模型的“大”肯定是參數(shù)多、結(jié)構(gòu)容量大,但這個(gè)“大”永遠(yuǎn)是一個(gè)相對(duì)概念,比如文字和視頻不是一個(gè)量級(jí),不同行業(yè)的文本訓(xùn)練也不是一個(gè)量級(jí)。
至于大模型所扮演的角色,也要先對(duì)AI的發(fā)展有一個(gè)相對(duì)一致的理解。在吳太兵的理念中,這一輪的AI技術(shù)熱潮并不是偶然的,而是IT行業(yè)演進(jìn)的必然。“IT行業(yè)從1993到現(xiàn)在經(jīng)歷了30年的時(shí)間,這30年時(shí)間可以分為三個(gè)階段,每一個(gè)階段都有自己的特點(diǎn)。”
第一個(gè)階段,是Windows所代表的PC時(shí)代,是一種人機(jī)交互,人為去向機(jī)器輸入信息。第二個(gè)階段是互聯(lián)網(wǎng)時(shí)代,人與人交換信息,主要的目的在于交換。第三階段則是AI時(shí)代,在讀懂人類的需求后,機(jī)器給人輸出信息。
“AI的發(fā)展是一個(gè)順其自然到來(lái)的過(guò)程,試想一下,OpenAI就像是苦讀N年的莘莘學(xué)子,終于可以開(kāi)始掙錢養(yǎng)家了,在前30年接收各式各樣的信息后,開(kāi)始有了獨(dú)立的思維,形成了自己的一套系統(tǒng)化的框架。”
在外界還在觀望這一輪AI熱潮時(shí),萬(wàn)興科技選擇第一時(shí)間投入進(jìn)去。值得一提的是,在此之前,萬(wàn)興科技也已在AI算法以及算力方面有所積累。從大模型出現(xiàn),到融合大模型去推動(dòng)業(yè)務(wù)的發(fā)展,吳太兵對(duì)1.0時(shí)代大模型所扮演的角色也有了更深入的理解。
“后來(lái)我慢慢理解了,大模型本質(zhì)上相當(dāng)于一個(gè)煉鋼廠,通過(guò)高溫萃取之后,得到一些精華的產(chǎn)物。它的價(jià)值在于把海量’原材料’煉出’原材料’,但是這些’原材料’本身是不能直接使用的。”
吳太兵對(duì)鈦媒體App說(shuō)道,從來(lái)沒(méi)見(jiàn)過(guò)哪個(gè)煉鋼廠扔一塊鐵進(jìn)去以后,最后就出來(lái)一輛汽車了。1.0時(shí)代的大模型其實(shí)只解決了上游的原材料的問(wèn)題,下游的組裝是解決不了的。基于大模型,還要有更多的垂直應(yīng)用。
“大模型在音視頻垂直領(lǐng)域還存在很大的挑戰(zhàn)?;谶@樣一個(gè)想法,我堅(jiān)定地認(rèn)為,大模型正在從圖文1.0時(shí)代進(jìn)入到以音視頻多媒體為載體的2.0時(shí)代。”
根據(jù)思科公司此前發(fā)布的報(bào)告內(nèi)容指出,未來(lái)82%的消費(fèi)互聯(lián)網(wǎng)流量是視頻流量。如果從文本的角度來(lái)看,大模型的發(fā)展的確已經(jīng)很成熟,但是從視頻的角度來(lái)看是遠(yuǎn)遠(yuǎn)不夠的。目前,全世界有3.05億視頻創(chuàng)作者,43億視頻覆蓋群體,每天200億次以上的視頻播放量,視頻需求非常大。“視頻為王”時(shí)代的到來(lái),也催生出對(duì)多媒體垂直大模型和應(yīng)用的需求。
![]()
吳太兵進(jìn)一步指出,“1.0時(shí)代,通用大模型占主流,好比‘科學(xué)家’,主要研究前沿高端,解決基礎(chǔ)理論性問(wèn)題。2.0時(shí)代,垂直大模型增長(zhǎng)趨勢(shì)明顯,好比‘工匠’,可更快速、更靈活解決細(xì)分領(lǐng)域?qū)I(yè)性問(wèn)題,可從模型到應(yīng)用場(chǎng)景對(duì)用戶一條龍賦能。”
相比較文本生成,視頻生成大模型以及應(yīng)用由于數(shù)據(jù)、算力等多方面原因,導(dǎo)致產(chǎn)品數(shù)量較少,以及效果并沒(méi)有大家期待的那么完美。
吳太兵認(rèn)為,音頻大模型情感理解存在偏差,視頻生成大模型生產(chǎn)內(nèi)容長(zhǎng)度、一致性待提升,難形成完整的工作流。OpenAI在發(fā)布大模型之時(shí)就提出了多模態(tài),但在視頻生成的滿意度上較低。即便是Pika labs這種火熱的產(chǎn)品,也存在明顯的拖影、模糊等問(wèn)題,質(zhì)量非常不理想。
總的來(lái)看,視頻生成目前存在三大挑戰(zhàn)。第一是數(shù)據(jù)集欠缺,視頻內(nèi)容存儲(chǔ)和標(biāo)注成本高昂,視頻相關(guān)的訓(xùn)練數(shù)據(jù)集目前仍較欠缺。第二是算力成本高昂,視頻訓(xùn)練所需的算力遠(yuǎn)高于圖片、文字等其它內(nèi)容。第三則是生成效果不佳目前仍缺乏效果可用性較好的模型作為標(biāo)桿。
“之所以行業(yè)投入那么多研發(fā),在視頻維度還存在著么多問(wèn)題,背后核心的原因就在于視頻生成十分復(fù)雜。”
鈦媒體App了解到,視頻由很多能力和元素構(gòu)成,包括動(dòng)畫、字幕、音樂(lè)、特效、美化、貼紙、轉(zhuǎn)場(chǎng)、畫中畫,還有頂層資源、顆粒等,很復(fù)雜。整個(gè)視頻制作的鏈路、技術(shù)門檻非常高,平均制作一個(gè)視頻需要1.6小時(shí)。在構(gòu)思階段,可能需要用GPT或者文心一言,做內(nèi)容源需要本地拍攝,需要獲得資源方便去做加工,需要第三方工具,進(jìn)行效果生成,還要算力、做編解碼,總之一切沒(méi)那么簡(jiǎn)單。
在大模型2.0時(shí)代,做出符合市場(chǎng)的大模型產(chǎn)品,首先要搞清楚2.0時(shí)代的特點(diǎn)是什么。吳太兵總結(jié)了三點(diǎn),第一是從多模態(tài)到多媒體,系統(tǒng)性解決不同模態(tài)融合的問(wèn)題。在他看來(lái),多模態(tài)還是一個(gè)通用大模型,通過(guò)一套東西把文本、視頻、音頻、圖片全部打通,也許有可能,文本大模型從供給和使用角度體驗(yàn)已經(jīng)很好了,但是音視頻的體驗(yàn)還遠(yuǎn)遠(yuǎn)不夠,市場(chǎng)需要多媒體大模型。
第二是從通用到垂直解決方案,一條龍從模型到應(yīng)用場(chǎng)景。“通用的大模型只適合生產(chǎn)原材料,生產(chǎn)一張圖片、一段音頻,但還是需要“組裝車間”把它最后變成一款產(chǎn)品,多媒體大模型上面有一系列原子能力,通過(guò)組裝件最后變成最終的產(chǎn)品”,吳太兵表示,“指望向一個(gè)工廠扔進(jìn)一些鐵礦石,出來(lái)一輛汽車是不現(xiàn)實(shí)的。扔進(jìn)去的鐵出來(lái)的是鋼材,扔進(jìn)去的石油出來(lái)的是化工產(chǎn)品,但這些東西離你真正做成一輛汽車還有很遠(yuǎn)的距離,這中間的距離就是垂類大模型需要去做的,而不是通用性的化工廠、煉鋼廠能去解決的問(wèn)題。”
![]()
第三則是從全球到本土化,算力、數(shù)據(jù)、應(yīng)用的本土化。過(guò)去,大家指望通過(guò)一個(gè)大模型去解決全世界的問(wèn)題,但是現(xiàn)在來(lái)看,基本是不可能的。在應(yīng)用的層面,需要算力的本土化布局,需要本土化的數(shù)據(jù),才能研發(fā)出更本土化的應(yīng)用。
“今天,我們要重視大模型本身的應(yīng)用商業(yè)化,而且要高度重視中國(guó)的應(yīng)用場(chǎng)景。結(jié)合我們所用的數(shù)據(jù)和應(yīng)用產(chǎn)品,參與全球競(jìng)爭(zhēng)的時(shí)候才更能找到自己的位置。”
依托于大模型2.0時(shí)代的三個(gè)特點(diǎn),萬(wàn)興科技推出了“天幕”音視頻多媒體大模型,聚焦數(shù)字創(chuàng)意垂類創(chuàng)作場(chǎng)景,基于15億用戶行為及100億本土化音視頻數(shù)據(jù),以音視頻生成式AI技術(shù)為基礎(chǔ),支持全球不同語(yǔ)言,相關(guān)能力已在海外規(guī)?;逃?。
吳太兵向我們透露,萬(wàn)興“天幕”大模型將打造基于大模型架構(gòu)的AIGC應(yīng)用基礎(chǔ)底座,自投入研發(fā)以來(lái),組建了百人算法團(tuán)隊(duì),團(tuán)隊(duì)碩士和博士的比例超過(guò)70%,“天幕”大模型算法也已正式通過(guò)《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》備案。
另外,算力作為大模型的根基,萬(wàn)興“天幕”還在持續(xù)加碼NPU+GPU強(qiáng)力算力底座,訓(xùn)練則是在國(guó)內(nèi)算力和服務(wù)器基礎(chǔ)上進(jìn)行,已構(gòu)建千卡集群、自研推理框架局,并擁有一站式數(shù)據(jù)生產(chǎn)管理平臺(tái),單日可完成百萬(wàn)級(jí)數(shù)據(jù)處理加工。
站在新的發(fā)展階段,萬(wàn)興科技給自己的定義是一家以技術(shù)為基礎(chǔ)的產(chǎn)品創(chuàng)新驅(qū)動(dòng)公司,相比較技術(shù)公司,更加強(qiáng)調(diào)市場(chǎng)。“我們以產(chǎn)品創(chuàng)新為主,并不代表不關(guān)注技術(shù),我們到長(zhǎng)沙來(lái)也是為了吸引以及留下更多的技術(shù)人才,‘拿深圳工資,住長(zhǎng)沙房子,干全球事業(yè)’,這是我們提出的口號(hào)”,吳太兵說(shuō)道。
而面對(duì)當(dāng)下市場(chǎng)出現(xiàn)的多元化競(jìng)爭(zhēng)格局,如何在AI時(shí)代持續(xù)地淘金,成為擺在很多公司面前的問(wèn)題。在吳太兵看來(lái),讓自己不掉隊(duì)需要做到兩條腿走路,一條腿是后端的技術(shù)賦能,比如大模型、算法、算力等,另一條腿則是對(duì)前臺(tái)市場(chǎng)機(jī)遇的把控。
“除了原有的運(yùn)營(yíng)中心以外,我們還在大力招募本地化的產(chǎn)品和市場(chǎng)團(tuán)隊(duì),希望能加速感知到市場(chǎng)的變化。而站在產(chǎn)品的角度,萬(wàn)興的邏輯則是矩陣化產(chǎn)品思維,不需要每一款產(chǎn)品都做到第一,前三就可以,‘中產(chǎn)品’的戰(zhàn)略也能讓我們做到更大的規(guī)模。”
用傳統(tǒng)的思維去看待大模型,而不是把其放在一個(gè)高大上的位置去仰望。很多人對(duì)大模型這件事非常地興奮,特別想去搏一把,因?yàn)樗麄冋J(rèn)為這可能是最接近成為比爾蓋茨、喬布斯的機(jī)會(huì)。但是,在吳太兵的設(shè)想中,大模型的確很重要,也是需要抓住的機(jī)遇,但萬(wàn)興想做的是AI時(shí)代的美的,通過(guò)矩陣化的產(chǎn)品創(chuàng)新,將自身以及市面上優(yōu)秀的大模型的能力整合起來(lái)。
![]()
他表示,“我們有大平臺(tái),在正確的方向上,可以做N款優(yōu)秀的產(chǎn)品,這樣才能真的去擁抱這個(gè)新時(shí)代。”
在交流的最后,吳太兵還談及了“中國(guó)的Adobe”這個(gè)稱號(hào),他認(rèn)為這是市場(chǎng)貼的,但自己對(duì)于這種對(duì)標(biāo)并沒(méi)有太排斥。用他的話說(shuō),對(duì)標(biāo)是為了減少品牌與市場(chǎng)的溝通障礙,可以讓市場(chǎng)更快地知道萬(wàn)興是在做什么。
不過(guò),世界上沒(méi)有兩家完全一模一樣的公司,萬(wàn)興要走的路也和Adobe不一樣,“我們更期望做的是未來(lái)的Adobe,一是有AI驅(qū)動(dòng)力,二是立足中國(guó)市場(chǎng)。還是那句話,布局AIGC,我們是認(rèn)真的,也希望更多的生態(tài)伙伴參與到多媒體大模型的建設(shè),讓整個(gè)行業(yè)更繁榮。”(本文首發(fā)鈦媒體App,作者/杜志強(qiáng),編輯/鐘毅)
![]()
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論