2024年12月6-7日,2024T-EDGE創(chuàng)新大會(huì)暨鈦媒體財(cái)經(jīng)年會(huì)在北京市大興區(qū)舉辦,本次大會(huì)主題為“ALL-in on Globalization,ALL-in on AI”,匯聚全球科技和商業(yè)領(lǐng)域的領(lǐng)導(dǎo)者,共同探討企業(yè)全球化增長(zhǎng)新格局新趨勢(shì),以及AI對(duì)全球各行業(yè)的巨大影響。
在視頻生成中,最難的往往是人物的面部、嘴型、表情、肢體動(dòng)作的精準(zhǔn)捕捉,因?yàn)橛行┰S的動(dòng)作位移和細(xì)微差異都會(huì)帶來(lái)失真。如果想要達(dá)到好萊塢影視標(biāo)準(zhǔn),就必須投入大量人力財(cái)力。
2023年8月,在生成式AI技術(shù)浪潮的洗禮下,著名視覺(jué)效果(VFX)工作室和AI技術(shù)初創(chuàng)公司MARZ(Monsters Aliens Robot Zombies)推出了新一代AI視效產(chǎn)品LipDub,用于解決影視配音中口型不同步問(wèn)題。該項(xiàng)技術(shù)將有助于好萊塢電影公司和廣告商在觀眾收視率和參與度方面實(shí)現(xiàn)質(zhì)的飛躍。
LipDub研究團(tuán)隊(duì)由MARZ首席科學(xué)家、特拉維夫大學(xué)計(jì)算機(jī)科學(xué)系世界知名教授Danny Cohen-Or領(lǐng)導(dǎo),他是ACM研究員和Isaias Nizri視覺(jué)計(jì)算主席。他與長(zhǎng)期合作者、西蒙弗雷澤大學(xué)助理教授Ali Mahdavi-Amiri一起領(lǐng)導(dǎo)了MARZ的AI研究團(tuán)隊(duì)。他們共同成功開(kāi)展了Vanity AI的研究,這是MARZ開(kāi)發(fā)的第一個(gè)AI解決方案。比如,針對(duì)人物面部皺紋進(jìn)行AI美妝,使其達(dá)到年輕效果。Vanity AI于2023年1月推出,已在45多個(gè)好萊塢作品中使用。
12月7日,LipDub CEO Jonathan Bronfman在演講中透露了LipDub的技術(shù)實(shí)現(xiàn)原理,并對(duì)該項(xiàng)技術(shù)所覆蓋的各行業(yè)、場(chǎng)景解決方案進(jìn)行了演示。
Jonathan指出,目前生成式AI已經(jīng)演進(jìn)到文生圖、圖生視頻階段。對(duì)于營(yíng)銷(xiāo)人員或內(nèi)容創(chuàng)作者而言,基于生成式AI技術(shù),幾乎只需要10分鐘就可以對(duì)某個(gè)想法實(shí)現(xiàn)視頻生成,從而快速驗(yàn)證視頻效果。
在他看來(lái),視頻內(nèi)容生成的挑戰(zhàn)是什么?慢且貴。視頻是娛樂(lè)、教育和打動(dòng)觀眾的最佳途徑。隨著視頻內(nèi)容生成效率的提升,用戶完全可以在幾分鐘內(nèi)就生成一段視頻,同時(shí),同一段視頻素材也可以反復(fù)使用。
LipDub開(kāi)發(fā)的口形同步技術(shù)(Lip Sync)實(shí)際上用到三種方案:一是直接對(duì)視頻翻譯,比如給出一段英文演講視頻,然后用中文演示,就好像演講者在講中文;二是通過(guò)定制虛擬形象進(jìn)行對(duì)話調(diào)整,比如在廣告場(chǎng)景,許多品牌在全球各地都有不同的產(chǎn)品名稱(chēng)表達(dá),但希望使用同一支商業(yè)廣告,就需要對(duì)廣告中特定的產(chǎn)品名稱(chēng)進(jìn)行更改;三是通過(guò)一段語(yǔ)料實(shí)現(xiàn)角色的量身定制,即針對(duì)同一件事物,針對(duì)不同的受眾群體生成不同的個(gè)性化表達(dá)。
Jonathan強(qiáng)調(diào),好萊塢影視畫(huà)面的要求不僅僅是口型同步,而是要?jiǎng)討B(tài)的,有飽滿情緒的。要確保對(duì)原始人物/角色表演1比1的還原。同樣,在跨語(yǔ)言轉(zhuǎn)換過(guò)程中,還要要確保能夠恰當(dāng)?shù)赜昧硪环N語(yǔ)言傳遞源語(yǔ)言中所表達(dá)的情感。
大家下午好。在開(kāi)始之前,我要感謝鈦媒體的邀請(qǐng),這是我第一次來(lái)到中國(guó),感謝大家的熱情款待。
我叫Jonathan Bronfman,是MARS的CEO,借此機(jī)會(huì)我與大家分享下我們的產(chǎn)品LipDub,以及公司發(fā)展歷程。
MARS源自Monsters Aliens Robot Zombies的英文縮寫(xiě),是一家專(zhuān)門(mén)做視覺(jué)特效的工作室,于2018年成立,曾為好萊塢多個(gè)影片和影視劇如《蟻人》、《驚奇少女》提供特效,并且與迪士尼、奈飛、Amazon Prime等多家流媒體平臺(tái)合作。
在2018年進(jìn)入視效行業(yè)時(shí),我就很清楚這個(gè)行業(yè)缺乏差異性,這意味著每個(gè)人都使用著相同的技術(shù)棧。那么如何在一個(gè)同質(zhì)化的行業(yè)中找到差異化競(jìng)爭(zhēng)優(yōu)勢(shì),并以此取得成功?因此,我們?cè)?019年明確AI可以加速發(fā)展,為我們提供在成本、時(shí)間和規(guī)模上的競(jìng)爭(zhēng)力。
我們聚集了很多世界知名科學(xué)家,包括特拉維夫大學(xué)教授Danny Cohen-Or,還有西蒙弗雷澤大學(xué)助理教授Ali Mahdavi-Amir,他們帶領(lǐng)我們找到了深度學(xué)習(xí)在視效行業(yè)的應(yīng)用交集。
其實(shí)我們開(kāi)發(fā)的第一款A(yù)I產(chǎn)品不是LipDub,而是一款2D美妝產(chǎn)品Vanity AI。該產(chǎn)品可以通過(guò)創(chuàng)建一張單幀圖片,然后將其他底片插入從而使圖片鮮活。我們一開(kāi)始也非常擅長(zhǎng)對(duì)人物面部表情的刻畫(huà)。2021年,我們注意到奈飛平臺(tái)上韓劇《魷魚(yú)游戲》在歐美地區(qū)爆火,但是問(wèn)題在于配音的口型不匹配。因此,我們就在想能不能讓口型同步起來(lái),讓觀眾觀看體驗(yàn)更沉浸。
在不斷努力下,我們將口型同步技術(shù)(Lip Sync)用在了好萊塢電影配音中,一直指引我們前進(jìn)。在播放示例中可以看到,我們將佛蘭芒語(yǔ)的電影,翻譯成英文,這個(gè)過(guò)程中用到了LipDub。其實(shí)在為好萊塢電影的制作過(guò)程中,我們還需要擺姿勢(shì)、換鏡頭、換燈光等手段,解決大量技術(shù)難點(diǎn),從而實(shí)現(xiàn)4k高分辨率。
LipDub采用了Language Agnostic模型,以實(shí)現(xiàn)跨語(yǔ)言無(wú)關(guān)特征學(xué)習(xí)。比如聲音是通過(guò)某個(gè)音素表達(dá),轉(zhuǎn)化為口型則需要特定的口型表達(dá)方式。比如下面示例中男子正講來(lái)自《阿凡達(dá)》、《權(quán)利的游戲》、《星際迷航》中的科幻語(yǔ)言。
當(dāng)然,這都是屬于真人片段。為了進(jìn)一步提升該技術(shù)效果,我們還將LipDub應(yīng)用于CG角色制作。在此之前,我們模型訓(xùn)練的數(shù)據(jù)集里甚至都沒(méi)有CG角色字符。要知道,好萊塢影視畫(huà)面的要求不僅僅是口型同步,也不是人形立牌,而是要?jiǎng)討B(tài)的,有飽滿情緒的。我們要確保對(duì)原始人物/角色表演1比1的還原。
我們已經(jīng)宣布了這款產(chǎn)品的beta版,預(yù)計(jì)在今年年底會(huì)有新的進(jìn)展。LipDub不僅服務(wù)于好萊塢,還擴(kuò)展到廣告、在線教育、企業(yè)宣傳片等多個(gè)領(lǐng)域,并聚焦于關(guān)注于視頻質(zhì)量的高價(jià)值客戶群體。例如,在線教育視頻場(chǎng)景中,LipDub營(yíng)造出了一種真實(shí)的聽(tīng)眾體驗(yàn),感覺(jué)就像是說(shuō)話人自己的語(yǔ)言。
視頻內(nèi)容生成的挑戰(zhàn)是什么?慢且貴。視頻是娛樂(lè)、教育和打動(dòng)觀眾的最佳途徑。隨著視頻內(nèi)容生成效率的提升,用戶完全可以在幾分鐘內(nèi)就生成一段視頻,同時(shí),同一段視頻素材也可以反復(fù)使用。LipDub開(kāi)發(fā)的口形同步技術(shù)(Lip Sync)實(shí)際上用到三種方案:一是直接對(duì)視頻翻譯,比如給出一段英文演講視頻,然后用中文演示,就好像演講者在講中文;二是通過(guò)定制虛擬形象進(jìn)行對(duì)話調(diào)整,比如在廣告場(chǎng)景,許多品牌在全球各地都有不同的產(chǎn)品名稱(chēng)表達(dá),但希望使用同一支商業(yè)廣告,就需要對(duì)廣告中特定的產(chǎn)品名稱(chēng)進(jìn)行更改;三是通過(guò)一段語(yǔ)料實(shí)現(xiàn)角色的量身定制,即針對(duì)同一件事物,針對(duì)不同的受眾群體生成不同的個(gè)性化表達(dá)。
顯然,我們今天討論的AI將是一個(gè)技術(shù)拐點(diǎn)。人們正投入大量資金在AI上,希望AI能夠更便捷、更經(jīng)濟(jì)使用,能夠規(guī)?;鲩L(zhǎng)和快速迭代,并且在特定行業(yè)里吸引到受眾和投放市場(chǎng)。
隨著AI技術(shù)的發(fā)展,生成式AI已經(jīng)演進(jìn)到文生圖、圖生視頻的模式。在此技術(shù)驅(qū)動(dòng)下,我們著手基于生成式AI技術(shù)實(shí)現(xiàn)了視頻生成。對(duì)于營(yíng)銷(xiāo)人員或內(nèi)容創(chuàng)作者而言,幾乎只需要10分鐘就可以對(duì)某個(gè)想法實(shí)現(xiàn)視頻生成,從而快速驗(yàn)證視頻效果。
目前LipDub生成式AI應(yīng)用分為初級(jí)和高級(jí)模式。在高級(jí)模式中,開(kāi)發(fā)人員需要先對(duì)項(xiàng)目命名,并選擇源語(yǔ)言和目標(biāo)語(yǔ)言。其次,上傳視頻并添加訓(xùn)練素材。一旦通過(guò),將對(duì)角色面部進(jìn)行自動(dòng)檢測(cè)打標(biāo),只有標(biāo)注后的素材才能用于AI訓(xùn)練。最后,上傳音頻,與對(duì)應(yīng)角色進(jìn)行匹配,最終生成視頻??深A(yù)覽和下載保存。
在初級(jí)模式中,用戶只需上傳視頻,在對(duì)視頻進(jìn)行預(yù)處理后,點(diǎn)擊創(chuàng)建配音。選擇自己的音頻素材或內(nèi)置翻譯功能,可一鍵生成配音效果。
最后,展示一下我們?cè)谧龅男鹿δ?mdash;—替換對(duì)話框(Replace Dialogue),類(lèi)似文本到語(yǔ)音(text-to-audio),這類(lèi)平臺(tái)這些有很多,但如果輸出的不是你想要的結(jié)果怎么辦?比如你想修改一個(gè)單詞,但跨語(yǔ)言轉(zhuǎn)換會(huì)有細(xì)微差別。你們用中文聽(tīng)到的某個(gè)詞,可能轉(zhuǎn)換為英文就翻譯不出來(lái)。我們要確保能夠恰當(dāng)?shù)赜昧硪环N語(yǔ)言傳遞這種情感。
非常感謝大家的邀請(qǐng)。期待下月與全球用戶分享該項(xiàng)功能。(本文首發(fā)于鈦媒體APP)
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論