91成人18欧洲精品伦,91综合亚洲欧美黄a

2024年12月6-7日，2024T-EDGE創(chuàng)新大會(huì)暨鈦媒體財(cái)經(jīng)年會(huì)在北京市大興區(qū)舉辦，本次大會(huì)主題為“ALL-in on Globalization，ALL-in on AI”，匯聚全球科技和商業(yè)領(lǐng)域的領(lǐng)導(dǎo)者，共同探討企業(yè)全球化增長(zhǎng)新格局新趨勢(shì)，以及AI對(duì)全球各行業(yè)的巨大影響。

在視頻生成中，最難的往往是人物的面部、嘴型、表情、肢體動(dòng)作的精準(zhǔn)捕捉，因?yàn)橛行┰S的動(dòng)作位移和細(xì)微差異都會(huì)帶來(lái)失真。如果想要達(dá)到好萊塢影視標(biāo)準(zhǔn)，就必須投入大量人力財(cái)力。

2023年8月，在生成式AI技術(shù)浪潮的洗禮下，著名視覺(jué)效果(VFX)工作室和AI技術(shù)初創(chuàng)公司MARZ（Monsters Aliens Robot Zombies）推出了新一代AI視效產(chǎn)品LipDub，用于解決影視配音中口型不同步問(wèn)題。該項(xiàng)技術(shù)將有助于好萊塢電影公司和廣告商在觀眾收視率和參與度方面實(shí)現(xiàn)質(zhì)的飛躍。

LipDub研究團(tuán)隊(duì)由MARZ首席科學(xué)家、特拉維夫大學(xué)計(jì)算機(jī)科學(xué)系世界知名教授Danny Cohen-Or領(lǐng)導(dǎo)，他是ACM研究員和Isaias Nizri視覺(jué)計(jì)算主席。他與長(zhǎng)期合作者、西蒙弗雷澤大學(xué)助理教授Ali Mahdavi-Amiri一起領(lǐng)導(dǎo)了MARZ的AI研究團(tuán)隊(duì)。他們共同成功開(kāi)展了Vanity AI的研究，這是MARZ開(kāi)發(fā)的第一個(gè)AI解決方案。比如，針對(duì)人物面部皺紋進(jìn)行AI美妝，使其達(dá)到年輕效果。Vanity AI于2023年1月推出，已在45多個(gè)好萊塢作品中使用。

12月7日，LipDub CEO Jonathan Bronfman在演講中透露了LipDub的技術(shù)實(shí)現(xiàn)原理，并對(duì)該項(xiàng)技術(shù)所覆蓋的各行業(yè)、場(chǎng)景解決方案進(jìn)行了演示。

Jonathan指出，目前生成式AI已經(jīng)演進(jìn)到文生圖、圖生視頻階段。對(duì)于營(yíng)銷(xiāo)人員或內(nèi)容創(chuàng)作者而言，基于生成式AI技術(shù)，幾乎只需要10分鐘就可以對(duì)某個(gè)想法實(shí)現(xiàn)視頻生成，從而快速驗(yàn)證視頻效果。

在他看來(lái)，視頻內(nèi)容生成的挑戰(zhàn)是什么？慢且貴。視頻是娛樂(lè)、教育和打動(dòng)觀眾的最佳途徑。隨著視頻內(nèi)容生成效率的提升，用戶完全可以在幾分鐘內(nèi)就生成一段視頻，同時(shí)，同一段視頻素材也可以反復(fù)使用。

LipDub開(kāi)發(fā)的口形同步技術(shù)（Lip Sync）實(shí)際上用到三種方案：一是直接對(duì)視頻翻譯，比如給出一段英文演講視頻，然后用中文演示，就好像演講者在講中文；二是通過(guò)定制虛擬形象進(jìn)行對(duì)話調(diào)整，比如在廣告場(chǎng)景，許多品牌在全球各地都有不同的產(chǎn)品名稱(chēng)表達(dá)，但希望使用同一支商業(yè)廣告，就需要對(duì)廣告中特定的產(chǎn)品名稱(chēng)進(jìn)行更改；三是通過(guò)一段語(yǔ)料實(shí)現(xiàn)角色的量身定制，即針對(duì)同一件事物，針對(duì)不同的受眾群體生成不同的個(gè)性化表達(dá)。

Jonathan強(qiáng)調(diào)，好萊塢影視畫(huà)面的要求不僅僅是口型同步，而是要?jiǎng)討B(tài)的，有飽滿情緒的。要確保對(duì)原始人物/角色表演1比1的還原。同樣，在跨語(yǔ)言轉(zhuǎn)換過(guò)程中，還要要確保能夠恰當(dāng)?shù)赜昧硪环N語(yǔ)言傳遞源語(yǔ)言中所表達(dá)的情感。

以下是Jonathan Bronfman的演講全文，經(jīng)鈦媒體APP編輯：

大家下午好。在開(kāi)始之前，我要感謝鈦媒體的邀請(qǐng)，這是我第一次來(lái)到中國(guó)，感謝大家的熱情款待。

我叫Jonathan Bronfman，是MARS的CEO，借此機(jī)會(huì)我與大家分享下我們的產(chǎn)品LipDub，以及公司發(fā)展歷程。

MARS源自Monsters Aliens Robot Zombies的英文縮寫(xiě)，是一家專(zhuān)門(mén)做視覺(jué)特效的工作室，于2018年成立，曾為好萊塢多個(gè)影片和影視劇如《蟻人》、《驚奇少女》提供特效，并且與迪士尼、奈飛、Amazon Prime等多家流媒體平臺(tái)合作。

在2018年進(jìn)入視效行業(yè)時(shí)，我就很清楚這個(gè)行業(yè)缺乏差異性，這意味著每個(gè)人都使用著相同的技術(shù)棧。那么如何在一個(gè)同質(zhì)化的行業(yè)中找到差異化競(jìng)爭(zhēng)優(yōu)勢(shì)，并以此取得成功？因此，我們?cè)?019年明確AI可以加速發(fā)展，為我們提供在成本、時(shí)間和規(guī)模上的競(jìng)爭(zhēng)力。

我們聚集了很多世界知名科學(xué)家，包括特拉維夫大學(xué)教授Danny Cohen-Or，還有西蒙弗雷澤大學(xué)助理教授Ali Mahdavi-Amir，他們帶領(lǐng)我們找到了深度學(xué)習(xí)在視效行業(yè)的應(yīng)用交集。

其實(shí)我們開(kāi)發(fā)的第一款A(yù)I產(chǎn)品不是LipDub，而是一款2D美妝產(chǎn)品Vanity AI。該產(chǎn)品可以通過(guò)創(chuàng)建一張單幀圖片，然后將其他底片插入從而使圖片鮮活。我們一開(kāi)始也非常擅長(zhǎng)對(duì)人物面部表情的刻畫(huà)。2021年，我們注意到奈飛平臺(tái)上韓劇《魷魚(yú)游戲》在歐美地區(qū)爆火，但是問(wèn)題在于配音的口型不匹配。因此，我們就在想能不能讓口型同步起來(lái)，讓觀眾觀看體驗(yàn)更沉浸。

在不斷努力下，我們將口型同步技術(shù)（Lip Sync）用在了好萊塢電影配音中，一直指引我們前進(jìn)。在播放示例中可以看到，我們將佛蘭芒語(yǔ)的電影，翻譯成英文，這個(gè)過(guò)程中用到了LipDub。其實(shí)在為好萊塢電影的制作過(guò)程中，我們還需要擺姿勢(shì)、換鏡頭、換燈光等手段，解決大量技術(shù)難點(diǎn)，從而實(shí)現(xiàn)4k高分辨率。

LipDub采用了Language Agnostic模型，以實(shí)現(xiàn)跨語(yǔ)言無(wú)關(guān)特征學(xué)習(xí)。比如聲音是通過(guò)某個(gè)音素表達(dá)，轉(zhuǎn)化為口型則需要特定的口型表達(dá)方式。比如下面示例中男子正講來(lái)自《阿凡達(dá)》、《權(quán)利的游戲》、《星際迷航》中的科幻語(yǔ)言。

當(dāng)然，這都是屬于真人片段。為了進(jìn)一步提升該技術(shù)效果，我們還將LipDub應(yīng)用于CG角色制作。在此之前，我們模型訓(xùn)練的數(shù)據(jù)集里甚至都沒(méi)有CG角色字符。要知道，好萊塢影視畫(huà)面的要求不僅僅是口型同步，也不是人形立牌，而是要?jiǎng)討B(tài)的，有飽滿情緒的。我們要確保對(duì)原始人物/角色表演1比1的還原。

我們已經(jīng)宣布了這款產(chǎn)品的beta版，預(yù)計(jì)在今年年底會(huì)有新的進(jìn)展。LipDub不僅服務(wù)于好萊塢，還擴(kuò)展到廣告、在線教育、企業(yè)宣傳片等多個(gè)領(lǐng)域，并聚焦于關(guān)注于視頻質(zhì)量的高價(jià)值客戶群體。例如，在線教育視頻場(chǎng)景中，LipDub營(yíng)造出了一種真實(shí)的聽(tīng)眾體驗(yàn)，感覺(jué)就像是說(shuō)話人自己的語(yǔ)言。

視頻內(nèi)容生成的挑戰(zhàn)是什么？慢且貴。視頻是娛樂(lè)、教育和打動(dòng)觀眾的最佳途徑。隨著視頻內(nèi)容生成效率的提升，用戶完全可以在幾分鐘內(nèi)就生成一段視頻，同時(shí)，同一段視頻素材也可以反復(fù)使用。LipDub開(kāi)發(fā)的口形同步技術(shù)（Lip Sync）實(shí)際上用到三種方案：一是直接對(duì)視頻翻譯，比如給出一段英文演講視頻，然后用中文演示，就好像演講者在講中文；二是通過(guò)定制虛擬形象進(jìn)行對(duì)話調(diào)整，比如在廣告場(chǎng)景，許多品牌在全球各地都有不同的產(chǎn)品名稱(chēng)表達(dá)，但希望使用同一支商業(yè)廣告，就需要對(duì)廣告中特定的產(chǎn)品名稱(chēng)進(jìn)行更改；三是通過(guò)一段語(yǔ)料實(shí)現(xiàn)角色的量身定制，即針對(duì)同一件事物，針對(duì)不同的受眾群體生成不同的個(gè)性化表達(dá)。

顯然，我們今天討論的AI將是一個(gè)技術(shù)拐點(diǎn)。人們正投入大量資金在AI上，希望AI能夠更便捷、更經(jīng)濟(jì)使用，能夠規(guī)?；鲩L(zhǎng)和快速迭代，并且在特定行業(yè)里吸引到受眾和投放市場(chǎng)。

隨著AI技術(shù)的發(fā)展，生成式AI已經(jīng)演進(jìn)到文生圖、圖生視頻的模式。在此技術(shù)驅(qū)動(dòng)下，我們著手基于生成式AI技術(shù)實(shí)現(xiàn)了視頻生成。對(duì)于營(yíng)銷(xiāo)人員或內(nèi)容創(chuàng)作者而言，幾乎只需要10分鐘就可以對(duì)某個(gè)想法實(shí)現(xiàn)視頻生成，從而快速驗(yàn)證視頻效果。

目前LipDub生成式AI應(yīng)用分為初級(jí)和高級(jí)模式。在高級(jí)模式中，開(kāi)發(fā)人員需要先對(duì)項(xiàng)目命名，并選擇源語(yǔ)言和目標(biāo)語(yǔ)言。其次，上傳視頻并添加訓(xùn)練素材。一旦通過(guò)，將對(duì)角色面部進(jìn)行自動(dòng)檢測(cè)打標(biāo)，只有標(biāo)注后的素材才能用于AI訓(xùn)練。最后，上傳音頻，與對(duì)應(yīng)角色進(jìn)行匹配，最終生成視頻?？深A(yù)覽和下載保存。

在初級(jí)模式中，用戶只需上傳視頻，在對(duì)視頻進(jìn)行預(yù)處理后，點(diǎn)擊創(chuàng)建配音。選擇自己的音頻素材或內(nèi)置翻譯功能，可一鍵生成配音效果。

最后，展示一下我們?cè)谧龅男鹿δ?mdash;—替換對(duì)話框（Replace Dialogue），類(lèi)似文本到語(yǔ)音（text-to-audio），這類(lèi)平臺(tái)這些有很多，但如果輸出的不是你想要的結(jié)果怎么辦？比如你想修改一個(gè)單詞，但跨語(yǔ)言轉(zhuǎn)換會(huì)有細(xì)微差別。你們用中文聽(tīng)到的某個(gè)詞，可能轉(zhuǎn)換為英文就翻譯不出來(lái)。我們要確保能夠恰當(dāng)?shù)赜昧硪环N語(yǔ)言傳遞這種情感。

非常感謝大家的邀請(qǐng)。期待下月與全球用戶分享該項(xiàng)功能。（本文首發(fā)于鈦媒體APP）

本文系作者 TechHorizon 授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào)，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

快報(bào)