(圖片來源:unsplash)

近日,“EYE ON AI”創(chuàng)始人、鈦媒體AGI平臺美國特約作者Craig Smith,與締造海外AI語音產(chǎn)品LipDub背后的創(chuàng)業(yè)公司Monsters Aliens Robots Zombies(MARZ)聯(lián)合創(chuàng)始人馬特·佩諾西斯(Matt Penousis)進行近一小時的對話,探討 AI 視覺與音頻領(lǐng)域的發(fā)展狀況與落地效果。

Matt表示,觀看《魷魚游戲》后,團隊意識到可以解決口型與音頻不同步的問題,于是開發(fā)了LipDub,旨在自動同步口型與新的配音音軌。而截至目前,LipDub不僅服務(wù)于好萊塢,還擴展到廣告、在線教育、YouTube這類在線視頻等多個領(lǐng)域。

對于中國市場,Matt認為,中國是一個巨大的市場,尤其是考慮到中國擁有眾多的方言和語言,這為LipDub技術(shù)提供了廣闊的應(yīng)用空間。但他也認為,中國在AI音頻技術(shù)上的迅猛進步,最終導(dǎo)致其在這一領(lǐng)域也在與美國等國家進行積極的探索和競爭。

Matt提到,除了幫助英語內(nèi)容進入非英語市場外,LipDub也可以幫助中文內(nèi)容進入英語和其他語言市場,打破文化和語言障礙。比如,有一些中國公司展示了讓特朗普說中文的視頻,雖然當時只是聲音克隆,但這也顯示了中國在這一領(lǐng)域的技術(shù)實力。

Matt強調(diào),AI 音頻技術(shù)具有廣闊場景,需要市場不斷加大對AI音頻技術(shù)的關(guān)注。“我們絕對認為,LipDub 是一款很棒的產(chǎn)品,它在世界上為我們占有一席之地。隨著公司的發(fā)展,我們將進行大量新產(chǎn)品開發(fā),我們的重點是讓個人可以參與并發(fā)揮這種創(chuàng)造力。盡管我們有一些很酷的想法,但確實在努力保持專注,至少現(xiàn)在是這樣,LipDub不會是我們推出的最后一個產(chǎn)品。”

以下是Craig Smith與Matt Penousis的對話速記,由鈦媒體AGI經(jīng)授權(quán)編譯如下:

Craig:好的。那么馬特,請先自我介紹一下呢?請告訴我們一些您的背景以及您是如何加入 LipDub 的。

Matt:當然。我叫馬特·佩諾西斯 (Matt Penousis),是Monsters Aliens Robots Zombies聯(lián)合創(chuàng)始人。

此前我是一名律師,開始了我的第一次。在法學(xué)院畢業(yè)之后,如今進入了軟件企業(yè)。所以,我學(xué)習(xí)的知識與我們今天在這里所做的工作無關(guān)。此前創(chuàng)立了一家名為Acto的電子學(xué)習(xí)公司,花了五年的時間。

后來,在Acto上的工作就結(jié)束了。然后,我現(xiàn)在的合伙人的兩個合伙人創(chuàng)辦了一家視覺效果公司,我對此很感興趣。我對這個空間一無所知。我們是如何到達 LipDub 的?

第一階段是我們所處的階段,我們正在為一家視覺效果公司工作,我們看到了好萊塢對更快、更便宜的視覺效果的需求。因此,我們開始問自己,怎樣才能以更快的速度、更好的價格、并且不犧牲質(zhì)量來進行視覺特效工作或視覺效果工作。我們很早就認識了。

早在 2018 年,我們就開始考慮,如果我們要做出改變,或者為好萊塢提供真正差異化的產(chǎn)品,我們就需要投資于創(chuàng)新,而考慮到這些目標,當時 AI 似乎是我們值得信賴的正確創(chuàng)新。做出決定后,我們就開始尋找應(yīng)用。因為當你與好萊塢合作時,你會做很多不同的事情。你可能正在為《怪奇物語》制作一個生物,或者你可能正在讓多倫多的天際線看起來像紐約的天際線,或者你可能正在使某人變老,或者你可能正在創(chuàng)建一個波浪模擬。

視覺效果是一個如此廣泛、如此籠統(tǒng)的術(shù)語,如果你想在這個領(lǐng)域嘗試和創(chuàng)新,那么你真正選擇一個你想要自動化的應(yīng)用是非常重要的。我們正在尋找廣泛應(yīng)用,因為好萊塢的 AI 產(chǎn)品研發(fā)工作非常密集,你當然不想花費數(shù)年時間來構(gòu)建和自動化幾乎不出現(xiàn)或出現(xiàn)的用例十分之一的項目。您確實在尋找出現(xiàn)在絕大多數(shù)項目中的用例。

隨后,我們決定投資的第一個應(yīng)用程序叫做Vanity AI(虛榮)。我們喜歡它的原因是,數(shù)字化妝和抗衰老確實出現(xiàn)在絕大多數(shù)好萊塢項目中。與此同時,我們覺得Vanity AI 顯然早于今天所處的新一輪 AI 熱潮,但我們覺得技術(shù)已經(jīng)足夠好以適應(yīng)這種用例。

因此,我們MARZ建立并使用了一個內(nèi)部 AI 工具,它可以縮短視覺特效藝術(shù)家進行數(shù)字化妝或去老化鏡頭所需的時間。因此,以前五秒的鏡頭可能需要視覺特效藝術(shù)家半天的時間,根據(jù)客戶的要求以及你要改變臉部的程度,可能需要藝術(shù)家兩三天的時間。所以 Vanity 將平均每次拍攝時間縮短為 25 分鐘。

所以這是我們的第一次嘗試,基本上我們已經(jīng)在處理臉部,他們稱之為深度面部編輯。

不久之后,《Squid Game》(魷魚游戲)就問世了。我們大多數(shù)人都觀看了這個系列,這是一個精彩的故事,但顯然,嘴唇和音頻之間缺乏同步,使我們脫離了體驗。

因此,我們認為,這可能是一個需要解決的非常有趣的問題。而今天,我們通過LipDub創(chuàng)建這種高度自動化的視覺效果應(yīng)用程序。而唇音配音背后的最初論點是,通過自動將唇音與輸入系統(tǒng)的任何新配音音軌同步,讓好萊塢配音第一次看起來真實。

這就是我們開始做LipDub的原因,顯然現(xiàn)在我們已經(jīng)進入市場了。就我們?nèi)绾螌崿F(xiàn)這一目標而言,這就是一種演變歷史。

Craig:是的。當你說這是一個需要解決的問題時,其實還有其他技術(shù)和解決方案。我想到了 Rask AI,但它們并不那么精確。從我對唇配音和好萊塢的理解來看,更精確的解決方案是你們與其他公司的不同之處嗎?

Matt:是的。所以對我們來說,就像好萊塢一樣,顯然你要解決的質(zhì)量標準是盡可能高的。因此,很多東西需要在一定水平上工作才能可用。所以顯然,銜接必須是完美的。紋理的保真度和您操作的分辨率必須是。好萊塢級別,現(xiàn)在通常是 4k,紋理的保真度必須非常出色。如果你有胡子,如果我們對你進行口型配音,我們將在這里做,我們希望能夠看到你胡子上的每一縷頭發(fā)。因此,我們解決這個問題的一個重要要求是面部的清晰度、紋理和紋理保真度。

另一個明顯的事實是,在好萊塢,很少有事情只是單一身份看著屏幕,而是人們跑過,逃離燃燒的建筑物,以及有 10 個角色說話而人們將頭轉(zhuǎn)向的場景。側(cè)面和燈光正在變化。因此,我們投入大量研發(fā)工作的真正原因不僅是能夠做出出色的清晰度和高分辨率、高保真度紋理,而且還能夠制作困難的內(nèi)容,或者我們在內(nèi)部稱之為動態(tài)內(nèi)容。

因此,當您考慮市場上的其他工具時,Rask 就是一個例子,有趣的是,這些工具是從音頻方面開始的,因此它們的最初目的是自動化方程式的配音方面,而我們從不擔心這一點,因為之前好萊塢為我們提供音軌,具有更多的高級音頻效果。

現(xiàn)在,一些音頻公司已經(jīng)開始努力進行口型同步。因此,我們提供一應(yīng)俱全的本地化解決方案,但我們的區(qū)別在于,當您使用 LipDub 時,您將獲得市場上最好的清晰度、市場上最好的分辨率,并且您的創(chuàng)造力不受限制。您可以使用 LipDub 做任何事情。你可以做人移動,你可以做人以側(cè)面姿勢說話,你可以做物體干擾,物體經(jīng)過臉部。而且,老實說,我認為這些都是大問題。無論您做什么,無論您的視頻內(nèi)容涉及什么,您都不受限制。而大多數(shù)此類消費級系統(tǒng)甚至連基本功能都難以解決。

Craig:是的,那么您的解決方案或您的平臺如何與現(xiàn)有的配音解決方案集成?顯然我認為Eleven Labs 是目前的領(lǐng)導(dǎo)者或者 DeepDub,那么,您談到了這些全面的解決方案,對于更高的消費級產(chǎn)品,您是否打算將配音、部分添加到您的平臺上?

Matt:是的。這當然是我們經(jīng)常談?wù)摰氖虑?。因此,今天我們大多?shù)好萊塢以外的客戶,以及廣告商客戶,他們要么為自己的員工提供在線教育,要么比方說在 YouTube 頻道、廣告代理商上銷售課程,我們意識到其中有很多,很多這些用戶確實也需要解決音頻問題。

廣告在某種程度上是一個例外。他們?nèi)匀焕谜鎸嵉呐湟?,但你可以看到他們實際上開始轉(zhuǎn)向這些真正經(jīng)濟的解決方案我們今天與現(xiàn)有客戶的方法是去購買 Deep Dub,去購買 Eleven Labs,然后使用我們。

我認為,我們未來的發(fā)展方向是我們可能會成為一種工具,但還沒有決定到底是哪一個。然而,我們有很多客戶要求一站式服務(wù),并不是說使用兩個軟件,因此我們這一套方案是對市場有利的。

Craig:那么,用于匹配嘴唇運動或操縱視頻中像素的算法的流程、技術(shù)流程是什么?產(chǎn)品本身是如何工作的?

Matt:無法透露太多,因為我們所做的很多事情以及使我們與眾不同的原因,過去兩年多的時間里,我們公司做了很多技術(shù)和專業(yè)工作,它的運作方式類似于 Dropbox。

如果你就擁有了一份原創(chuàng)文件,假設(shè)其是用英語制作的,而您希望以普通話為目標。這正是我們在這個播客中要做的事情。Liptub上的產(chǎn)品過程非常簡單。您可以在media上傳后,系統(tǒng)要做的第一件事是實際檢測并跟蹤在媒體中找到的所有面孔。然后,它會提示用戶繼續(xù)標記所找到的面孔,一旦標記完畢,LipDub 就會了解身份。對于一個小時的內(nèi)容來說,上傳媒體和標記的過程可能需要大約 20 分鐘的預(yù)處理時間。

一旦你有了經(jīng)過處理的視頻,你所要做的就是在中間進行一個訓(xùn)練步驟。所以,我們的系統(tǒng)所做的就是實際訓(xùn)練,得到增強的配音效果和匹配效果,這是我們計算過程中最長的部分。而過去需要10個小時的時間,現(xiàn)在我們已經(jīng)減少到2小時,并且我們將繼續(xù)努力縮短時間。最后,將新的音頻文件與這些揚聲器相關(guān)聯(lián),這是一個簡單的拖放操作。

對我來說也是如此。這就是平臺上的一般流程。

Craig:這個平臺正在做的是逐幀操作的音視頻對齊,那么這是用補丁完成的嗎?如何替換大面積的像素,以及它如何與音頻中嘴唇的閉合或張開相關(guān)聯(lián)?

Matt:是的。所以我們生成的幾乎是眼睛下方的所有東西。這是基于音頻的重建,隨著時間的推移,我們不斷進行修改,并且不斷發(fā)展。就系統(tǒng)的工作原理而言,大多數(shù)人都能弄清楚其中的一些顯現(xiàn)層面,再說一次,音素的數(shù)量是有限的,然后是與這些音素相關(guān)的雙音素正完成映射。但這才是真正開始。

我們很早就認識到口腔內(nèi)部結(jié)構(gòu)的重要性。我們說話的大部分內(nèi)容,實際上不是我們的嘴唇,而是我們的舌頭,而是我們的牙齒。有些單詞幾乎完全是由我們的舌頭產(chǎn)生的,所以你可能有兩個非常相似的嘴形。但不同的舌頭和牙齒位置會產(chǎn)生不同的聲音。這對我們來說是一個巨大的挑戰(zhàn),我們要弄清楚如何正確地處理口腔內(nèi)部結(jié)構(gòu)?然后就是如何個性化?你如何確保我正在重建的內(nèi)容不只是看起來像任何一組嘴唇或隨機的一組嘴唇或嘴唇的代理,你如何使它看起來完全像說話者,然后你就繼續(xù)前進解決這個問題的長尾問題。

Craig:是的。我們討論了現(xiàn)有的消費級產(chǎn)品。我們要用中文來做這件事,我在中國有觀眾。中國人有類似的解決方案嗎?因為很多時候,他們正在與美國的解決方案進行最前沿的競爭。

Matt:是的,現(xiàn)在有相當多的產(chǎn)品,它對我們來說是有效的,因為。我們覺得從很多方面來說,我們都是這個類別的開創(chuàng)者。有一家公司在口型同步方面比我們早,但他們并不專注于自動化,這對我們來說非常重要,不是為了自動化而自動化,但我們總覺得即使我們可以口型同步,如果需要太長時間或者如果成本太高,就會限制大多數(shù)用例的可訪問性。

因此,就全球第一批真正實現(xiàn)在這種質(zhì)量水平上運行的東西的自動化而言,就像我們真的覺得我們推出了這個類別一樣,是的,當然現(xiàn)在我們看到一群人進來并稱他們?yōu)榭焖僮冯S者公司。不同之處在于,這些公司中的大多數(shù)只是包裝者。

他們只是圍繞開源和中國市場。當然,它們本質(zhì)上受到開源以及開源所能帶來的限制。兩年前,我們開始使用開源,但剛剛意識到它甚至沒有讓我們接近我們需要達到的目標。但目前,我們沒有看到任何中國的競爭對手。

Craig:我問起中國的原因是,有一個著名的視頻,我認為這是感知時間或我飛行科技。我不記得是哪一個了。中國公司推出了特朗普用中文說話的內(nèi)容,這讓當時的所有人都感到震驚,這是一個聲音克隆,但口型同步并不存在。所以我想知道,中國人是否已經(jīng)解決了假唱部分。對于您口型同步的視頻的每一分鐘或一小時,這個過程需要多長時間,或者像您所說的那樣,根據(jù)場景的動態(tài)程度而變化,需要多少分鐘或幾小時?

Matt:是的,粗略地說,您想要在平臺上生成的每一分鐘新內(nèi)容,現(xiàn)在可能需要10-20分鐘。雖然它不是線性的。這并不是說您在系統(tǒng)中運行一小時的內(nèi)容,隨著內(nèi)容的移動,速度會變得更快。但因為我們以可擴展的方式構(gòu)建了一切。所有這些過程??梢圆⑿羞M行。

舉個例子,如果我們將這次對話口譯成十種語言。您可以在云端同時生成所有 10 個新視頻,并且您可能會猜測,是的,它可能會在一個小時內(nèi)平均達到每分鐘 10 分鐘左右。不包括培訓(xùn)。訓(xùn)練是這樣的,你必須做兩個小時,你做一次。您不必針對每種語言執(zhí)行此操作。您只需執(zhí)行一次即可真正了解紋理。然后,是的,您看到的可能是每分鐘 10 分鐘左右。

Craig:是的。成本擺在那里,你如何定價?是訂閱模式嗎?還是說按分鐘收費或如何收費?

Matt:是的,你說得完全正確。所以這是一種訂閱模式。

它的工作原理是您在平臺上預(yù)先購買積分。您可以每月購買積分,也可以每年購買積分。如果您每月購買積分,這是一種“使用或丟失”模型,您將獲得當月分配的積分,而未使用的積分將在月底到期。如果您每年支付積分,您將預(yù)先獲得所有年度積分,并且可以在一年中隨時需要時靈活地使用這些積分。信用的價格是 1 美元。不同之處在于您消耗的積分數(shù)量取決于您在平臺上運行的活動。

例如,生成 1080p 輸出視頻將比生成 4K 視頻消耗更少的積分。

Craig:那誰是主要用例?你們?yōu)楹萌R塢打造了這個。但在我看來,隨著語音克隆和實時翻譯的發(fā)展,各個領(lǐng)域?qū)@種解決方案的需求將會越來越高。

Matt:是的,這就是我們興奮的原因。 LipDub 很有價值,需要有一些你想要關(guān)聯(lián)的新配音音頻,而從歷史上看,配音一直是一個非常手動、非常昂貴的過程,實際上大多數(shù)情況下只有好萊塢和廣告商使用。

現(xiàn)在,配音正在成為一項非常負擔得起、非常容易實現(xiàn)的任務(wù)。世界上有多少內(nèi)容即將被配音。目前,世界上只有 1% 的視頻內(nèi)容經(jīng)過配音。但同樣,這是基于這樣一個想法:配音一直是一項非常手動、非常昂貴的任務(wù)。如果現(xiàn)在每分鐘配音只需幾美分,那么全球互聯(lián)網(wǎng)內(nèi)容的配音比例將達到多少?我們強烈認為,任何配音的東西都應(yīng)該對口型。那么回到你最初的問題,誰是用戶?這是一場持續(xù)不斷的對話。

YouTube市場讓我非常興奮,真的非常非常興奮。目前有很多證據(jù)表明這一點。來自那些早期采用者、創(chuàng)新的《野獸先生》(MrBeast)YouTuber選擇進行配音。為期兩年的實驗得出的統(tǒng)計數(shù)據(jù)表明,全球?qū)@種內(nèi)容有巨大的需求。

Craig:是的,實際上,我沒有意識到MrBeast為他的視頻選擇 AI 配音。他配音成什么語言?

Matt:他一開始是 15 個,他會增加到 30 個。而他在人工智能音頻技術(shù)出現(xiàn)之前就開始了他的實驗。因此,最初他付錢給傳統(tǒng)的配音工作室來做這項工作,他并沒有發(fā)布他所有的績效指標,但他發(fā)布了某些月份作為例子,并且他 50% 以上的觀點是通過配音得到的。

Craig:您是否正在與他合作,或者 YouTube 是否可以將其集成到 YouTube 工作室中,以便人們只需單擊按鈕即可對口型配音音頻。

Matt:是的,所以我們正在與MrBeast合作。而且,我們開始探索一些唇形同步的工作。我們最近還為該平臺引入了許多其他主要的 YouTube 主播。這些人要么是已經(jīng)配音了內(nèi)容,要么只是看到了趨勢,想要立即開始本地化他們的頻道。因為確實如此。

相對而言,它確實代表了LipDub的成果。本地化是實現(xiàn)這一目標的好方法。這不是唯一的市場,但我對這個市場特別興奮,因為我真的像世界一樣相信,我們沒有理由只看說我們語言的有影響力的人。

我認為人們到處都在制作有趣的內(nèi)容。你只要縱觀整個媒體領(lǐng)域,就會發(fā)現(xiàn)有這種需求。我現(xiàn)在就是一個例子,我真的很喜歡幕府將軍,我認為這太棒了。魷魚游戲太棒了。我們現(xiàn)在還與一些 YouTuber 合作,他們是世界其他地區(qū)的主要影響者,他們確實有興趣首次進軍北美市場。

而且,字幕是歷史上所做的方式,只是它不是很吸引人,現(xiàn)在突然間您就可以擁有一個 YouTube 頻道,您可以在其中提供世界上每個國家的語音效果、一流的觀看體驗,就像是為您量身定做的一樣。我對此感到非常興奮。

同時,現(xiàn)在正在傾斜的市場是廣告,無論是數(shù)字營銷還是電視廣播,都是一個非常大的市場。許多簽約客戶要么是廣告公司,要么是他們的視頻制作公司。我們剛剛做了一個電視廣告,可能是我最喜歡的科技品牌。很快就會出來。我們很快就能討論這個問題,但這確實令人興奮。

另外,在線教育也是重要的覆蓋領(lǐng)域,無論是針對您的員工,假設(shè)您是一家在世界各地擁有員工的跨國公司,能夠與您的國際員工或銷售課程的人員進行溝通進入新市場,對嗎?我們現(xiàn)在有一些人擁有有意義的課程負擔,非常成功的公司,但只在他們的地區(qū)取得成功。現(xiàn)在,他們將 LipDub 視為進入新市場和發(fā)展業(yè)務(wù)的一種機制。

我認為這是一種令人興奮的發(fā)展方式。

Craig:這是雙向的。有些人用英語制作內(nèi)容,希望進入非英語市場,但內(nèi)容數(shù)量巨大。我在中國的大部分時間都是用中文度過的,這是英語世界從未見過的。坦率地說,這就是我認為兩國之間存在理解差距的原因之一,因為人們只是沒有接觸到中文,從您的角度來看,大部分內(nèi)容、大部分市場都是將英語內(nèi)容翻譯成其他語言,您認為原因是什么?

Matt:確實兩者都是。無論哪種方式,我都沒有看到主導(dǎo)趨勢。對于好萊塢來說,特別是他們最初的用例,他們最感興趣的是外國英語,可能只是因為我們作為說英語的人,我們已經(jīng)沒有耐心了。其他市場例如德國或法國,都是靠配音成長起來的。

所以嘴唇不同步的想法是它并不理想或最佳,但至少他們是伴隨著它長大的。然而我們?nèi)狈δ托?,而且當出現(xiàn)這個問題時我們非常適應(yīng)。所以好萊塢當然對英語的外國文化感興趣,但是當涉及到廣告、在線教育、YouTube 時,我們真的看到了這一切。

查看所有主要歐洲語言:德語、法語、意大利語。看到很多印度語言,比如印地語,普通話是一大類。所以我們確實發(fā)現(xiàn)我們還沒有看到任何一種特定的趨勢突出。只是感覺每個人都想更好地與每個人溝通。

Craig:實時性如何?是否可以想象,最終您將能夠同步和配音實時流媒體內(nèi)容,但會有一些延遲。

Matt:是的,這當然是可以想象的。在實時工作時,通常面臨的挑戰(zhàn)是您通常會做出一些質(zhì)量權(quán)衡。

但現(xiàn)在很多時候,隨著技術(shù)的發(fā)展,舊的權(quán)衡消失了。因此,我們當然對此感興趣,作為未來開發(fā)的未來,因為顯然如果你可以實時進行,你就會開辟很多有趣的用例。到那時,它就真正成為通用翻譯機中的一個重要齒輪。我可以與中國的同事交談,并以一種我以前從未做過的方式與那個人建立聯(lián)系,這一想法顯然非常有趣。然后你就擁有了很多本質(zhì)上是實時內(nèi)容的內(nèi)容。

很多廣播都是現(xiàn)場直播的。盡管我們確實看到該平臺上有一些廣播用例。舉個例子,現(xiàn)在有幾家公司正在對印度所有不同的官方語言進行板球分析。但這些,是的,我認為這真的很酷。印度是一個巨大的市場。

印度就像最好的市場之一,因為有很多方言。通常,您要么必須為每種方言創(chuàng)建內(nèi)容,要么某些方言無法獲得出色的內(nèi)容觀看體驗。因此非??春糜《鹊倪@項技術(shù)。

Craig:挑戰(zhàn)之一不僅僅是嘴唇的張合或牙齒或舌頭的位置,還有措辭,因為翻譯中的某些內(nèi)容可能比英語中的表達時間更長,反之亦然。你怎么處理那件事呢?

Matt:是的,這是一個很好的觀點。我認為這兩個是大多數(shù)人工智能音頻軟件的限制因素。所以首先是翻譯的準確性。有些語言的翻譯準確率比其他語言高得多,我認為這是一個需要解決的問題。

另一個更難解決的是??谡Z和俚語。但我有信心,這是翻譯準確性問題的一個子集,這兩件事都是真正的問題。這就是大多數(shù)人工智能音頻系統(tǒng)中的原因,對嗎?您可以進入并編輯重定向的腳本,但這需要會說該語言的人進入并為此工作,這只會使系統(tǒng)更難以從中獲取價值,對吧?

如果為了讓我將視頻完美地翻譯成 10 種語言,如果我需要每種目標語言的演講者,來審查這些音頻平臺的翻譯,這并不是說這是不可行的。這只是有點煩人和邏輯上的挑戰(zhàn)。

因此,這肯定是當今平臺和使用 AI 音頻的人們所存在的一個問題,他們中的大多數(shù)人都在竭盡全力。真正做這項工作并讓人們了解這些語言。您提到的另一個問題是時間,它是系統(tǒng)中的限制因素。如果您正在聽一段音頻,感覺該音頻的一部分加快了速度,然后又減慢了速度??山邮艿挠^看體驗和最終完全分散您注意力的東西之間只有一線之隔。不過,解決這個問題的方法還是回到腳本編輯部分。如果你有,如果你有英語內(nèi)容要翻譯成西班牙語,開箱即用的西班牙語音頻是 15 秒,但英語是 10 秒。

當然,你可以依靠自動減速、加速,或者你可以實際進入并調(diào)整西班牙語腳本,取出一些單詞,稍微調(diào)整一下。順便說一句,這正是好萊塢所做的。但話又說回來,這太麻煩了。

Craig:但這聽起來像是可以自動化的語言和翻譯。

Matt:是的,我認為這可能是一種有趣的方式。我認為可以捕捉一些原始腳本內(nèi)容的迭代。這個更短,更適合您的視頻,這個是逐字記錄的,但太長了。我并不是說這些都是無法解決的問題。這些只是當今一些人走進平臺并期望完美的限制。

AI音頻軟件非常神奇,但神奇并不意味著完美,神奇也不意味著不需要任何工作。

Craig:顯而易見的問題是音頻隱私和濫用的可能性。那么你們對此有何看法?或者您是否正在考慮在平臺中內(nèi)置這些控件或任何東西來監(jiān)管這種濫用行為?

Matt:這是我們經(jīng)常談?wù)摰氖虑?。我們建立這個項目是為了最終幫助世界更好地溝通,所以我們做了一些事情。我們做的一件事是,我們確保無論您是誰,只要在平臺上單擊一下,您實際上就有權(quán)使用 LipDub 那個人。

我們還抽查通過平臺運行的所有內(nèi)容。如果我們發(fā)現(xiàn)濫用。如果我們看到某個名人正在宣傳我們知道他們沒有宣傳過的東西,那么您將被終身禁止使用該平臺。

這些努力非常耗時,但我們認為是必要的。我認為這在很大程度上最終將取決于那些促進 AI 生成內(nèi)容的人之間的良好合作,以及該內(nèi)容的分發(fā)平臺,有多種方法可以用元數(shù)據(jù)標記這些內(nèi)容,確保任何人工智能生成的視頻內(nèi)容都會被貼上這樣的標簽。

我認為這很重要,因為就你的觀點而言,確實如此。如果我們不這樣做,如果每個人不開始共同努力,那么我認為所有這些新一代 AI 技術(shù)的負面影響將是真實的,可能對社會非常有害。我認為沒有人愿意這樣,新的能力可以完成他們永遠無法想象的事情,從而賦予個人權(quán)力。

Craig:我知道,通過數(shù)字水印或在人眼不可見的像素中嵌入一些圖案,以防止音頻濫用。那你們正在與研究人員討論此類解決方案嗎?

Matt:這正是我所指的數(shù)字水印。我不是我們團隊中真正推動這些討論的人,因為我不是工程師,而且這種技術(shù)遠遠不夠。如果我們希望這些數(shù)字水印是永久性的,它就非常重要。

Craig:是否有人們可以查看的用例?有使用過您的技術(shù)的好萊塢示例或 YouTube 示例嗎?我猜你說的是MrBeast。

Matt:是的,老實說,現(xiàn)在在好萊塢,我們在 LipDub 所做的大部分工作都是他們所說的 ADR。我們的軟件通??赡苄枰M行非常昂貴的拍攝,這就是我們今天與好萊塢合作的工作。坦率地說,該產(chǎn)品需要一個適合好萊塢完成這項工作的成本結(jié)構(gòu)。

其他業(yè)務(wù)層面,我們的許多 YouTuber現(xiàn)在才剛剛起步,因此您很快就會在平臺上看到他們,并且您會開始看到他們的內(nèi)容彈出。然后還有廣告,對吧?我們剛剛為樂事做了一個很棒的大衛(wèi)·貝克漢姆的廣告。我們在哪里進行了更改,在哪里進行了本地化,本地化為不同的語言。

我剛才提到,我們剛剛針對八種語言進行了三項營銷活動。我們的一些客戶再次代表品牌開展工作,無論是為了他們的數(shù)字營銷還是電子學(xué)習(xí)工作。這些指標非常驚人。就收視率和參與率而言,但這些并不是我們必須分享的指標。

Craig:你是如何組建團隊來做到這一點的?創(chuàng)始人是誰?起源故事是什么?你是一名律師,為何會做軟件?

Matt:我也很驚訝。所以這不僅僅是你,是的,這一切都是從我以前的軟件公司開始的,我們沒有做人工智能工作。

在建立團隊的過程中,我很快就學(xué)到了一件事,就像這個團隊的第一次迭代一樣。這當然不是一個質(zhì)量勝過數(shù)量的游戲。有很多人是研究人員。你可以雇一個滿是普通研究人員的房間,你會得到 100 個理由來解釋為什么問題無法解決。而你可以聘請一位令人難以置信的研究人員,他們會給你問題的答案。在 MARZ AI 成立之后,我很快意識到這將是一個嚴肅的項目。如果我們要開發(fā)世界一流的產(chǎn)品,我們就需要世界一流的研究,事實確實如此。

在這其中,找到丹尼爾·科恩-奧(Daniel Cohen-Or). 是關(guān)鍵的一步。丹尼爾是世界上 SIGGRAPH 發(fā)表最多的貢獻者第一。他在特拉維夫大學(xué)的實驗室享譽世界。他們加快了 30 年前作為圖形實驗室起步的步伐,但 10 年前,他們是全球第一批開始問自己這樣問題的團隊之一:深度學(xué)習(xí)將如何影響圖形?

從那時起,他們的實驗室發(fā)布的論文和團隊都在做 AI 技術(shù)研發(fā),包括很多優(yōu)秀的加拿大教授。通過成立顧問委員會方式,與全球 AI 音頻領(lǐng)域的專家進行漫長地聯(lián)系,從而找到一些真正優(yōu)秀的候選人。

最終,我真的把目光投向了丹尼爾,花了八個月的時間才簽下他,擔任公司首席科學(xué)家。但我認為他對這個愿景感到興奮,因為它與他實驗室的工作非常一致。

另外,我還找了阿里·馬達維·阿米里,擔任我們的研究總監(jiān)。他是北美頂尖的圖形計算學(xué)校、加拿大 SFU 的助理教授。一旦我們有了這些人,你就擁有了一個研發(fā)環(huán)境,與全球范圍內(nèi)一些最有才華的人一起在這個領(lǐng)域進行研究,然后它就開始自我發(fā)展。

Craig:你們是在召集顧問委員會之前籌集資金,還是之后再籌集資金?

Matt:我們在籌集資金之前就召集了顧問委員會。然后,我們按照這些思路推出一些東西。我們絕對認為,LipDub 是一款很棒的產(chǎn)品。

我們認為它在世界上為我們占有一席之地,這是一個成長起點。

我認為,隨著公司的發(fā)展,我們將進行大量新產(chǎn)品開發(fā),一直以來,用戶如何從創(chuàng)意的角度賦予個人權(quán)力,讓他們能夠訪問使用過的不同視覺特效應(yīng)用程序采取藝術(shù)家團隊。我們的重點是讓個人可以參與并發(fā)揮這種創(chuàng)造力。像這些事情我們當然還沒有完成。

對于改變,我們有一些很酷的想法,我們正在四處尋找,但我們確實在努力保持專注,至少現(xiàn)在是這樣。比如,研發(fā)的這個 LipDub還遠遠未結(jié)束,它也不會是我們推出的最后一個產(chǎn)品,這是肯定的。

(本文首發(fā)于鈦媒體App)

 

本文系作者 Craig Smith 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

14:59

部分娃哈哈宏勝工廠停產(chǎn),有工廠已放假

14:53

俄外長稱美謀求掌控全球能源市場

14:46

多晶硅價格繼續(xù)下跌,下游價格適當回穩(wěn)

14:43

趙樂際分別會見新加坡總理黃循財、斯里蘭卡議長維克拉馬拉特納

14:39

趙樂際同中外企業(yè)家代表座談

14:36

體育概念異動拉升,舒華體育漲停

14:36

綠電板塊局部異動,寧波能源4天3板

14:35

澳大利亞總理:美以伊戰(zhàn)事沖擊澳能源供應(yīng)安全

14:32

日韓股市收跌

14:31

3月27日全國農(nóng)產(chǎn)品批發(fā)市場豬肉平均價格為15.73元/公斤,比昨天上升0.5%

14:28

海爾新能源增資至4億,增幅約18%

14:25

日本超長期國債收益率繼續(xù)走高

14:14

馬斯克:人工智能將在3年后超過所有人類智能

14:01

滬深京三市成交額超1.5萬億元,較上日此時縮量725億元

13:56

麥格理警告:伊朗戰(zhàn)事若持續(xù)到6月,油價或升至200美元

13:52

中證協(xié)啟動《區(qū)域性股權(quán)市場自律管理與服務(wù)規(guī)范(試行)》評估工作,制度優(yōu)化信號明確

13:46

廣西:積極推進中越跨境鐵路、深水航道和大能力碼頭項目、內(nèi)河工程和集疏運體系等建設(shè)

13:39

工業(yè)氣體概念拉升,凱美特氣漲停

13:39

現(xiàn)貨黃金日內(nèi)漲幅擴大至2%,報4470.58美元/盎司

13:34

都市麗人:2025年公司擁有人應(yīng)占利潤1.23億元,同比下降2.18%

掃描下載App