請輸入圖說

它是一個分層的VQ-VAE,可以把不同尺度的信息分開處理。

比如,輸入一張256×256圖像,編碼器要把它壓縮進不同的潛在空間里:

頂層 (Top Level) 要壓縮成64×64的潛在映射圖,為**全局信息 (比如形狀等) 生成潛碼;

底層 (Bottom Level) 要壓縮成32×32的潛在映射圖,為局部信息 (比如紋理等) 生成潛碼。

然后,解碼器用這兩個潛在映射圖 (Latent Maps) 中,做出一張與原圖同樣大小的重構(gòu)圖,其中包含了局部和全局信息。

團隊發(fā)現(xiàn),如果不用頂層來調(diào)節(jié) (Condition) 底層,頂層就需要編碼像素中每一個細節(jié)。

所以,他們就讓每個層級分別依賴于像素 (Separately Depend on Pixels) :可以鼓勵A(yù)I在每個映射圖中,編碼補充信息 (Complementary Information) ,降低重構(gòu)誤差。

而學(xué)到分層潛碼 (Hierarchical Latent Codes) 之后,該進入下一部分了:

在從潛碼中學(xué)到先驗 (Prior) ,生成新圖。

這一部分,是二代與一代最大的區(qū)別所在:把一代用到的自回歸先驗 (Autoregressive Priors) 擴展、增強了。

用當前最優(yōu)秀的PixelRNN模型來為先驗建模,這是一個帶自注意力機制的自回歸模型,能夠把先驗分布 (Prior Distribution) ,和上一部分學(xué)到的邊界后驗 (Marginal Posterior) 匹配起來。

這樣,可以生成比從前相干性更高,保真度也更高的圖像。

和第一部分相似:這里也有編碼器和解碼器,可以進一步壓縮圖像。

做好之后,從先驗里取樣,可以生成新的圖像:和原圖清晰度一致,并且保持了相關(guān)性 (Coherence) 。

兩個部分合在一起,可以把256×256的圖像,壓縮200倍來學(xué)習(xí);把1024×1024的高清大圖,壓縮50倍來學(xué)習(xí)。

團隊說這樣一來,把圖像生成速度提升了一個數(shù)量級

在需要快速編碼、快速解碼的應(yīng)用上,這樣的方法便有了得天獨厚的優(yōu)勢。

同時,還避免了GAN的兩個著名缺點:

一是mode collapse,即生成某些圖像之后,GAN的生成器和判別器就達成和解,不再繼續(xù)學(xué)習(xí)了;二是多樣性不足的問題。

作者簡介

這項研究的作者共有三位,均來自DeepMind,Ali Razavi和Aäron van den Oord為共同一作,Oriol Vinyals為二作。

Ali Razavi博士畢業(yè)于滑鐵盧大學(xué),此前在IBM、Algorithmics和Google就職過,2017年加入DeepMind,任職研究工程師。

研究員Aäron van den Oord小哥主要研究生成模型,此前還參與Google Play的音樂推薦項目。

2017年,Aäron參與了哈薩比斯項目組關(guān)于Parallel WaveNet的研究,為這篇論文的第一作者。

Oriol Vinyals小哥此前參與了多個明星項目,比如星際項目、比如AlphaStar,還與圖靈獎得主Geoffrey Hinton和谷歌大腦負責(zé)人Jeff Dean一起合作過,合著論文Distilling the knowledge in a neural network。

對了,最先稱贊BigGAN是“史上最佳GAN”的人,也是他~

傳送門

論文Generating Diverse High-Fidelity Images with VQ-VAE-2地址:

https://arxiv.org/abs/1906.00446

本文系作者 量子位 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

19:04

陽光電源:2025年度凈利潤134.61億元,同比增長21.97%

19:00

LME期鋁期貨合約上漲3%,至每噸3,505美元

18:58

兩面針:實際控制人將變更為廣西壯族自治區(qū)國資委,明起復(fù)牌

18:57

春秋航空:控股股東提議3億元-5億元回購股份

18:57

中指研究院:前三個月TOP100房企銷售總額6208.7億元

18:48

雪浪環(huán)境:與7家財務(wù)投資人簽署重整投資協(xié)議

18:47

長春高新:1類治療用生物制品GenSci161注射液臨床試驗申請獲批準 目前國內(nèi)外尚無同類藥物在子宮內(nèi)膜異位癥領(lǐng)域獲批上市

18:33

嘉華股份:實控人籌劃控制權(quán)變更,明起停牌

18:28

順網(wǎng)科技:擬收購紹興未來山海32.34%股權(quán)

18:26

央行:2月同業(yè)拆借日均成交4293.2億元,同比增加87.1%

18:25

美的集團:3月31日回購130.51萬股,耗資約1億元

18:20

二季度國債發(fā)行有關(guān)安排公布,機構(gòu)認為二季度發(fā)行有望放量

18:19

2025年中國保險行業(yè)承保新能源汽車同比增長40.1%

18:18

杭華股份:持股5%以上股東擬減持不超3%股份

18:16

小米集團:3月31日以2.49億港元回購785萬股

18:13

賀青任上海市副市長

18:10

中利集團:2024年一季報、半年報、三季報營業(yè)收入披露不準確,被出具警示函

18:10

國內(nèi)航線燃油附加費上漲通知被撤回

18:05

因涉嫌違反未成年人社交媒體禁令,多家科技巨頭在澳大利亞被調(diào)查

18:04

美國國家航空航天局計劃在4月1日開啟載人繞月任務(wù)

掃描下載App