請(qǐng)輸入圖說

它是一個(gè)分層的VQ-VAE,可以把不同尺度的信息分開處理。

比如,輸入一張256×256圖像,編碼器要把它壓縮進(jìn)不同的潛在空間里:

頂層 (Top Level) 要壓縮成64×64的潛在映射圖,為**全局信息 (比如形狀等) 生成潛碼;

底層 (Bottom Level) 要壓縮成32×32的潛在映射圖,為局部信息 (比如紋理等) 生成潛碼。

然后,解碼器用這兩個(gè)潛在映射圖 (Latent Maps) 中,做出一張與原圖同樣大小的重構(gòu)圖,其中包含了局部和全局信息。

團(tuán)隊(duì)發(fā)現(xiàn),如果不用頂層來(lái)調(diào)節(jié) (Condition) 底層,頂層就需要編碼像素中每一個(gè)細(xì)節(jié)。

所以,他們就讓每個(gè)層級(jí)分別依賴于像素 (Separately Depend on Pixels) :可以鼓勵(lì)A(yù)I在每個(gè)映射圖中,編碼補(bǔ)充信息 (Complementary Information) ,降低重構(gòu)誤差。

而學(xué)到分層潛碼 (Hierarchical Latent Codes) 之后,該進(jìn)入下一部分了:

在從潛碼中學(xué)到先驗(yàn) (Prior) ,生成新圖。

這一部分,是二代與一代最大的區(qū)別所在:把一代用到的自回歸先驗(yàn) (Autoregressive Priors) 擴(kuò)展、增強(qiáng)了。

用當(dāng)前最優(yōu)秀的PixelRNN模型來(lái)為先驗(yàn)建模,這是一個(gè)帶自注意力機(jī)制的自回歸模型,能夠把先驗(yàn)分布 (Prior Distribution) ,和上一部分學(xué)到的邊界后驗(yàn) (Marginal Posterior) 匹配起來(lái)。

這樣,可以生成比從前相干性更高,保真度也更高的圖像。

和第一部分相似:這里也有編碼器和解碼器,可以進(jìn)一步壓縮圖像。

做好之后,從先驗(yàn)里取樣,可以生成新的圖像:和原圖清晰度一致,并且保持了相關(guān)性 (Coherence) 。

兩個(gè)部分合在一起,可以把256×256的圖像,壓縮200倍來(lái)學(xué)習(xí);把1024×1024的高清大圖,壓縮50倍來(lái)學(xué)習(xí)。

團(tuán)隊(duì)說這樣一來(lái),把圖像生成速度提升了一個(gè)數(shù)量級(jí)

在需要快速編碼、快速解碼的應(yīng)用上,這樣的方法便有了得天獨(dú)厚的優(yōu)勢(shì)。

同時(shí),還避免了GAN的兩個(gè)著名缺點(diǎn):

一是mode collapse,即生成某些圖像之后,GAN的生成器和判別器就達(dá)成和解,不再繼續(xù)學(xué)習(xí)了;二是多樣性不足的問題。

作者簡(jiǎn)介

這項(xiàng)研究的作者共有三位,均來(lái)自DeepMind,Ali Razavi和Aäron van den Oord為共同一作,Oriol Vinyals為二作。

Ali Razavi博士畢業(yè)于滑鐵盧大學(xué),此前在IBM、Algorithmics和Google就職過,2017年加入DeepMind,任職研究工程師。

研究員Aäron van den Oord小哥主要研究生成模型,此前還參與Google Play的音樂推薦項(xiàng)目。

2017年,Aäron參與了哈薩比斯項(xiàng)目組關(guān)于Parallel WaveNet的研究,為這篇論文的第一作者。

Oriol Vinyals小哥此前參與了多個(gè)明星項(xiàng)目,比如星際項(xiàng)目、比如AlphaStar,還與圖靈獎(jiǎng)得主Geoffrey Hinton和谷歌大腦負(fù)責(zé)人Jeff Dean一起合作過,合著論文Distilling the knowledge in a neural network。

對(duì)了,最先稱贊BigGAN是“史上最佳GAN”的人,也是他~

傳送門

論文Generating Diverse High-Fidelity Images with VQ-VAE-2地址:

https://arxiv.org/abs/1906.00446

本文系作者 量子位 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

15:45

中金普洛斯REIT 2025年總收入4.23億元

15:44

極智嘉2025年?duì)I收31.71億元,經(jīng)調(diào)整凈利潤(rùn)轉(zhuǎn)正

15:41

近5萬(wàn)美國(guó)人排隊(duì)申請(qǐng)入籍加拿大

15:29

上期所:4月3日(星期五)晚上不進(jìn)行夜盤交易

15:27

鄭商所:4月3日(星期五)當(dāng)晚不進(jìn)行夜盤交易

15:26

崔東樹:2026年1-3月新能源車免稅目錄共有19977款,其中3月有391款新車型

15:14

長(zhǎng)安汽車獲批L4級(jí)Robotaxi測(cè)試牌照

15:13

恒生指數(shù)公司與韓國(guó)交易所推出首個(gè)聯(lián)名港韓跨市場(chǎng)指數(shù)系列

15:12

國(guó)行版蘋果AI突然上線后又被撤回,蘋果回應(yīng):正在積極推進(jìn)落地中國(guó)

15:11

優(yōu)信二手車天津倉(cāng)儲(chǔ)大賣場(chǎng)試運(yùn)營(yíng),全國(guó)線下網(wǎng)絡(luò)擴(kuò)展至第六座

15:10

A股3月收官:三大指數(shù)集體下跌,軌道交通、交運(yùn)設(shè)備板塊走強(qiáng)

15:05

歐洲主要股指開盤多數(shù)下跌,歐洲斯托克50指數(shù)跌0.15%

15:05

國(guó)內(nèi)商品期貨多數(shù)收跌,碳酸鋰跌近8%

14:54

提高準(zhǔn)入門檻,強(qiáng)制性產(chǎn)品認(rèn)證管理辦法征求意見

14:48

張雪機(jī)車銷售稱奪冠后兩三天內(nèi)訂單大漲,已排至6月

14:48

法國(guó)3月CPI同比增長(zhǎng)1.7%,環(huán)比增長(zhǎng)0.9%

14:47

法國(guó)2月PPI同比下降2.4%,環(huán)比下降0.2%

14:46

中東局勢(shì)緊張沖擊全球航運(yùn),大量日本二手車被困海上

14:44

席琳·迪翁生日當(dāng)天宣布回歸歌壇

14:38

諾獎(jiǎng)得主Joel Mokyr、卡塔爾瑪雅莎公主相繼到訪智元

掃描下載App