您現在的位置是：創(chuàng)投 > > 正文

【全球時快訊】GAN卷土重來：10億參數的GigaGAN效果堪比擴散模型

時間：2023-06-17 09:05:41 來源：程序員客棧發(fā)布者：DN032

(資料圖片)

點藍色字關注“機器學習算法工程師”

設為星標，干貨直達！

自從 DALL·E 2 之后，在圖像生成方面擴散模型替代GAN成了主流方向，比如開源的文生圖模型stable diffusion也是基于diffusion架構的。近日， Adobe研究者在論文Scaling up GANs for Text-to-Image Synthesis提出了參數量為10億（1B）的GAN模型：GigaGAN，其在文生圖效果上接近擴散模型效果，而且推理速度更快，生成512x512大小圖像只需要0.13s，生成16M像素圖像只需要 3.66s。同時GigaGAN也支持latent空間的編輯功能，比如latent插值，風格混合，以及向量運算等。

GigaGAN

改進了StyleGAN架構，采用兩階段訓練策略：一個是64x64的圖像生成器和一個512x512的圖像超分2器，其圖像生成器架構如下所示（這里也是采用CLIP text encoder來引入text condition）：

GigaGAN

在 LAION2B-en和 COYO-700M數據集上訓練，其在COCO數據集上的FID達到9.09，超過stable diffusion 1.5，推理速度比stable diffusion快20倍多（2.9s vs 0.13s）：

GigaGAN

除了文生圖能力，還可以實現可控的合成，比如風格混合，如下圖所示：

更多效果圖和技術細節(jié)見論文https://arxiv.org/abs/2303.05511和網站https://mingukkang.github.io/GigaGAN/

標簽：

搶先讀

熱文推薦

精彩放送

<button id="ywwaw"></button>

亚洲精品无码乱码成人|最近中文字幕免费大全|日韩欧美卡一卡二卡新区|熟妇性饥渴一区二区三区|久久久久无码精品国产AV|欧美日韩国产va在线观看|久久精品一本到99热动态图|99国产精品欧美一区二区三区

首頁

資訊

熱點

專題

地產

創(chuàng)投

教育

財經

汽車

股票

產經

金融

【全球時快訊】GAN卷土重來：10億參數的GigaGAN效果堪比擴散模型

搶先讀

相關文章

熱文推薦

精彩放送