【当前独家】GAN卷土重来：10亿参数的GigaGAN效果堪比扩散模型-万思特网

【当前独家】GAN卷土重来：10亿参数的GigaGAN效果堪比扩散模型

(相关资料图)

点蓝色字关注“机器学习算法工程师”

设为星标，干货直达！

自从 DALL·E 2 之后，在图像生成方面扩散模型替代GAN成了主流方向，比如开源的文生图模型stable diffusion也是基于diffusion架构的。近日， Adobe研究者在论文Scaling up GANs for Text-to-Image Synthesis提出了参数量为10亿（1B）的GAN模型：GigaGAN，其在文生图效果上接近扩散模型效果，而且推理速度更快，生成512x512大小图像只需要0.13s，生成16M像素图像只需要 3.66s。同时GigaGAN也支持latent空间的编辑功能，比如latent插值，风格混合，以及向量运算等。

GigaGAN改进了StyleGAN架构，采用两阶段训练策略：一个是64x64的图像生成器和一个512x512的图像超分2器，其图像生成器架构如下所示（这里也是采用CLIP text encoder来引入text condition）：GigaGAN在 LAION2B-en和 COYO-700M数据集上训练，其在COCO数据集上的FID达到9.09，超过stable diffusion 1.5，推理速度比stable diffusion快20倍多（2.9s vs 0.13s）：GigaGAN除了文生图能力，还可以实现可控的合成，比如风格混合，如下图所示：更多效果图和技术细节见论文https://arxiv.org/abs/2303.05511和网站https://mingukkang.github.io/GigaGAN/

发表于 2023-05-10 12:52:14
阅读 ( 90 )
分类：科技

【当前独家】GAN卷土重来：10亿参数的GigaGAN效果堪比扩散模型

0 条评论

你可能感兴趣的文章

相关问题