谷歌推出新型生成式AI模型IGN:单步生成逼真图像
一种新的生成式AI模型——幂等生成网络(IGN)即将来临。与现有的GAN、扩散模型或一致性模型不同,IGN只需单步即可生成逼真的图像,而不需要多步迭代。这一模型旨在成为一个「全局映射器」,可以把任何输入数据映射到目标数据分布。
UC伯克利和谷歌的研究人员最近提出了一种全新的生成模型——幂等生成网络(IGN)。IGN可以从各种各样的输入,比如随机噪声、简单的图形等,通过单步生成逼真的图像,并且不需要多步迭代。这一模型旨在成为一个「全局映射器」,可以把任何输入数据映射到目标数据分布。
IGN与现有的生成模型有两个重要的不同之处。首先,IGN无需单独的生成器和判别器,它是一个「自对抗」的模型,同时完成生成和判别。其次,IGN尝试在单个步中将输入映射到数据分布,而不是像扩散模型那样执行增量步骤。
研究人员在MNIST(灰度手写数字数据集)和CelebA(人脸图像数据集)上评估了IGN的性能。他们使用了28×28和64×64的图像分辨率。实验结果表明,IGN在一次应用中就可以产生连贯的生成结果,但可能会出现一些伪影。再次应用IGN可以纠正这些问题,填充孔洞,或减少面部噪声斑块周围的总变化。这表明,当图像接近学习流形时,再次应用IGN会导致最小的变化。
研究人员还验证了IGN的「全局映射」潜力。他们通过对噪声图像x+n进行去噪、对灰度图像x进行去噪等逆任务来验证IGN的能力。结果表明,IGN能够创建符合原始图像结构的自然映射。连续应用IGN可以提高图像质量。
与现有的生成模型相比,IGN在推理方面更加有效,在训练后只需单步即可生成结果。它们还可以输出更一致的结果,这可能推广到更多的应用中,比如医学图像修复。
总的来说,IGN是一种全新的生成模型,它具有单步生成逼真图像的能力,同时不需要多步迭代。这一模型有望在许多领域中发挥重要作用,包括但不限于图像修复、去噪、超分辨率等。