Hugging Face推出aMUSEd模型:几秒钟内快速生成AI图像
AI图像生成模型面临的最大挑战:速度
AI图像生成模型在生成图像时往往需要较长的时间,例如使用ChatGPT或Stable Diffusion可能需要几分钟。就连Meta的CEO马克·扎克伯格也在去年的Meta Connect大会上抱怨了图像生成的速度问题。
为了解决这一问题,Hugging Face团队推出了一款名为aMUSEd的新模型,这款模型能够在短短几秒钟内生成图像,极大地提升了速度。
aMUSEd是一款轻量级的文本到图像模型,基于谷歌的MUSE模型,参数规模约为8亿。由于其独特的构建方式,aMUSEd可以快速生成图像。该模型采用了Masked Image Model(MIM)架构,不同于Stable Diffusion和其他图像生成模型中的潜在扩散方法。
Hugging Face团队表示,MIM架构减少了推理步骤,提高了模型的生成速度和可解释性。同时,由于其小巧的尺寸,使得运行速度非常快。
用户可以通过Hugging Face上的演示来尝试aMUSEd。目前,该模型以研究预览版的形式提供,使用OpenRAIL许可证,这意味着可以进行实验或调整,同时也对商业应用友好。
尽管aMUSEd生成的图像质量还有待提高,但Hugging Face团队表示,发布这款模型是为了鼓励社区探索像MIM这样的非扩散框架在图像生成方面的应用。
此外,aMUSEd模型还具有零样本图像修复功能,这是Stable Diffusion XL所无法实现的。在训练过程中,Hugging Face团队使用了名为VQGAN(Vector Quantized Generative Adversarial Network)的工具,将输入图像转换为一系列标记。然后部分屏蔽这些标记,模型通过文本编码器基于未屏蔽部分和提示来预测屏蔽部分。在推理过程中,文本提示通过相同的文本编码器转换为模型可理解的格式。aMUSEd从一组随机屏蔽的标记开始,逐步完善图像。
经过一定的完善步骤后,模型的预测通过VQGAN解码器处理,生成最终的图像。此外,aMUSEd还可以在自定义数据集上进行微调。Hugging Face展示了使用8位Adam优化器和float16精度微调的模型,整个过程仅使用了不到11GB的GPU VRAM。用户可以在GitHub上访问训练脚本:https://github.com/huggingface/diffusers/blob/main/examples/amused/train_amused.py。
总的来说,aMUSEd为AI图像生成领域带来了新的突破,尤其是在速度和可解释性方面。尽管还有改进空间,但这一模型无疑为未来的研究和应用奠定了坚实的基础。