没等来OpenAI,却迎来了Open-Sora全面开源:引领视频生成新纪元
近日,OpenAI Sora 凭借其出色的视频生成效果迅速走红,在众多文生视频模型中脱颖而出,成为全球瞩目的焦点。继两周前推出成本直降46%的Sora训练推理复现流程后,Colossal-AI团队再次引领潮流,全面开源了全球首个类Sora架构的视频生成模型“Open-Sora1.0”。这一开源项目涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,旨在携手全球AI爱好者共同推进视频创作的新纪元。
为了让大家先睹为快,Colossal-AI团队发布了一段由“Open-Sora1.0”模型生成的都市繁华掠影视频。这段视频充分展示了Open-Sora1.0在视频生成方面的强大能力,将城市的繁华景象展现得淋漓尽致。
这仅仅是Sora复现技术的冰山一角。关于文生视频的模型架构、训练好的模型权重、复现的所有训练细节、数据预处理过程、demo展示和详细的上手教程,Colossal-AI团队已经全面免费开源在GitHub上。同时,该团队表示将不断更新Open-Sora的相关解决方案和最新动态,感兴趣的朋友可以持续关注Open-Sora的开源社区。
接下来,我们将深入解读Sora复现方案的多个关键维度。首先是模型架构设计,Open-Sora采用了目前火热的Diffusion Transformer(DiT)架构。作者团队以同样使用DiT架构的高质量开源文生图模型PixArt-α为基座,在此基础上引入时间注意力层,将其扩展到了视频数据上。整个架构包括一个预训练好的VAE、一个文本编码器和一个利用空间-时间注意力机制的STDiT模型。其中,STDiT采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块,用于建模时序关系。这种结构大大降低了训练和推理开销,同时可以更好地利用已经预训练好的图像DiT的权重。
在训练复现方案方面,Open-Sora采用了多阶段训练策略,包括大规模图像预训练、大规模视频预训练和高质量视频数据微调三个阶段。每个阶段都会基于前一个阶段的权重继续训练,通过逐步扩展数据来更高效地达成高质量视频生成的目标。在第一阶段中,团队利用大规模图像数据和先进的文生图技术训练了一个高质量的文生图模型作为初始化权重;在第二阶段中,他们加入了时序注意力模块以学习视频中的时序关系,并加载第一阶段权重作为初始化;在第三阶段中,他们使用高质量视频数据进行微调以进一步提升模型性能。
此外,Open-Sora还采用了高效训练优化策略,包括使用混合精度训练、梯度累积等技术来加速训练过程并降低显存消耗。这些优化策略使得Open-Sora能够在有限的计算资源下实现高效的视频生成。
总的来说,Open-Sora的开源和复现为全球AI爱好者提供了一个强大的视频生成工具,将有力推动视频创作领域的发展。我们期待看到更多基于Open-Sora的创新应用和研究成果涌现出来。