Stability AI发布新型视频生成模型——Stable Video Diffusion
Stability AI发布全新视频生成模型Stable Video Diffusion
Stability AI,一家领先的人工智能公司,近日推出了名为Stable Video Diffusion的新型视频生成模型。该模型基于该公司现有的Stable Diffusion文本转图像模型,能够通过对现有图像进行动画化生成视频。与其他AI公司不同,Stable Video Diffusion在开源领域提供了少数几个视频生成模型之一。目前,该模型处于“研究预览”阶段,使用者必须同意特定的使用条款,明确规定了其预期应用领域,如“教育或创意工具”等,同时禁止用于“真实事件或人物的表现”。考虑到过去类似AI研究预览的历史,有可能该模型很快会在暗网上流传,引发对其滥用的担忧,特别是因为它似乎没有内置的内容过滤器。
Stable Video Diffusion提供两个模型,分别为SVD和SVD-XT。其中,SVD将静止图像转换为14帧的576x1024视频,而SVD-XT在相同的架构下将帧数提升至24。这两者都能以每秒3到30帧的速度生成视频。白皮书显示,这两个模型最初在数百万个视频的数据集上进行训练,然后在数十万到百万数量级的较小数据集上进行“微调”。
模型生成的四秒视频片段质量相当高,被认为在某些方面可以与Meta、Google以及其他AI初创公司的视频生成模型相媲美。然而,Stable Video Diffusion存在一些局限性,例如不能生成没有运动或慢速摄像机移动的视频,无法通过文本控制,不能呈现文本(至少不能清晰可辨认),也不能一致地生成面部和人物。
尽管存在这些局限性,Stability AI指出这些模型是相当可扩展的,并可适应生成物体的360度视图等用例。公司计划推出“一系列”建立在SVD和SVD-XT基础上并扩展其功能的模型,以及一款将文本提示引入网络模型的“文本到视频”工具。最终目标是商业化,认为Stable Video Diffusion在“广告、教育、娱乐等领域都具有潜在应用”。
在发布Stable Video Diffusion的同时,Stability AI还面临一系列挑战。据报道,公司最近通过可转债筹集了2500万美元,使其总融资达到1.25亿美元。但是,公司并未以更高的估值完成新一轮融资,最后一次估值为10亿美元。Stability AI曾计划在未来几个月内寻求四倍于此的估值,尽管公司收入较低,烧钱速度较高。在这一时期,Stability AI还面临一次高管离职。公司副总裁Ed Newton-Rex在一份公开信中表示,他因对如何使用版权数据进行争论而离开了公司。这也是公司面临的另一次挫折,因为Newton-Rex曾在稳定AI音乐生成工具Stable Audio的推出中扮演了关键角色。