腾讯发布ELLA，让SD模型提示词理解能力更强

腾讯昨日重磅推出了一款名为ELLA的创新项目，这是一款高效的大语言模型适配器，它具备无需额外训练即可强化现有SD模型对提示词理解能力的独特优势。ELLA将大语言模型的强大功能与文本到图像的扩散模型相结合，显著提升了模型在处理文本对齐任务时的效能，而无需对U-Net或大语言模型进行额外的训练。

您可以通过以下链接访问该项目：https://top.aibase.com/tool/ella

为了顺畅地集成两种预训练模型，项目团队深入探索了多种语义对齐连接器的设计方案，并最终提出了一种创新的模块——时间步感知语义连接器（TSC）。这个连接器能够根据时间步的推进，动态地从大语言模型中提取条件，进而协助扩散模型在去噪的不同阶段更好地理解和处理长而复杂的文本提示。

ELLA的设计使其能够轻松集成到各种社区模型和工具中，进而增强它们对复杂提示的遵循能力。为了评估文本到图像模型在处理密集提示方面的性能，项目团队还引入了一个名为密集提示图基准（DPG-Bench）的新挑战，该基准包含了1000个密集的提示。

经过一系列的实验验证，研究人员发现，在处理包含多对象、不同属性和复杂关系的提示时，ELLA在密集提示遵循方面的表现超越了目前最先进的方法。这一项目的发布不仅为文本到图像模型的发展开辟了新道路，也为未来的研究与应用提供了新的启示和思路。

文章版权归作者所有，未经允许请勿转载。

1,969 5

2,039 5

1,912 5

1,754 5

2,487 8

1,904 7