APE:全开源多模态分割一切的最强模型

APE,一款全开源的多模态分割模型,以其独特的独立建模每个类别名实例的方法脱颖而出。与传统方法将多个类别名联结成一个 Prompt 不同,APE 对每个类别名或描述短语进行独立建模,从而能够学习到不同实例之间的细微差别。此外,通过将 Word-Level Embeddings 压缩为 Sentence-Level Embeddings,APE 有效降低了计算复杂度和内存消耗,同时保持了语义信息的完整性。

在处理不同类型的 Prompt 时,APE 展现了其灵活性和高效性。对于纯类别名的文本特征,APE 采用一种被称为 “zero” 文本 token 的替代方法,以避免过拟合问题;而对于语言描述的文本特征,APE 则采用特定的融合方式,使其与视觉特征在语义层面上得以深度理解。更值得一提的是,APE 通过矩阵乘法计算 Object Embeddings 和 Prompt Embeddings 之间的相似度,从而实现了一次性检测和分割,大大提高了效率。

为了改善分割效果,APE 创新性地提出了统一前景和背景粒度的方法。在这个方法中,背景的不同部分被视作独立的标签,使得模型可以采用统一的架构来训练前景和背景数据,轻松融入大规模的 Class-Agnostic 数据。这一创新有效解决了传统方法在前景和背景冲突上的问题。

APE 在各种检测、分割和指向性检测数据集上都表现出了强大的实力。特别是在 D3 数据集上,APE 的性能明显优于其他方法。在开集检测任务中,APE 在常见数据集上的表现也显著优于其他方法。此外,在开集分割任务和视觉定位任务上,APE 也取得了具有竞争力的结果,甚至在 RoboFlow100 和 ODinW 评测基准上创下了新的 SOTA 记录。

总的来说,APE 是一种具有广泛应用前景的多模态分割模型。其通过独立建模每个类别名实例、压缩 Word-Level Embeddings 为 Sentence-Level Embeddings、采用独特的特征融合方式、通过矩阵乘法进行相似度计算以及统一前景和背景粒度等创新方法,在多个常见数据集上实现了出色的分割效果,并展现了强大的竞争力。我们期待未来能够看到更多关于 APE 的研究,进一步优化和改进其方法,并探索其在其他视觉任务中的应用潜力。

ai工具箱
ai导航
免费aigc导航
aigc工具
免费ai工具

© 版权声明

相关文章