Table of Contents

Stable Cascade官方概述

评测

该模型基于Würstchen架构构建，与稳定扩散等其他模型的主要区别在于它在更小的潜在空间中工作。为什么这很重要？潜在空间越小，推理速度就越快，训练成本也就越低。潜在空间有多小？稳定扩散使用压缩因子 8，从而将 1024×1024 图像编码为 128×128。Stable Cascade 的压缩系数为 42，这意味着可以将 1024×1024 图像编码为 24×24，同时保持清晰的重建。然后在高度压缩的潜在空间中训练文本条件模型。与稳定扩散 1.5 相比，该架构的先前版本实现了 16 倍的成本降低。

因此，这种模型非常适合注重效率的用途。此外，所有已知的扩展（如微调、LoRA、ControlNet、IP 适配器、LCM 等）也可以通过此方法实现。其中一些已经在训练和推理部分提供（微调、ControlNet、LoRA）。

此外，Stable Cascade 在视觉和评估方面都取得了令人印象深刻的结果。根据我们的评估，在几乎所有比较中，Stable Cascade 在快速对齐和美观质量方面都表现最好。上图显示了使用部分提示（链接）和审美提示相结合的人类评估结果。具体来说，将 Stable Cascade（30 个推理步骤）与 Playground v2（50 个推理步骤）、SDXL（50 个推理步骤）、SDXL Turbo（1 个推理步骤）和 Würstchen v2（30 个推理步骤）进行了比较。

Stable Cascade 对效率的关注通过其架构和更高压缩的潜在空间得到了证明。尽管最大的模型比 Stable Diffusion XL 多包含 14 亿个参数，但它仍然具有更快的推理时间，如下图所示。

技术概述

Stable Cascade由三个模型组成：Stage A、Stage B和Stage C，代表生成图像的级联，因此得名“Stable Cascade”。A 阶段和 B 阶段用于压缩图像，类似于稳定扩散中 VAE 的工作。然而，如前所述，通过此设置可以实现更高的图像压缩。此外，阶段 C 负责在给定文本提示的情况下生成小的 24 x 24 潜伏。下图直观地展示了这一点。请注意，阶段 A 是 VAE，阶段 B 和 C 都是扩散模型。

对于此版本，我们为阶段 C 提供两个检查点，两个为阶段 B，一个为阶段 A。阶段 C 提供 10 亿和 36 亿参数版本，但我们强烈建议使用 36 亿版本，因为大多数工作都是投入其微调。Stage B 的两个版本分别达到 7 亿和 15 亿个参数。两者都取得了很好的成果，但 15 亿人擅长重建微小而精细的细节。因此，如果您使用每个版本的较大变体，您将获得最佳结果。最后，阶段 A 包含 2000 万个参数，并且由于其尺寸较小而被固定。