(弃用)在ComfyUI体验stabilityAI最新发布的Cascade模型 | AI绘画教程

Stable Cascade官方概述

评测

(弃用)在ComfyUI体验stabilityAI最新发布的Cascade模型 | AI绘画教程

该模型基于Würstchen架构构建,与稳定扩散等其他模型的主要区别在于它在更小的潜在空间中工作。为什么这很重要?潜在空间越小,推理速度就越快,训练成本也就越低。潜在空间有多小?稳定扩散使用压缩因子 8,从而将 1024×1024 图像编码为 128×128。Stable Cascade 的压缩系数为 42,这意味着可以将 1024×1024 图像编码为 24×24,同时保持清晰的重建。然后在高度压缩的潜在空间中训练文本条件模型。与稳定扩散 1.5 相比,该架构的先前版本实现了 16 倍的成本降低。

因此,这种模型非常适合注重效率的用途。此外,所有已知的扩展(如微调、LoRA、ControlNet、IP 适配器、LCM 等)也可以通过此方法实现。其中一些已经在训练推理部分提供(微调、ControlNet、LoRA)。

此外,Stable Cascade 在视觉和评估方面都取得了令人印象深刻的结果。根据我们的评估,在几乎所有比较中,Stable Cascade 在快速对齐和美观质量方面都表现最好。上图显示了使用部分提示(链接)和审美提示相结合的人类评估结果。具体来说,将 Stable Cascade(30 个推理步骤)与 Playground v2(50 个推理步骤)、SDXL(50 个推理步骤)、SDXL Turbo(1 个推理步骤)和 Würstchen v2(30 个推理步骤)进行了比较。

(弃用)在ComfyUI体验stabilityAI最新发布的Cascade模型 | AI绘画教程

Stable Cascade 对效率的关注通过其架构和更高压缩的潜在空间得到了证明。尽管最大的模型比 Stable Diffusion XL 多包含 14 亿个参数,但它仍然具有更快的推理时间,如下图所示。

(弃用)在ComfyUI体验stabilityAI最新发布的Cascade模型 | AI绘画教程

技术概述

Stable Cascade由三个模型组成:Stage A、Stage B和Stage C,代表生成图像的级联,因此得名“Stable Cascade”。A 阶段和 B 阶段用于压缩图像,类似于稳定扩散中 VAE 的工作。然而,如前所述,通过此设置可以实现更高的图像压缩。此外,阶段 C 负责在给定文本提示的情况下生成小的 24 x 24 潜伏。下图直观地展示了这一点。请注意,阶段 A 是 VAE,阶段 B 和 C 都是扩散模型。

(弃用)在ComfyUI体验stabilityAI最新发布的Cascade模型 | AI绘画教程

对于此版本,我们为阶段 C 提供两个检查点,两个为阶段 B,一个为阶段 A。阶段 C 提供 10 亿和 36 亿参数版本,但我们强烈建议使用 36 亿版本,因为大多数工作都是投入其微调。Stage B 的两个版本分别达到 7 亿和 15 亿个参数。两者都取得了很好的成果,但 15 亿人擅长重建微小而精细的细节。因此,如果您使用每个版本的较大变体,您将获得最佳结果。最后,阶段 A 包含 2000 万个参数,并且由于其尺寸较小而被固定。

原创文章,作者:朋远方,如若转载,请注明出处:https://caovan.com/zaicomfyuitiyanstabilityaizuixinfabudecascademoxing-aihuihuajiaocheng/.html

(1)
打赏 微信扫一扫 微信扫一扫
朋远方的头像朋远方
上一篇 2024年2月14日 下午4:06
下一篇 2024年2月19日 上午6:47

相关推荐

发表回复

登录后才能评论