Stable Diffusion提示词权威指南

提示词可以多长？

根据您使用的 Stable Diffusion 服务，提示词中可以使用的关键词可能有最大数量。在经典 Stable Diffusion v1 模型中，该限制为 75 个令牌(tokens)。

请注意，令牌(tokens)与单词不同。 Stable Diffusion 使用的 CLIP 模型会自动将提示词转换为令牌(tokens)，即它所知道的单词的数字表示形式。如果你输入一个它以前没有见过的单词，它会被分成 2 个或更多子单词，直到它知道它是什么。

它所知道的单词称为令牌(tokens)，用数字表示。例如，梦想(dream)是一个令牌(token)，海滩(beach)是一个令牌(token)。但是 dreambeach 是两个令牌(tokens)，因为模型不知道这个词，所以模型将这个词分解为它知道的 dream 和 beach。

AUTOMATIC1111 中提示词限制

AUTOMATIC1111 没有令牌(tokens)限制。如果提示词包含超过 75 个令牌(tokens)（CLIP 令牌生成器的限制），它将启动另外 75 个令牌(tokens)的新块，因此新的“限制”变为 150。该过程可以永远继续，或者直到您的计算机内存不足……

每个 75 个令牌(tokens)块都经过独立处理，由此产生的陈述在输入到 Stable Diffusion 的 U-Net 之前会被连接起来。

在AUTOMATIC1111中，您可以通过查看提示词输入框右上角的小框来检查令牌(tokens)的数量。

检查关键词

别人的关键词不一定都是有效的。就像做作业一样，我们都会抄袭对方的提示词，有时不假思索。

你只需将关键词用作提示词即可检查关键词的有效性。例如，v1.5模型是否认识美国画家亨利·阿森西奥（Henry Asencio）？我们根据提示来确认一下

henry asencio
亨利·阿森西奥

结果是肯定的

那Artstation网站轰动一时的wlop怎么样？

wlop
沃洛普

嗯，看起来不像(stable diffusion并没有认出这个叫wlop的人)。这就是为什么你不应该使用“by wlop”。这只是增加噪音。

再输入约瑟芬·沃尔(Josephine Wall)

Josephine Wall
约瑟芬·沃尔

得到的结果是正确的！(stable diffusion认识这个Josephine Wall的人)

于是您可以使用此技术来检查混合两个或多个艺术家的效果。

Henry asencio, Josephine Wall
亨利·阿森西奥，约瑟芬·沃尔

限制变化

为了擅长构建提示词，你需要像 stable diffusion 一样思考。它的核心是一个图像采样器，生成我们人类可能认为它合法且良好的像素值。你甚至可以在没有提示的情况下使用它，它会生成许多不相关的图像。用技术术语来说，这称为无条件(unconditioned)或无引导扩散(unguided diffusion)。

提示词是一种将扩散过程引导至与其匹配的采样空间的方法。我刚才说过，提示词需要详细、具体。因为详细的提示词会缩小采样空间。让我们看一个例子。

castle
城堡

castle, blue sky background
城堡，蓝天背景

wide angle view of castle, blue sky background
城堡广角视图，蓝天背景

通过在提示词中添加更多描述性关键词，我们缩小了城堡的采样范围。在第一个示例中，我们要求提供任何城堡的图像。然后我们要求只获取那些有蓝天背景的。最后，我们要求拍一张广角照片。

您在提示词中指定的越多，图像的变化就越少。

关联效应

属性关联

有些属性是强相关的。当你指定一个时，你就会得到另一个。stable diffusion 生成最有可能产生意外关联效应的图像。

假设我们想要生成蓝眼睛女性的照片。

a young female with blue eyes, highlights in hair, sitting outside restaurant, wearing a white outfit, side light
一位年轻女性，蓝眼睛，头发亮点，坐在餐厅外，穿着白色衣服，侧光

如果我们换成棕色眼睛怎么办？

a young female with brown eyes, highlights in hair, sitting outside restaurant, wearing a white outfit, side light
一位年轻女性，棕色眼睛，头发亮点，坐在餐厅外，穿着白色衣服，侧光

我在提示词中没有指定种族。但由于蓝眼睛的人主要是欧洲人，因此产生了白人。棕色眼睛在不同种族中更为常见，因此您会看到更加多样化的种族样本。

刻板印象和偏见是人工智能模型中的一个大话题。我将在本文中只讨论技术方面。

名人名字协会

每个关键词都有一些意想不到的关联。对于名人名字来说尤其如此。一些演员喜欢在拍照时摆出特定的姿势或穿着特定的服装，因此在训练数据中也是如此。如果你仔细想想，模型训练只不过是通过关联学习。如果泰勒·斯威夫特(Taylor Swift)（在训练数据中）总是跷二郎腿，模型就会认为跷二郎腿也是泰勒·斯威夫特(Taylor Swift)。

当你在提示词中使用泰勒·斯威夫特(Taylor Swift)时，你可能只是想使用她的脸。但拍摄对象的姿势和服装也会产生影响。可以通过单独使用她的名字作为提示词来研究效果。

姿势(Poses)和服装(outfits)是全局性的组合。如果您想要她的脸而不是她的姿势，您可以使用关键字混合在稍后的采样步骤中将她交换。