提示词可以多长?
根据您使用的 Stable Diffusion 服务,提示词中可以使用的关键词可能有最大数量。在经典 Stable Diffusion v1 模型中,该限制为 75 个令牌(tokens)。
请注意,令牌(tokens)与单词不同。 Stable Diffusion 使用的 CLIP 模型会自动将提示词转换为令牌(tokens),即它所知道的单词的数字表示形式。如果你输入一个它以前没有见过的单词,它会被分成 2 个或更多子单词,直到它知道它是什么。
它所知道的单词称为令牌(tokens),用数字表示。例如,梦想(dream)是一个令牌(token),海滩(beach)是一个令牌(token)。但是 dreambeach 是两个令牌(tokens),因为模型不知道这个词,所以模型将这个词分解为它知道的 dream 和 beach。
AUTOMATIC1111 中提示词限制
AUTOMATIC1111 没有令牌(tokens)限制。如果提示词包含超过 75 个令牌(tokens)(CLIP 令牌生成器的限制),它将启动另外 75 个令牌(tokens)的新块,因此新的“限制”变为 150。该过程可以永远继续,或者直到您的计算机内存不足……
每个 75 个令牌(tokens)块都经过独立处理,由此产生的陈述在输入到 Stable Diffusion 的 U-Net 之前会被连接起来。
在AUTOMATIC1111中,您可以通过查看提示词输入框右上角的小框来检查令牌(tokens)的数量。
检查关键词
别人的关键词不一定都是有效的。就像做作业一样,我们都会抄袭对方的提示词,有时不假思索。
你只需将关键词用作提示词即可检查关键词的有效性。例如,v1.5模型是否认识美国画家亨利·阿森西奥(Henry Asencio)?我们根据提示来确认一下
结果是肯定的
那Artstation网站轰动一时的wlop怎么样?
嗯,看起来不像(stable diffusion并没有认出这个叫wlop的人)。这就是为什么你不应该使用“by wlop”。这只是增加噪音。
再输入约瑟芬·沃尔(Josephine Wall)
得到的结果是正确的!(stable diffusion认识这个Josephine Wall的人)
于是您可以使用此技术来检查混合两个或多个艺术家的效果。
限制变化
为了擅长构建提示词,你需要像 stable diffusion 一样思考。它的核心是一个图像采样器,生成我们人类可能认为它合法且良好的像素值。你甚至可以在没有提示的情况下使用它,它会生成许多不相关的图像。用技术术语来说,这称为无条件(unconditioned)或无引导扩散(unguided diffusion)。
提示词是一种将扩散过程引导至与其匹配的采样空间的方法。我刚才说过,提示词需要详细、具体。因为详细的提示词会缩小采样空间。让我们看一个例子。
通过在提示词中添加更多描述性关键词,我们缩小了城堡的采样范围。在第一个示例中,我们要求提供任何城堡的图像。然后我们要求只获取那些有蓝天背景的。最后,我们要求拍一张广角照片。
您在提示词中指定的越多,图像的变化就越少。
关联效应
属性关联
有些属性是强相关的。当你指定一个时,你就会得到另一个。stable diffusion 生成最有可能产生意外关联效应的图像。
假设我们想要生成蓝眼睛女性的照片。
如果我们换成棕色眼睛怎么办?
我在提示词中没有指定种族。但由于蓝眼睛的人主要是欧洲人,因此产生了白人。棕色眼睛在不同种族中更为常见,因此您会看到更加多样化的种族样本。
刻板印象和偏见是人工智能模型中的一个大话题。我将在本文中只讨论技术方面。
名人名字协会
每个关键词都有一些意想不到的关联。对于名人名字来说尤其如此。一些演员喜欢在拍照时摆出特定的姿势或穿着特定的服装,因此在训练数据中也是如此。如果你仔细想想,模型训练只不过是通过关联学习。如果泰勒·斯威夫特(Taylor Swift)(在训练数据中)总是跷二郎腿,模型就会认为跷二郎腿也是泰勒·斯威夫特(Taylor Swift)。
当你在提示词中使用泰勒·斯威夫特(Taylor Swift)时,你可能只是想使用她的脸。但拍摄对象的姿势和服装也会产生影响。可以通过单独使用她的名字作为提示词来研究效果。
姿势(Poses)和服装(outfits)是全局性的组合。如果您想要她的脸而不是她的姿势,您可以使用关键字混合在稍后的采样步骤中将她交换。
原创文章,作者:朋远方,如若转载,请注明出处:https://caovan.com/stable-diffusiontishiciquanweizhinan/.html
Comments(2)
老师,反推提示词插件在那下载??谢谢
@3838:图生图都可以反推提示词,如果你不知道在哪里扫描博客下面的二维码加我微信!