图片构成
RGB原理
每一种颜色都包含了R,G,B三个值,由R,G,B三原色可以构成我们肉眼可见的所有颜色!
像素
1、组成图片的最小单位;
2、每个像素都是一个正方形的小方块;
3、像素无法再被分割;
4、每一个像素只有一种颜色,也就是说每个像素只有一个(套)固定的R,G,B值,这个值就是用0-255中的三个数字表示的值;
5、在一张图片中,每一个像素都有独一无二的坐标值;
例如:一张512*512的图片,就是由512*512个像素构成,由于每个像素具有R,G,B三个值,因此,一张512*512的图片,拥有512*512*3=786432个表示颜色的数字;
Diffusion(弄懂AI怎样生成图片)
研究人员对图片加噪点,让图片逐渐变成纯噪点图;
再让 AI 学习这个过程的逆过程,也就是如何从一张噪点图得到一张有信息的高清图。
这个模型就是 AI 绘画中的扩散模型(Diffusion Model)
CLIP(弄懂AI生成什么样的图片)
CLIP是Contrastive Language-Image Pre-Training的缩写,是“对比式语言-文字预训练”的意思;
人类可以很轻松地完成下面的图片与文本相匹配的连线
而AI需要经过海量的图片与文本相匹配的学习才能达到同样的效果!
Latent Space(了解AI巧学巧生图片的方法)
在AI学习认识图片的过程中,会将不同的图片根据不同的文本描述内容映射到潜在空间(Latent Space),然后才会进行扩散和逆扩散学习,形象地理解,如下图所示:
文本描述越相近的物体,在这个潜在空间中的位置就越接近。
这样处理的好处是:
1、可以通过文字描述来分类、索引和生成图片;
2、减少AI生成图片时的计算量,可以根据文本描述迅速定位到与描述最接近的图片;
原创文章,作者:朋远方,如若转载,请注明出处:https://caovan.com/aihuihuayuanlijieshao/.html