AI绘画原理介绍

朋远方 • 2023年6月28日下午4:13 • AI绘画, 学习笔记 • 1533 views

Table of Contents

图片构成

每一种颜色都包含了R,G,B三个值，由R,G,B三原色可以构成我们肉眼可见的所有颜色！

1、组成图片的最小单位；

2、每个像素都是一个正方形的小方块；

3、像素无法再被分割；

4、每一个像素只有一种颜色，也就是说每个像素只有一个（套）固定的R,G,B值，这个值就是用0-255中的三个数字表示的值；

5、在一张图片中，每一个像素都有独一无二的坐标值；

例如：一张512*512的图片，就是由512*512个像素构成，由于每个像素具有R,G,B三个值，因此，一张512*512的图片，拥有512*512*3=786432个表示颜色的数字；

研究人员对图片加噪点，让图片逐渐变成纯噪点图；

再让 AI 学习这个过程的逆过程，也就是如何从一张噪点图得到一张有信息的高清图。

这个模型就是 AI 绘画中的扩散模型（Diffusion Model）

米开朗基罗：塑像本来就在石头里，我只是把不要的部分去掉。

CLIP是Contrastive Language-Image Pre-Training的缩写，是“对比式语言-文字预训练”的意思；

人类可以很轻松地完成下面的图片与文本相匹配的连线

而AI需要经过海量的图片与文本相匹配的学习才能达到同样的效果！

“海量”具体是多大？
举个例子：现在最大的图片生成模型总共学习了58.5亿张图片

在AI学习认识图片的过程中，会将不同的图片根据不同的文本描述内容映射到潜在空间（Latent Space），然后才会进行扩散和逆扩散学习，形象地理解，如下图所示：

文本描述越相近的物体，在这个潜在空间中的位置就越接近。

这样处理的好处是：

1、可以通过文字描述来分类、索引和生成图片；

2、减少AI生成图片时的计算量，可以根据文本描述迅速定位到与描述最接近的图片；

原创文章，作者：朋远方，如若转载，请注明出处：https://caovan.com/aihuihuayuanlijieshao/.html