PixArt-Alpha介绍
最先进的文本到图像(T2I)模型需要大量的训练成本(例如数百万个 GPU 小时),严重阻碍了 AIGC 社区的根本性创新,同时增加了二氧化碳排放。
本文介绍了PixArt-α,一种基于Transformer的T2I扩散模型,其图像生成质量可与最先进的图像生成器(例如Imagen、SDXL,甚至Midjourney)竞争,达到接近商业应用的标准。
此外,它还支持高达 1024px 分辨率的高分辨率图像合成,且训练成本较低。
为了实现这一目标,提出了三个核心设计:
(1)训练策略分解:我们设计了三个不同的训练步骤,分别优化像素依赖性、文本图像对齐和图像美学质量;
(2)高效的T2I Transformer:我们将交叉注意力模块合并到Diffusion Transformer(DiT)中,以注入文本条件并简化计算密集型的类条件分支;
(3)高信息数据:我们强调文本-图像对中概念密度的重要性,并利用大型视觉语言模型自动标记密集的伪标题以辅助文本-图像对齐学习。
因此,PixArt-α 的训练速度明显超过了现有的大规模 T2I 模型,例如,PixArt-α 仅花费了 Stable Diffusion v1.5 训练时间的 10.8%(675 天 vs. 6,250 A100 GPU 天),节省了近 300,000 美元(26,000 美元) vs. 320,000 美元)并减少 90% 的二氧化碳排放量。
而且,与更大的SOTA模型RAPHAEL相比,我们的训练成本仅为1%。大量实验表明,PixArt-α 在图像质量、艺术性和语义控制方面表现出色。我们希望 PixArt-α 能够为 AIGC 社区和初创公司提供新的见解,以加速从头开始构建自己的高质量且低成本的生成模型。
图片展示
项目的GitHub主页:https://github.com/PixArt-alpha/PixArt-alpha
项目Demo体验地址:https://huggingface.1319lm.top/spaces/PixArt-alpha/PixArt-alpha
Windows本地部署流程
克隆项目库文件到本地
在任意文件夹的空白处,单击鼠标右键,选择“Git Bash Here”,会弹出一个git命令输入窗口,在git命令输入窗口中输入如下的命令:
git clone https://github.com/PixArt-alpha/PixArt-alpha.git
该命令会将项目的仓库文件克隆到本地!
创建虚拟环境
进入到该文件夹中,在文件夹的路径栏输入“cmd”,回车,会打开一个cmd的命令窗口!
输入如下的命令,创建一个名为“pixart”的虚拟环境
conda create -n pixart python==3.9.0 -y
注意,命令后面如果没有带“-y”,则在创建虚拟环境的过程中会提示你输入“y”来确认,你也可以手动输入“y”进行确认部署!
虚拟环境创建完成之后,输入如下的命令激活该虚拟环境:
conda activate pixart
然后输入如下的命令,安装torch三件套:
pip install torch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1 --index-url https://download.pytorch.org/whl/cu118
安装项目依赖库
当上面的环境部署好之后,我们就可以来安装项目的Python依赖库了!
继续输入如下的命令:
pip install -r requirements.txt
下载模型文件
默认情况下,运行程序会从huggingface自动下载模型,模型的默认存储路径为“C:\Users\你的名称\.cache\huggingface\hub”,但是对于中国大陆境内的小伙伴来说,第一从huggingface下载模型需要科学上网,并且需要有非常稳定快速的网络,因为模型体积比较大!第二,将模型存储在默认的C盘位置,很不好管理模型,也占太大的位置!因此我对程序文件做了一些修改,我将模型文件统一保存在项目的文件夹中,并且不要再自动从huggingface去下载模型!
你可以直接从我下面提供的网盘地址下载zip压缩包,文件比较大有10.25GB,下载下来之后解压到项目根目录即可!
链接:https://pan.baidu.com/s/1ZmCpHYf-FExrq94vtZXeag?pwd=h00u
注意解压后的文件夹不要有嵌套的“models”文件夹,因此你应该是选择“解压到当前文件夹”命令来进行解压!解压后的文件夹内部结构如下:
修改启动文件
因为我们需要对模型的路径做修改,因此请下载下面的app.py文件替换掉你原来“\PixArt-alpha\app”路径下的app.py文件(注意备份原来的文件)
链接:https://pan.baidu.com/s/1WMaF5N0loj7DnY58gyZNZA?pwd=rdws
添加bat启动文件
为了每次启动不需要频繁得去找到项目文件夹,输入“cmd”,再激活虚拟环境,再运行Python文件……这么麻烦,我们在项目的根目录下新建一个bat批处理文件,首先新建一个txt文件,名称自拟,“.txt”后缀修改为“.bat”
然后右键点击该bat文件,选择“编辑”,将下面的代码粘贴进去保存即可!
@echo off call conda activate pixart python app/app.py pause
为了更加方便日后操作,你可以右键点击该bat文件,选择“发送到”“桌面快捷方式”!这样可以在桌面直接双击bat的快捷方式就可以启动PixArt-alpha的webui界面!
本地运行webui界面
原创文章,作者:朋远方,如若转载,请注明出处:https://caovan.com/pixart-alphabendebushujiaocheng-duibiaosdxlhemidjourney-huaweinuoyafangzhoushiyanshi/.html