瞎搞

发布日期: 2023-04-03

更新日期: 2025-08-08

文章字数: 1.8k

【AI绘画】Stable Diffusion 使用指南

一、准备工作

Stable Diffusion 是一个 AI 绘图的引擎，可以利用各种模型绘制不同的图片。

我用的是 github 上最热门的 WebUI 图形化界面。b站上有人已经打包好了~~中文绿色版~~，链接。

本地作画显存至少要 4GB 以上的 N 卡（NVIDIA），所以如果你是轻薄本（~~锐评mx250~~）还是算了吧。

下面是我这里打开的界面以及我的配置，这显存优化其实效果不太显著，~~该爆的还是爆~~。

点一键启动，稍等片刻，就会在浏览器跳出本地 7860 端口的界面（~~可以认为是个“本地的网站”吧~~）

然后可以根据自己的需求更改一些设置，下面是我的某次绘画的设置：

二、基础设置

我们一个个来讲。首先这里 text to image 和 image to image 是最常用的，还有那个附加功能。

其他例如训练、模型合并什么的应该都要桌面 3090 那种配置吧（大雾），反正我不会用。

左上角的 Stable Diffusion 模型，就是你本次作画要用的模型

可以用那个打包的自带的，也可以去 civitai 下载自己喜欢的，我比较喜欢 Pastel-Mix 模型。

接着这两个文本框对应的是对应的是 prompt 和反向 prompt

上面输入你想要的元素，下面输入你不想要的元素，~~就这么简单~~，我们过会细说。

采样方法，这个一般模型作者会告诉你用哪个，否则可以都试试看，我这个用的是 DPM++ 2M Karras

采样迭代步数根据采样方法修改，注意不是越高越好，这个可以自行查阅，反正我用的模型是 20

下面的面部修复不知道有啥用，可能画 realistic 的会更好一些？平铺一般是画一些重复图案用的。

高清修复，或者叫 Hire.fix，是最常用的。因为目前的模型一般在 512*512 的范围内不怎么出锅

但是主流的图片，至少也有 1920*1080 吧，所以我们就要用放大算法来把它放大。

这里所谓的放大和主流的放大软件不一样，它是放大以后再按照重绘幅度重新绘制

而主流的放大软件只基于放大模型对图片进行超分辨率，没有绘制的过程，所以画作相对差一些。

高清修复采样次数和重绘幅度也是根据模型的，像我这个模型就是 15 和 0.6 。

放大算法也是根据模型，我这个用的是潜变量 latent 。放大倍率决定你最后的原始图像多大。

（~~cxy：怎么老是根据模型啊？我这模型作者没说要怎么配置啊？~~）

对于这种情况，一般可以在模型下载的地方把作者画出来的图片下载下来，然后在图片信息那一栏看。

如果作者那个图经过了加工，还特么不给配置信息，那你就只能自己碰运气了。

然后是宽度和高度，就是你的图没放大前的分辨率，随便改，但是不要尽量超过 512*512 。

生成批次就是你想要多少张图，每批数量就是并行数量，我这显卡好像并行还不如单图快，所以我一般就 1 。

提示词相关性(CFG Scale) 一般 4 档， 3,5,7,9 。推荐用 7，太高会很死板，太低会跟你要的没啥关系。

随机种子，-1 表示随机一个，否则自己输一个，~~114514 也是可以的~~，配置一致时，种子相同出的图也相同

然后下面的东西我一般不用，也不晓得是什么，默认就可以，所以不管它了（大雾）

说了这么多是文生图，图生图其实也是类似的，我懒得写了，也没多几个设置，自己搞搞就晓得了。

三、基础绘画技巧

首先，正向提示词的设定，我一般是以下模板：

(masterpiece:1.331),best quality,ultra-detailed,(1girl),illustration,

插画 illustration ，真人 realistic 。因为我只画妹纸，并且目前的模型难以画好很多人，所以 1girl

这里的一个小括号表示权重乘以 $1.1$，不加就是 $1$ ，当然也可以像那个 (masterpiece:1.331) 自行设定权重。

描述妹纸的话，说得越详细越好，否则就随机出。注意，说太多它不一定都会满足。

有些模型是自带某些著名角色的形象的，比如 Genshin impact 的好多都有（~~我超，原批！~~）

反向提示词，反正就是各种 bad 的随便加，除了画质以外不用太多，模型会尽力画的。

至于为什么我加了一个 (EasyNegative:1.2) ，这个我在进阶绘画技巧里面讲。

图生图和局部重绘也会用到这些提示词，设定方法是一样的。

四、进阶绘画技巧

可能你会在那个网站上看到一些什么 embedding 模型、lora 模型，还有什么 VAE ，~~搞都搞不清~~。

一般的 SD 绘画模型是 .ckpt 后缀的，后来出了一种 .safetensors 的后缀，后者更快一些，

VAE 类似滤镜，有些模型不是自带 VAE 的，所以生成的图会很暗淡。

一般模型会告诉你用啥 VAE 的或者干脆自带，设置方法如下图（记得点保存设置！)

然后 embedding 模型，或者说嵌入式模型，是一些辅助用的模型

比如我这个 EasyNegative 就是一个反向模型，专门生成垃圾图，告诉 AI 这玩意别给我画出来（差不多这意思）

lora 模型就是人物形象模型，像边缘行者的 Lucy，那个衣服我根本不晓得叫啥，就可以用 lora 模型来搞定。

还有其他技巧等待我去摸索了（大雾）

五、附加功能使用方法

需要解释的也不多。一般用一个放大算法就够了，我推荐 LDSR ，吃性能但是画质极好。

GFPGAN 和 CodeFormer 都是用于人像的超分辨率，可以不同图参数可能不一致的。

都讲到这了，我来说一下我平时是怎么个流程吧。

我一般是先文生图造出个整体感觉比较好看的图，然后可能图生图或者局部重绘重画一些很大有瑕疵的地方

基本上瑕疵较小后，我就用这个附加功能把图像放大到4k左右，然后P图处理瑕疵。

一般我一套流程下来，文件大小在 6 MB 左右（要在设置里把 JPG 质量拉到最高，这样比 PNG 文件小而且无损）

这个时候我把文件丢到那个 Waifu2x 的国人开发的简单超分辨率软件里，然后用 RESRGAN 跑个2x，就做完了。

至于为啥不直接用 WebUI ，是因为这玩意我还不太会调，导致这个2x的过程特别容易爆显存。

六、花絮

我现在作品基本上都扔到pixiv了，~~欢迎来p站关注我~~，q779lovesqwq

q779

https://q779.cn/2023/04/03/stable-diffusion-shi-yong-zhi-nan/

本博客所有文章除特别声明外，均采用 CC BY-NC-ND 4.0 许可协议。转载请注明来源 q779 !

瞎搞

BZOJ4964 加长的咒语题解

2023-04-03 OI

算法数据结构

Sparse Table（ST 表）学习笔记

2023-04-03 OI

算法数据结构