AIGC

Stable Diffusion笔记

check point 就是菜单——选择不同的模型

lora更精确的人物或画风，更可控

图生图

上传

描述图片

AI摄影

lora炼丹

七天免费试用领取

聚焦剪裁、中央剪裁、无需剪裁、

使用deepbooru算法反推标注。0.6 系数越小越精细

日志看loss值，数值降低大概率没什么问题

一、提示词prompt

类别

其他提示词：画质等

但是真实系的操作是更依赖真实的模型

1.prompt模板:

具体的直接使用即可

2.提示词权重分配增强减弱(){} []

安全范围1+-0.5，单个的

():1.1倍，1.331倍

{}

[1]进阶语法-坑

不想出现就是负向提示词

单色风格的画作

3.采样迭代步数

加噪点——去除噪点

闪一次，就步数>20后意义不大

最低不要低于10

采样方法

带有++号的是改进的算法，最好使用比较稳定。

分辨率过高容易出现多人，多手。

一般低分辨率绘制，然后hires fix 来放大高清修复、

面部修复、平铺/分块：生成无缝贴满整个屏幕的纹理性图片的；一般不用

7-12相关性一般

批次和数量

批次是格子预览图。每次批次数量不宜过高，容易爆显存。

4.写提示词方法

1.翻译、描述确切场景，然后直接让词组翻译为英文

2.功能插件、翻译的插件——国内有——SD也有

3.更好书写提示词网站：AI词汇加速器

提示词网站：

二次元和亚洲面孔多：

人物、

画风、质感：

二、图生图

原理：原本提醒上记录的像素信息会在加噪和去噪的过程中、被作为一种特征反应到生成的图片上。

1.上传图片、导入到SD里

2.提示词书写

1man,1girl

3.参数设置

重绘幅度0.6-0.8

分辨率设置，原始尺寸一样最好

按长宽比例一致生成、

[1]随机种子

xxx in backgroud

景深depth of field

如果要保留生成的原本的元素的样子，只改动背景，不改动人物风格呢？

同一个随机种子、同一套随机种子、

骰子：-1是随机，循环按钮是上一次的种子。

图库浏览器中以前生成的图片，里面有种子。

种子加上+需要的背景提示词。

不像人物的物品的拟人化、静物或者墙角的旮旯来想象。——抖音评论区中有

[2]图生图的风格迁移：

游戏中的卡通形象到真实的现实中、可以输入提示词、更加精确的需要lora模型。

[3]photoshop中搭建图像框架+SD生成图片——炫酷的效果。

画布

画图中

然后场景插画就完成了！

三、画风

1.Checkpoint

模型信息：

下载的模型放入这里就能加载。

所以就叫关键点、存档。

所以这些检查点，这些模型就能有迭代、更新的能力，AOM3A3深橘色。

2. .ckpt文件

几个G的叫大模型

3. .safetensors

训练者让模型更加可靠高效来使用的一种格式。

点击刷星按钮

命令行中跳出提示才算成功

秋叶的启动器能对管理下载

4. VAE

VAE选项[变分自解码器Variational Autp Encoder]

负责将加噪后的潜空间数据转化为正常图像。

AI绘图的调色滤镜，直接表现是影响色彩质感。——

一般checkpoint里包含了VAE但是也有没有到——图片会发灰，发白

会推荐使用一些VAE

也有适用于大多数checkpoint的VAE：kl-f8-anime2.ckpt

也有safetensors的VAE

[1]自动的适配VAE方法

改为和模型一样的名字

三-进阶

{1}Hypernetwork超网络模型

画面微调

作用：和Lora差不多的，也可以让AI学习一些原本不存在它世界里的东西，

不像Lora是彩卡插画。那么它像一张小名片

Hypernetwork一般用于改善画面的整体风格

这种画风区别：不是二次元真实感那种区别，而像梵高和莫奈那种小区别

hYPERNETwORK路径

绕：设置中找到附加网络

在这里也可以添加Lora,【坑】但是Lora会有更方便的应用形式

正方形、就可以得到Q版

多数研究者对于Hypernetwork在图像生成方面的评价并不好，

至少不如lora和embaddings好，

也有部分Lora对训练样本的把控实现了对画风的塑造植入。

尽管如此，超网络在实现特定的风格时，仍然会提供不少的帮助

{2}embeddings嵌入式向量

优化画风

.pt

翻译为：文本嵌入

有时候网站上叫Textual Inversion文本倒置

很小的文件——相当于大模型中的书签，指向特定的形象——嵌入式向量

与VAE一样

使用：只要在输入中输入书签翻字典的过程。

举例：

固定随机种子+embadding的固定咒语——

更像D.VA——加入描述她身上本身有的东西

[1]技巧反推提示词

Dva的一张图片导入_图生图

识别东西，然后转化为AI中的东西DB更具优势。

每次识别的再筛选——删除降低权重

生成图片不可能完全一致，因为embeddings到头是个几十kb的小文件

只是按图索骥而已。

所以embaddings适用于一些广泛、容错率高的形象的概念，表现会好很多。

而特定的人物更多的用Lora

[坑]CharTurner-embaddings三视图

真NB啊

使用方法：

Eva的和charturner两个embaddings使用——化学反应自己观察

开启高清修复

[2]embaddings解决手等的问题

只要避开错误案例就可以了

EasyNegative

放入负面提示词里

就修复了

综合的、全方位的基于负面样本的提炼

灰度，多人、等等

{3}LoRa

低秩适应模型

固定特定人物角色特征

作用：有助于向Ai传递/描述某一个特征准确/主体清晰的形象

夹在书中的彩页100-200M

各方各个方面的素材、角度、画风等

有些模型会提供触发提示词——训练过程中有基于这个提示词反复强化过AI认知

也可以加入进行强化效果

[1]lora会出现一些小问题

因为它的训练图源复杂、

所以一般也会对画风进行影响

权重减小

[坑-深入]有专门为Lora的插件应用。

5.模型下载渠道

midjourney的提供的模型数量有限

默认的模型也能实现挺好的效果，

SD官方也有1.4、2.0等开源模型

官方的炉在版权和尺度有限制

0.个人训练发布并分享的模型大多数是“私炉模型”

1.Hugging face使用方法

允许用户共享AI学习模型和数据集的平台

搜索栏中搜索stable diffusion中可以下载

筛选栏中可以找到

WaifuDiffusion
Anything
DreamShop

files and version中看源代码

- 大模型在Safey_checker找

- vae就在vae中找

community可以交流

2.C站

iativic.com

不注册可使用，火热的模型

trained的模型

根据图像一点点训练出来的，一手的丹。

Merged融合模型

几个模型融合到一起创造出来的。一般叫xxxMIx

【坑】Base model

模型训练过程中的底模

四、模型的类目及推荐

1.漫画/插画风：二次元

Anything、Counterfeit、Dreamlike Diffusion等

2.真实系

Deliberate、Realistic Vision、LOFI等

3.2.5D风

NeverEnding Dream、Protogen、国风V3

—- 质感类似于建模软件出来的三维渲染图，不如平面那么平，也不如真实那么真。

很接近一些游戏和3D动画的想象

Counterfeit

细节感、精致感、各种复杂室内外场景

Dreamlike Diffusion

漫画插画风

幻想的超现实魔幻作品

Deliberate

真实系的,自由度非常高

Realistic Vision

朴素踏实、有整活空间的写实模型。

事物、动物图片等

LOFI-融合模型

人物面部处理精致

NED模型

造人的方面有一股特殊

Protogen

国风3

结合其他lora模型能创作

4.小类模型

魔幻感场景

现代建筑

高级感的平面设计

高清

1.Hi-Res Fix

高清修复/高分辨率修复/

皮肤分辨率太低人物皮肤模糊、人物面部不真实——

如果用大分辨率的会有缺点

1.采样次数：

高清修复需要经过一次重绘、因此需要设置采样步数、保持默认0数值、它会和我们设置的采样次数(20)一致

高清修勾，无法突破显存限制。

[1]低分抽卡+固定种子+高清修复

加戏，降低重绘幅度可以消除。

繁纷复杂的花、多出的戒指等等
只是高清：0.3-0.5即可
0.5-0.7——AI重绘空间

2.放大算法

感觉差不多，没有大到感觉很多区别

带有GAN的算法，重绘的细节保留更加准确

同行无脑方法

无脑R-ESRGAN 4x+

二次元第二个

看模型的制作者推荐、或者自己试试。

小技巧-简便高清方法

图库浏览器中，点击已经号的图片，再点击图生图。

会自动填写信息

3.放大算法设置

设置-放大-图生图算法设置

2.Upscale放大脚本_SD放大

简便方法-

图块重叠像素64——起到四张图片融合的缓冲带的作用

高度-宽度分别增加64，

然后开始。

画面会混乱

[1]如果脸在切割的地方

-降低重绘幅度-增大图块重叠度

3.附加功能放大

人工智能算法修复

一般成品的算法修复

也可以不选Upscaler 2

[2

[坑]下面的三个比较复杂

局部重绘

1.随机种子+咒语修改的问题

即使随机种子一致，但是咒语还是修改了，出现了画面不可控的样子

所以会有，不同姿势等问题

如果是已经经过了高清修复和放大，那么要耗费的时间就更长了

99%都是满意的，1%

直接点击-局部重绘，其他素材图片也可以

修改咒语+重绘幅度修改

会出现笔尖，涂抹好重绘区域

下方参数设置

重绘过程：整个图片经历了重新加噪然后去噪的过程。

眼睛部分被强调了，最后的效果是只针对这个区域的重绘了

局部修复参数

1.蒙版：

可以写填充

【坑】潜变量噪声、潜变量数值零

简答说：图生图的过程进一步复杂化、加入加噪、去噪的过程。

理论上对图像的改变会更显著

2.全图、3.仅蒙版

2.全图：

基于新的要求（提示词、参数）把图重新画一遍【我觉得受到重绘幅度的影响】，尽管没涂的部分修改很小，但是还是有点点点点

最后只保留你涂的部分拼回去

3.仅蒙版:

就是只画框选出来的区域附近，速度快，但是没有基于图像全貌画。然后再拼回去。把这一小块当做一幅画来画。

[坑]针对性强的修改、反而需要修改图片的尺幅：降低重绘幅度避免变形，并对提示词净化处理。

1.仅蒙版模式的边缘预留像素

4.蒙版模糊——类似羽化

消除硬接触的边缘

10以下比较好

太大会影响区域的读取或影响周边其他区域

区域大可以增大，区域小可以缩小。

局部重绘进阶

[1]inPaintSketch（手涂蒙版）

调色盘按钮

修复的坏的手等

加蓝色爱心口罩

调色盘按钮—选黑色—画口罩——

重绘幅度可以稍大

蓝色

咒语中权重降低了，因为咒语的东西复杂了，让它更稳定的产出

玩法无限可能性大

吸管吸取背景，覆盖手的颜色，然后用肉色把手勾勒出来。

正向提示词用上，击掌等

负面提示词中用Negative Embeddings

1.蒙版透明度

颜色映在图片上的透明度

降低重绘幅度——因为太大了会让手部线条模糊+蒙版模糊也不宜过大

如果不满意，那么随机种子多试试。

单独使用Sketch（绘图）

直接使用Sketch

然后重新对整个图进做一个完整的图生图，肯定会对原图有影响。

——灵魂画手功能的实现可以用这个

不想影响就用局部修复即可

[2]上传蒙版功能应用

上传蒙版区域

PS主体的对象选择工具，框选工具，会自动框选出来，然后套索工具-alt-ctrl-可以增加减少

然后再

先定义为白色

然后选中填充的图层复制一个

然后双击该图层前面的小白方块、填充颜色改为黑

单机长方形

这个长方形就是PS的蒙版了

选中ctrl+I交换蒙版区域，就黑白换过来了。

就导出来PNG、jpg就可了。

人为代替了蒙版选择的了

[坑]其他软件进行关联，无穷的潜力挖掘

更为精确的手部修复。

总结

1.SD（Stable Diffusion）基本操作：

使用菜单选择不同的模型（Checkpoint）。
包括 Lora 模型，提供更精确的人物或画风控制。

2.图生成图：

上传图片并描述，使用 DeepBooru 算法反推标注。
调整重绘幅度和分辨率，生成无缝贴图。
包括聚焦剪裁、中央剪裁等操作，通过观察损失值调整训练过程。

3.Prompt模板和提示词：

设计提示词模板，权重分配和增强减弱方法。

4.VAE（Variational Auto Encoder）：

使用加噪和去噪处理转换潜空间数据为正常图像。

5.Hypernetwork超网络模型：

改进画面整体风格，与Lora类似但更适合创造新元素。

.6Embeddings嵌入式向量：

优化画风，通过小文件链接到特定形象。

7.LoRa低秩适应模型：

固定特定人物角色特征，更清晰地表达形象。

8.模型下载渠道：

Hugging Face、C站等平台获取和共享模型和数据集。

Bilibili