Featured image of post Stable Diffusion笔记

Stable Diffusion笔记

image-20240607184336146

image-20240607184445492

check point 就是菜单——选择不同的模型

lora更精确的人物或画风,更可控

image-20240607184615859

image-20240607184628145

image-20240607184732610

图生图

上传

image-20240607184803838

描述图片

image-20240607184832014

image-20240607184852610

AI摄影

lora炼丹

七天免费试用领取

聚焦剪裁、中央剪裁、无需剪裁、

使用deepbooru算法反推标注。0.6 系数越小越精细

日志看loss值,数值降低大概率没什么问题

一、提示词prompt

image-20240607194636624

类别

image-20240607194655106

其他提示词:画质等

image-20240607194743238

image-20240607194753742

image-20240607194818438

但是真实系的操作是更依赖真实的模型

1.prompt模板:

image-20240607194914970

具体的直接使用即可

2.提示词权重分配 增强减弱(){} []

安全范围1+-0.5,单个的

():1.1倍,1.331倍

{}

image-20240608002312274

[1]进阶语法-坑

image-20240608002405145

不想出现就是负向提示词

单色风格的画作

image-20240608002513577

3.采样迭代步数

加噪点——去除噪点

闪一次,就步数>20后意义不大

最低不要低于10

采样方法

image-20240608002724513

带有++号的是改进的算法,最好使用比较稳定。

分辨率过高容易出现多人,多手。

一般低分辨率绘制,然后hires fix 来放大 高清修复、

面部修复、平铺/分块:生成无缝贴满整个屏幕的纹理性图片的;一般不用

7-12相关性一般

批次和数量

批次是格子预览图。每次批次数量不宜过高,容易爆显存。

image-20240608002856328

4.写提示词方法

1.翻译、描述确切场景,然后直接让词组翻译为英文

2.功能插件、翻译的插件——国内有——SD也有

3.更好书写提示词网站:AI词汇加速器

image-20240608003420900

image-20240608003430396

提示词网站:image-20240608003513343

二次元和亚洲面孔多:

image-20240608003519995

人物、

image-20240608003544952

画风、质感:

image-20240608003559712

二、图生图

原理:原本提醒上记录的像素信息会在加噪和去噪的过程中、被作为一种特征反应到生成的图片上。

1.上传图片、导入到SD里

2.提示词书写

1man,1girl

image-20240608004301173

image-20240608004314355

3.参数设置

重绘幅度0.6-0.8

image-20240608004053399

分辨率设置,原始尺寸一样最好

按长宽比例一致生成、

image-20240608004426686

[1]随机种子

xxx in backgroud

景深depth of field

如果要保留生成的原本的元素的样子,只改动背景,不改动人物风格呢?

同一个随机种子、同一套随机种子、

骰子:-1是随机,循环按钮是上一次的种子。

图库浏览器中以前生成的图片,里面有种子。

种子加上+需要的背景提示词。

不像人物的物品的拟人化、静物或者墙角的旮旯来想象。——抖音评论区中有

[2]图生图的风格迁移:

游戏中的卡通形象到真实的现实中、可以输入提示词、更加精确的需要lora模型。

[3]photoshop中搭建图像框架+SD生成图片——炫酷的效果。

画布

画图中

image-20240608005226877

image-20240608005235034

然后场景插画就完成了!

三、画风

1.Checkpoint

模型信息:image-20240608005330230

image-20240608005338545

下载的模型放入这里就能加载。

所以就叫关键点、存档。

所以这些检查点,这些模型就能有迭代、更新的能力,AOM3A3深橘色。

2. .ckpt文件

几个G的叫大模型image-20240608005522688

3. .safetensors

训练者让模型更加可靠高效来使用的一种格式。

点击刷星按钮

命令行中跳出提示才算成功

image-20240608005650275

秋叶的启动器能对管理下载

4. VAE

VAE选项[变分自解码器Variational Autp Encoder]

负责将加噪后的潜空间数据转化为正常图像。

AI绘图的调色滤镜,直接表现是影响色彩质感。——

一般checkpoint里包含了VAE但是也有没有到——图片会发灰,发白

会推荐使用一些VAE

也有适用于大多数checkpoint的VAE:kl-f8-anime2.ckpt

也有safetensors的VAE

image-20240608010147671

[1]自动的适配VAE方法

改为和模型一样的名字

image-20240608010220572

三-进阶

{1}Hypernetwork超网络模型

画面微调

作用:和Lora差不多的,也可以让AI学习一些原本不存在它世界里的东西,

不像Lora是彩卡插画。那么它像一张小名片

Hypernetwork一般用于改善画面的整体风格

这种画风区别:不是二次元真实感那种区别,而像梵高和莫奈那种小区别

image-20240608024013352

image-20240608024017643

hYPERNETwORK路径

image-20240608024028127

绕:设置中找到附加网络

image-20240608024057849

在这里也可以添加Lora,【坑】但是Lora会有更方便的应用形式

image-20240608024209242

image-20240608024238437

正方形、就可以得到Q版

多数研究者对于Hypernetwork在图像生成方面的评价并不好,

至少不如lora和embaddings好,

也有部分Lora对训练样本的把控实现了对画风的塑造植入。

image-20240608024428375

image-20240608024432575

image-20240608024436066

image-20240608024441820

尽管如此,超网络在实现特定的风格时,仍然会提供不少的帮助

image-20240608024550112

image-20240608024554587

image-20240608024600531

{2}embeddings嵌入式向量

优化画风

.pt

翻译为:文本嵌入

image-20240608020907845

有时候网站上叫Textual Inversion文本倒置

很小的文件——相当于大模型中的书签,指向特定的形象——嵌入式向量

image-20240608021147938

与VAE一样

image-20240608021231381

使用:只要在输入中输入书签翻字典的过程。

image-20240608021251130

举例:

image-20240608021448522

image-20240608021504260

固定随机种子+embadding的固定咒语——image-20240608021538979

更像D.VA——加入描述她身上本身有的东西

[1]技巧反推提示词

Dva的一张图片导入_图生图

image-20240608021712452

识别东西,然后转化为AI中的东西DB更具优势。

每次识别的再筛选——删除降低权重

**生成图片不可能完全一致,**因为embeddings到头是个几十kb的小文件

image-20240608021917876

只是按图索骥而已。

所以embaddings适用于一些广泛、容错率高的形象的概念,表现会好很多。
而特定的人物更多的用Lora

[坑]CharTurner-embaddings三视图

image-20240608022141243

真NB啊

使用方法:

image-20240608022305838

image-20240608022352184

image-20240608022358152

image-20240608022403226

image-20240608022406949

image-20240608022418228

image-20240608022430581

Eva的和charturner两个embaddings使用——化学反应自己观察

开启高清修复

image-20240608022444186

[2]embaddings解决手等的问题

只要避开错误案例就可以了

EasyNegative

image-20240608022644934

image-20240608022654146

放入负面提示词里

image-20240608022738614

就修复了

综合的、全方位的基于负面样本的提炼

灰度,多人、等等

image-20240608022911783

{3}LoRa

低秩适应模型

固定特定人物角色特征

作用:有助于向Ai传递/描述某一个特征准确/主体清晰的形象

夹在书中的彩页100-200M

各方各个方面的素材、角度、画风等

image-20240608023127368

有些模型会提供触发提示词——训练过程中有基于这个提示词反复强化过AI认知

image-20240608023151179

也可以加入进行强化效果

image-20240608023404073

[1]lora会出现一些小问题

因为它的训练图源复杂、

所以一般也会对画风进行影响

权重减小

image-20240608023545687

[坑-深入]有专门为Lora的插件应用。

5.模型下载渠道

midjourney的提供的模型数量有限

默认的模型也能实现挺好的效果,

SD官方也有1.4、2.0等开源模型
官方的炉在版权和尺度有限制

0.个人训练发布并分享的模型 大多数是“私炉模型”

1.Hugging face使用方法

允许用户共享AI学习模型和数据集的平台

搜索栏中搜索stable diffusion中可以下载

筛选栏中可以找到

WaifuDiffusion
Anything
DreamShop
files and version中看源代码

- 大模型在Safey_checker找

image-20240608011402645

- vae就在vae中找
community可以交流

2.C站

iativic.com

不注册可使用,火热的模型

image-20240608011810142

trained的模型

根据图像一点点训练出来的,一手的丹。

Merged融合模型

几个模型融合到一起创造出来的。一般叫xxxMIx

【坑】Base model

模型训练过程中的底模

image-20240608012033203

四、模型的类目及推荐

1.漫画/插画风:二次元

  • Anything、Counterfeit、Dreamlike Diffusion等

2.真实系

  • Deliberate、Realistic Vision、LOFI等

3.2.5D风

  • NeverEnding Dream、Protogen、国风V3

—- 质感类似于建模软件出来的三维渲染图,不如平面那么平,也不如真实那么真。

很接近一些游戏和3D动画的想象

image-20240608012652918

image-20240608012729191

Counterfeit

细节感、精致感、各种复杂室内外场景

image-20240608012757564

Dreamlike Diffusion

漫画插画风

幻想的超现实魔幻作品

image-20240608012945130

Deliberate

真实系的,自由度非常高

Realistic Vision

朴素踏实、有整活空间的写实模型。

事物、动物图片等

LOFI-融合模型

人物面部处理精致

NED模型

造人的方面有一股特殊

Protogen

image-20240608013223551

image-20240608013237249

国风3

结合其他lora模型能创作

image-20240608013326172

image-20240608013333408

4.小类模型

魔幻感场景

image-20240608014358134

现代建筑

image-20240608014341690

高级感的平面设计

image-20240608014413594

image-20240608014423313

高清

1.Hi-Res Fix

高清修复/高分辨率修复/

image-20240608014526472

皮肤分辨率太低人物皮肤模糊、人物面部不真实——

如果用大分辨率的会有缺点

image-20240608014719973

1.采样次数:

高清修复需要经过一次重绘、因此需要设置采样步数、保持默认0数值、它会和我们设置的采样次数(20)一致

image-20240608014859182

高清修勾,无法突破显存限制。

[1]低分抽卡+固定种子+高清修复

  • 加戏,降低重绘幅度可以消除。

    繁纷复杂的花、多出的戒指等等

  • 只是高清:0.3-0.5即可

  • 0.5-0.7——AI重绘空间

2.放大算法

image-20240608015301468

image-20240608015313901

感觉差不多,没有大到感觉很多区别

带有GAN的算法,重绘的细节保留更加准确

同行无脑方法image-20240608015513614

image-20240608015437826

无脑R-ESRGAN 4x+

二次元第二个

看模型的制作者推荐、或者自己试试。

小技巧-简便高清方法

图库浏览器中,点击已经号的图片,再点击图生图。

会自动填写信息

3.放大算法设置

image-20240608015744098

设置-放大-图生图算法设置

2.Upscale放大脚本_SD放大

简便方法-

image-20240608020022144

image-20240608020028472

图块重叠像素64——起到四张图片融合的缓冲带的作用

高度-宽度分别增加64

然后开始。

image-20240608020221435

image-20240608020255533

画面会混乱

[1]如果脸在切割的地方

-降低重绘幅度-增大图块重叠度

3.附加功能放大

image-20240608020438866

人工智能算法修复

一般成品的算法修复

image-20240608020531338

image-20240608020539180

也可以不选Upscaler 2

[2

[坑]下面的三个比较复杂

局部重绘

1.随机种子+咒语修改的问题

即使随机种子一致,但是咒语还是修改了,出现了画面不可控的样子

所以会有,不同姿势等问题

如果是已经经过了高清修复和放大,那么要耗费的时间就更长了

99%都是满意的,1%

直接点击-局部重绘,其他素材图片也可以

image-20240608024948878

image-20240608025001368

image-20240608024955419

修改咒语+重绘幅度修改

image-20240608025145554

会出现笔尖,涂抹好重绘区域

下方参数设置

image-20240608025205286

重绘过程:整个图片经历了重新加噪然后去噪的过程。

眼睛部分被强调了,最后的效果是只针对这个区域的重绘了

image-20240608025422845

局部修复参数

image-20240608025445349

1.蒙版:

image-20240608025541157

可以写填充

image-20240608025547167

【坑】潜变量噪声、潜变量数值零

简答说:图生图的过程进一步复杂化、加入加噪、去噪的过程。

理论上对图像的改变会更显著

image-20240608025805857

2.全图、3.仅蒙版

image-20240608025831746

2.全图:

基于新的要求(提示词、参数)把图重新画一遍【我觉得受到重绘幅度的影响】,尽管没涂的部分修改很小,但是还是有点点点点

image-20240608025841974

最后只保留你涂的部分拼回去

3.仅蒙版:

就是只画框选出来的区域附近,速度快,但是没有基于图像全貌画。然后再拼回去。把这一小块当做一幅画来画。

image-20240608030516917

[坑]针对性强的修改、反而需要修改图片的尺幅:降低重绘幅度避免变形,并对提示词净化处理。
1.仅蒙版模式的边缘预留像素

4.蒙版模糊——类似羽化

消除硬接触的边缘

10以下比较好

image-20240608030910718

image-20240608030952522

太大会影响区域的读取或影响周边其他区域

image-20240608031043864

区域大可以增大,区域小可以缩小。

局部重绘进阶

[1]inPaintSketch(手涂蒙版)

调色盘按钮

修复的坏的手等

image-20240608031222384

加蓝色爱心口罩

调色盘按钮—选黑色—画口罩——

image-20240608031407948

image-20240608031428491

重绘幅度可以稍大

蓝色

咒语中权重降低了,因为咒语的东西复杂了,让它更稳定的产出

image-20240608031524981

image-20240608031533215

image-20240608031625831

玩法无限可能性大

吸管吸取背景,覆盖手的颜色,然后用肉色把手勾勒出来。

image-20240608031815036

正向提示词用上,击掌等

负面提示词中用Negative Embeddings

image-20240608031832010

image-20240608031918786

1.蒙版透明度

颜色映在图片上的透明度

降低重绘幅度——因为太大了会让手部线条模糊+蒙版模糊也不宜过大

如果不满意,那么随机种子多试试。

单独使用Sketch(绘图)

直接使用Sketch

image-20240608032306898

然后重新对整个图进做一个完整的图生图,肯定会对原图有影响。

——灵魂画手功能的实现可以用这个

不想影响就用局部修复即可

[2]上传蒙版功能应用

image-20240608032708812

上传蒙版区域

PS主体的对象选择工具,框选工具,会自动框选出来,然后套索工具-alt-ctrl-可以增加减少

然后再

image-20240608032957611

image-20240608033009061

先定义为白色

image-20240608033024541

然后选中填充的图层复制一个

然后双击该图层前面的小白方块、填充颜色改为黑

单机长方形

image-20240608033139847

这个长方形就是PS的蒙版了

选中ctrl+I交换蒙版区域,就黑白换过来了。

就导出来PNG、jpg就可了。

人为代替了蒙版选择的了

image-20240608033313482

[坑]其他软件进行关联,无穷的潜力挖掘

image-20240608033407765

image-20240608033414055

image-20240608033422690

image-20240608033434707

更为精确的手部修复。

总结

1.SD(Stable Diffusion)基本操作

  • 使用菜单选择不同的模型(Checkpoint)。
  • 包括 Lora 模型,提供更精确的人物或画风控制。

2.图生成图

  • 上传图片并描述,使用 DeepBooru 算法反推标注。

  • 调整重绘幅度和分辨率,生成无缝贴图。

  • 包括聚焦剪裁、中央剪裁等操作,通过观察损失值调整训练过程。

3.Prompt模板和提示词

  • 设计提示词模板,权重分配和增强减弱方法。

4.VAE(Variational Auto Encoder)

  • 使用加噪和去噪处理转换潜空间数据为正常图像。

5.Hypernetwork超网络模型

  • 改进画面整体风格,与Lora类似但更适合创造新元素。

.6Embeddings嵌入式向量

  • 优化画风,通过小文件链接到特定形象。

7.LoRa低秩适应模型

  • 固定特定人物角色特征,更清晰地表达形象。

8.模型下载渠道

  • Hugging Face、C站等平台获取和共享模型和数据集。

在漫长的 小时 分钟中
· 写下 17 篇文章、总计 7.16 k 字
· 迎接次不期而遇。