如何利用Stable Diffusion做淘宝模特图！-叁心笔记

注：本教程只适用于 Windows 电脑

使用的软件：Stable Diffusion

Stable Diffusion怎么安装在电脑上，本篇文章不做介绍，大家可以自己去找找如何在电脑上安装Stable Diffusion

也可以看这篇文章：Stable Diffusion 安装教程

保姆级教程：如何训练一个服装模型

准备：看看自己的显卡，安装必备软件

选显卡的时候，主要看算力和显存。其中，显存的重要性主要体现在以下两个方面：

训练模型时有更大的显存，就能用上更高清的素材；
生成图片如使用放大算法，如果显存够大，放大倍数也能跟着上去。这样，生成的图片细节会更多，质量也会更高。

我在用的显卡是 RTX 3070 8G，应对本文的训练场景够用了。我在网上找到了一张“常见显卡 AI 跑图性能、性价比表”，供大家参考：

接下来，准备 Kohya_ss 版本的 LoRA 脚本需要的环境：

安装 Python 3.10（https://www.python.org/ftp/python/3.10.9/python-3.10.9-amd64.exe），下载成功后，直接双击安装，唯一需要注意的是勾选【add python to the ‘PATH’ environment variable】；
安装 Git（https://git-scm.com/download/win），找到你电脑的对应版本号，下载，安装；
安装 Visual Studio 2015, 2017, 2019 和 2022 的可再开发组件（https://aka.ms/vs/17/release/vc_redist.x64.exe），下载，安装。

在安装好 Python 3.10 和 Git 后，搜索 Powershell，点击右键，以管理员模式启动，输入【Set-ExecutionPolicy Unrestricted】后回车，接着会跳出一段文字，选择【A】回答【全是】即可，关闭该窗口。

然后，就可以安装 Kohya_ss 版本的 LoRA（https://github.com/bmaltais/kohya_ss）了。如果你想安装在电脑上某个特定位置，先在地址栏处敲击【cmd】，回车，你会进入这样一个命令窗：

将以下代码粘贴到窗口中：

git clone https://github.com/bmaltais/kohya_ss.git

cd kohya_ss

python -m venv venv

.\venv\Scripts\activate

pip install torch==1.12.1+cu116 torchvision==0.13.1+cu116 --extra-index-url https://download.pytorch.org/whl/cu116

pip install --use-pep517 --upgrade -r requirements.txt

pip install -U -I --no-deps https://github.com/C43H66N12O12S2/stable-diffusion-webui/releases/download/f/xformers-0.0.14.dev0-cp310-cp310-win_amd64.whl

cp .\bitsandbytes_windows\*.dll .\venv\Lib\site-packages\bitsandbytes\

cp .\bitsandbytes_windows\cextension.py .\venv\Lib\site-packages\bitsandbytes\cextension.py

cp .\bitsandbytes_windows\main.py .\venv\Lib\site-packages\bitsandbytes\cuda_setup\main.py

accelerate config

在执行【accelerate config】后，它将询问一些设置选项，请按照以下选项依次选择：

This machine No distributed training NO NO NO all fp16

执行完后，就算装好啦！

如图，文件夹的名字叫【Kohya】, 点进去后可以看到一个叫【kohya_ss】的文件夹。

我们还需要新建一个文件夹，比如【Lora Training Data】用来存放后续要用的训练数据。

准备训练：多找几张图

恭喜你成功到了这一步，接下来就是 fun part 啦！

先回答一个问题：到底需要准备多少张图做训练呢？能不能就喂一张图片？

我帮大家试了：

可见，AI 能学习到大致风格，模特穿着也像样，但没法还原花纹和细节。因为单张图片能提供的信息有限。所以，我们应该尽量给出衣服在各个角度的图像。

以这一款动物帽子为例，我准备了三个角度的图像。

虽然数量不多，但效果竟然还不错：

插播一句，图像的清晰度会直接影响到训练的质量，如果图片不够清晰，我一般会先用 Topaz Gigapixel 这类 AI 修复工具将它先放大处理。

再插播一句，为了让 AI 更有针对性地捕捉和学习到目标对象，我还会裁剪图片，尽量剪掉不必要的画面，让目标单品更显眼。

我们回到【Lora Training Data】文件夹中，在里面创建一个新文件夹，随便命名，我起的是【dongwumaozi】（动物帽子），然后在其中创建 3 个子文件夹，依次是【image】、【log】和【model】，如图：

接着，你在【image】这个文件夹里，再创建一个文件夹，格式是【数字_训练的概念】，【数字】指的是图片会被训练多少遍，我写了【100】（100 是默认训练次数，经试用，我觉得效果都不错），AI 就会把我每张照片训练 100 遍：

然后，将准备好的图像刚进去：

让 AI 自动给图像标注

接下来，我们要打开 kohya 脚本。到【kohya_ss】这个文件夹里，找到【gui.bat】这个运行文件。

双击后，你会看到这么一个窗口：

复制其中的地址到浏览器中，回车。

我们会在这个界面里，指导 AI 自动给图像做标注

选择上面的【Utilities】；
在【Captioning】下选择【BLIP Captioning】作为标注手段；
选择刚刚放图片的文件夹；
（可选）在【Prefix to add to BLIP aption】处，看是否加入自造词，方便在后续用模型时用这个词更高效地做出对应概念，比如我这个案例里就用【dongwumaozi】作为一个自造关键词；
点击【Caption images】，等待 AI 自动标注。

当你看到【captioning done】后，AI 就算是标注好了。

回到【image】文件夹后，就能看到和图片名称对应的 txt 文本描述了。如果你对机器标注的效果不太满意，打开 txt 文档手动修改，保存即可。

我也写累了，但快能开始训练了啊！

坚持住，最后再做些设置就可以开始训练了！

还是在刚才你执行 AI 标注的界面，点击【Dreambooth LoRA】，点击【Source Model】，选择你想进行训练的基础模型，默认可选 Stable Diffusion v1.5（也可以是你在 CivitAI 上下载的其他与 Stable Diffusion v1.5 平行的模型），底模我用的是 Deliberate。

需要提前下载的模型

Stable Diffusion V1.5 下载地址：

https://huggingface.co/runwayml/stable-diffusion-v1-5/tree/main

Deliberate 下载地址：

https://civitai.com/models/4823/deliberate

点击【Source Model】右侧的【Folders】，选择此前我们设置的【Lora Training Data】底下的【image】、【log】和【model】这三个文件夹。

目前在训练服装 LoRA 上，我感觉默认的训练参数效果已经很好，所以并没有再做额外的更改、调整。如果你对训练参数的设置感兴趣，可以去看看 Kohya 脚本的官方教程（https://www.youtube.com/watch?v=k5imq01uvUY&t=1597s）。

接下来，你就可以点击【Train Model】炼丹了！

在 3070 上，训练时长差不多在 30 分钟左右，出去跑个步或者冲个澡，模型就训练好啦！

一般默认参数训练出来的 LoRA 大小在 9 M 左右，在【model】这个文件夹里可以找到。

最后的最后，将 LoRA 文件拷贝到【stable-diffusion-webui】的 【models】文件夹里对应的【LoRA】文件夹处，再次重启 WebUI，点选出对应的 LoRA 后，写好关键词就可以生成“淘宝模特”图了：

以上图片皆由该 LoRA 生成。拿最后一张图举例，我提供以下关键词，供你参考：

正向关键词：dongwumaozi, masterpiece, best quality, photorealistic, a couple wearing black, posing for the camera, ((posing)), hugging, hands posing, (((cute couple))), wearing dongwumaozi, thick black knitted wool cap with pig ear shape decoration (loveboy’s logo label), ((black)), ((detailed face)), cinematic lighting, film poster, photo shoot, depth of field, film screeshot, soft light

另外，也可以输入一些常用的负向关键词，比如“bad hands”等，让 AI 消除这种生成可能。

以淘宝模特和时尚杂志开篇，后面全在讲 Python

虽然在生成“动物帽子”这个案例中，喂 3 张图就有不错的效果，但如果你的目标单品版型、材质都较为复杂，可能得备上 5 到 30 张不同角度的图，才能更好还原。

这篇教程就当是抛砖引玉，我期待能有更多朋友分享自己的训练经验和效果。

就我个人而言，比起 AI 模特，我在买衣服时更希望看真人试穿，因为这样材质和版型才更有参加价值。

不过，未来我可能会训练一个自己的模型，然后再去叠加服装的模型，看自己的试穿效果。

还在上学那会儿，我看日剧《校对女孩河野悦子》，剧里石原里美饰演的主角将不同服装搭配剪下来再贴在一起，以此寻找灵感。那时，我觉得时尚编辑就像是魔法师。而现在，AI 给了我更多创造的机会。

电商模特、虚拟时尚博主、服装设计师的灵感助手……AI 还有更多可被激发的潜力。

现在涌现的这些 AI，就像是一摊墨水，所有人似乎都可以来蘸一蘸，然后写下一些特别的字迹。

文章版权归作者所有，未经允许请勿转载。

THE END