前言:开源AI图像的巅峰之作
Stable Diffusion是目前最受欢迎的开源AI图像生成模型,由Stability AI发布,以其开源免费、本地部署能力和强大的社区生态著称。与Midjourney不同,Stable Diffusion可以完全本地运行,不依赖任何云服务,数据完全私有,适合对隐私有要求的用户和开发者。
本文将详细介绍Stable Diffusion的本地部署方法、WebUI使用技巧、模型选择,以及实际创作中的最佳实践,帮助你快速上手这款强大的开源AI图像工具。
一、环境准备
1.1 硬件要求
Stable Diffusion对硬件有一定要求,建议配置:
- 显卡:NVIDIA显卡,显存至少8GB(推荐12GB以上)
- 内存:16GB RAM
- 硬盘:至少20GB可用空间(模型文件较大)
- 操作系统:Windows 10/11、Linux、macOS(需M1/M2芯片)
1.2 快速上手:官方托管版
如果不想本地部署,可以使用官方提供的在线版本:
- 访问 Clipdrop(Stability AI旗下平台)
- 国内可访问的平替:Stable Diffusion Web
1.3 本地部署方案选择
本地部署有多种方案:
- AUTOMATIC1111 WebUI:最流行,功能最全,社区支持最好(推荐)
- ComfyUI:节点式工作流,适合进阶用户
- SD.Next:WebUI的现代化分支
- InvokeAI:面向专业艺术家的界面
二、本地部署(AUTOMATIC1111)
2.1 安装前置条件
Windows用户需要先安装:
2.2 下载与安装
在命令行执行:
# 克隆仓库
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
# 进入目录
cd stable-diffusion-webui
# 下载基础模型(SD 1.5或SDXL)
# 将模型文件放入 models/Stable-diffusion 目录
# 推荐起始模型:v1-5-pruned-emaonly.safetensors
2.3 启动WebUI
Windows用户双击 webui-user.bat,Linux/macOS用户运行:
./webui.sh
首次启动会自动下载依赖,耐心等待。启动成功后,控制台显示本地地址,通常为 http://127.0.0.1:7860,在浏览器中打开即可使用。
三、基础使用
3.1 界面布局
WebUI主要分为:
- 顶部左侧模型选择器:切换不同的checkpoint模型
- 左侧提示词区:正向提示词(Positive Prompt)和反向提示词(Negative Prompt)
- 中部生图参数:采样方法、步数、尺寸、批次数量等
- 右侧图片输出区:生成后显示图片及操作按钮
3.2 核心参数说明
- Prompt(提示词):描述你想生成的内容,越具体越好
- Negative Prompt(反向提示词):输入不希望出现的元素
- Sampling Steps(采样步数):20-50步,推荐28-35步
- Width / Height(尺寸):512x512到1024x1024,推荐512x768竖图或768x512横图
- CFG Scale(引导强度):7-12之间,推荐7-9
- Batch count / Batch size:生成图片数量
3.3 提示词写作技巧
高效提示词结构:
# 主体描述
1girl, beautiful face, detailed eyes, long flowing hair
# 风格和质量标签
masterpiece, best quality, highly detailed, digital art, illustration
# 光线和环境
soft lighting, golden hour, outdoor, nature background
# 画质强化(通常放反向提示词)
worst quality, low quality, blurry, deformed, extra limbs
四、进阶技巧
4.1 LoRA模型使用
LoRA(Low-Rank Adaptation)是小型定制模型,用于调整生成风格或添加特定角色:
- 下载LoRA文件(通常为.safetensors格式)
- 放入
models/Lora目录 - 在提示词中使用
<lora:模型名:权重>调用
1girl, <lora:add_detail:0.8>, beautiful face, detailed eyes
4.2 ControlNet精准控制
ControlNet是强大的控制插件,可以根据输入图片/线条/深度图等条件控制生成:
- Canny:根据边缘线稿生成
- Depth:根据深度图生成,保持空间结构
- OpenPose:根据姿态图生成,保持人物姿势
- Scribble:根据手绘草图生成
4.3 图生图(Img2Img)
上传一张图片,AI根据原图重新生成,常用于:
- 图片放大和细节增强(Extras)
- 风格转换
- 局部重绘(Inpainting)
- 图片扩展(Outpainting)
4.4 模型选择建议
- SD 1.5:最成熟,资源最多,新手入门首选
- SD 2.1:分辨率提升,但生态不如1.5
- SDXL 1.0:最新一代,画质最好,硬件要求高
- Realistic Vision:写实风格人像
- Anything V5:动漫风格
- Protogen:综合风格
五、实际案例
5.1 案例一:写实人像
正向提示词:
portrait photo of a young woman, detailed skin texture, natural lighting, shot on Canon EOS R5, 85mm lens, professional photography, 8k, realistic
反向提示词:
anime, cartoon, illustration, painting, worst quality, low quality, blurry, deformed, extra fingers
参数建议:Steps 30, CFG 7.5, DPM++ 2M Karras, 512x768
5.2 案例二:建筑概念设计
正向提示词:
futuristic sustainable architecture, vertical garden, solar panels, glass and steel facade, award winning design, architectural visualization, render style, studio lighting, 8k
反向提示词:
worst quality, low quality, blurry, deformed, watermark, signature
参数建议:Steps 35, CFG 8, DPM++ 2M Karras, 768x512
5.3 案例三:游戏角色设计
正向提示词:
fantasy game character design, warrior female, detailed armor, sword and shield, dynamic pose, concept art, artstation trending, highly detailed, digital art
反向提示词:
realistic, photo, worst quality, low quality, deformed
参数建议:Steps 40, CFG 9, DPM++ 2M Karras, 512x768
六、常见问题
Q1: 显存不足(CUDA out of memory)怎么办?
尝试:降低图片尺寸到512x512、减少采样步数、开启xformers优化、或使用--lowvram模式。如果显卡只有6GB,建议使用SD 1.5而非SDXL。
Q2: 生成图片模糊或不清晰?
增加采样步数到30以上、使用更精细的提示词、开启Hires. fix(高清修复)进行二次放大、确保使用了高质量的checkpoint模型。
Q3: 如何生成中文提示词?
推荐在 Stable Diffusion WebUI 中安装 translate 插件自动翻译,或使用 ChatGPT/Claude 等工具将中文转为英文提示词。
Q4: 如何安装ControlNet?
在 Extensions → Install from URL 中输入 https://github.com/Mikubill/sd-webui-controlnet,安装后重启WebUI,并下载对应的ControlNet模型文件放入 models/ControlNet 目录。
Q5: 生成的图片和预期差距大?
提示词要具体且结构化;多尝试不同的checkpoint模型;利用图生图功能以参考图为基础调整;适当调低CFG值(7左右)获得更贴近提示词的结果。
七、优缺点总结
优点
- 完全开源免费,可本地私有部署
- 模型生态丰富,LoRA、Checkpointousands可选
- 高度可定制,社区插件丰富
- 数据完全私有,适合商业项目
- 不依赖云服务,断网可用
缺点
- 对硬件有一定要求,入门门槛较高
- 需要一定的学习和调参时间
- Windows用户配置过程较繁琐
- 部分优质模型需要自行下载
- 生成速度取决于显卡性能
结语
Stable Diffusion是AI图像生成领域最强大的开源工具,适合愿意投入时间学习的用户。其完全私有的部署方式和丰富的社区生态,使其在专业设计师和开发者群体中广受欢迎。建议新手从AUTOMATIC1111 WebUI + SD 1.5开始,熟悉基础操作后再尝试SDXL、LoRA、ControlNet等进阶功能。