Stable Diffusion 部署与使用教程

前言：开源AI图像的巅峰之作

Stable Diffusion是目前最受欢迎的开源AI图像生成模型，由Stability AI发布，以其开源免费、本地部署能力和强大的社区生态著称。与Midjourney不同，Stable Diffusion可以完全本地运行，不依赖任何云服务，数据完全私有，适合对隐私有要求的用户和开发者。

本文将详细介绍Stable Diffusion的本地部署方法、WebUI使用技巧、模型选择，以及实际创作中的最佳实践，帮助你快速上手这款强大的开源AI图像工具。

一、环境准备

1.1 硬件要求

Stable Diffusion对硬件有一定要求，建议配置：

显卡：NVIDIA显卡，显存至少8GB（推荐12GB以上）
内存：16GB RAM
硬盘：至少20GB可用空间（模型文件较大）
操作系统：Windows 10/11、Linux、macOS（需M1/M2芯片）

1.2 快速上手：官方托管版

如果不想本地部署，可以使用官方提供的在线版本：

访问 Clipdrop（Stability AI旗下平台）
国内可访问的平替：Stable Diffusion Web

1.3 本地部署方案选择

本地部署有多种方案：

AUTOMATIC1111 WebUI：最流行，功能最全，社区支持最好（推荐）
ComfyUI：节点式工作流，适合进阶用户
SD.Next：WebUI的现代化分支
InvokeAI：面向专业艺术家的界面

二、本地部署（AUTOMATIC1111）

2.1 安装前置条件

Windows用户需要先安装：

Python 3.10.6：官网下载（安装时勾选"Add Python to PATH"）
Git：官网下载
NVIDIA驱动：确保显卡驱动为最新版本

2.2 下载与安装

在命令行执行：

# 克隆仓库
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

# 进入目录
cd stable-diffusion-webui

# 下载基础模型（SD 1.5或SDXL）
# 将模型文件放入 models/Stable-diffusion 目录
# 推荐起始模型：v1-5-pruned-emaonly.safetensors

2.3 启动WebUI

Windows用户双击 webui-user.bat，Linux/macOS用户运行：

./webui.sh

首次启动会自动下载依赖，耐心等待。启动成功后，控制台显示本地地址，通常为 http://127.0.0.1:7860，在浏览器中打开即可使用。

三、基础使用

3.1 界面布局

WebUI主要分为：

顶部左侧模型选择器：切换不同的checkpoint模型
左侧提示词区：正向提示词（Positive Prompt）和反向提示词（Negative Prompt）
中部生图参数：采样方法、步数、尺寸、批次数量等
右侧图片输出区：生成后显示图片及操作按钮

3.2 核心参数说明

Prompt（提示词）：描述你想生成的内容，越具体越好
Negative Prompt（反向提示词）：输入不希望出现的元素
Sampling Steps（采样步数）：20-50步，推荐28-35步
Width / Height（尺寸）：512x512到1024x1024，推荐512x768竖图或768x512横图
CFG Scale（引导强度）：7-12之间，推荐7-9
Batch count / Batch size：生成图片数量

3.3 提示词写作技巧

高效提示词结构：

# 主体描述
1girl, beautiful face, detailed eyes, long flowing hair

# 风格和质量标签
masterpiece, best quality, highly detailed, digital art, illustration

# 光线和环境
soft lighting, golden hour, outdoor, nature background

# 画质强化（通常放反向提示词）
worst quality, low quality, blurry, deformed, extra limbs

四、进阶技巧

4.1 LoRA模型使用

LoRA（Low-Rank Adaptation）是小型定制模型，用于调整生成风格或添加特定角色：

下载LoRA文件（通常为.safetensors格式）
放入 models/Lora 目录
在提示词中使用 <lora:模型名:权重> 调用

1girl, <lora:add_detail:0.8>, beautiful face, detailed eyes

4.2 ControlNet精准控制

ControlNet是强大的控制插件，可以根据输入图片/线条/深度图等条件控制生成：

Canny：根据边缘线稿生成
Depth：根据深度图生成，保持空间结构
OpenPose：根据姿态图生成，保持人物姿势
Scribble：根据手绘草图生成

4.3 图生图（Img2Img）

上传一张图片，AI根据原图重新生成，常用于：

图片放大和细节增强（Extras）
风格转换
局部重绘（Inpainting）
图片扩展（Outpainting）

4.4 模型选择建议

SD 1.5：最成熟，资源最多，新手入门首选
SD 2.1：分辨率提升，但生态不如1.5
SDXL 1.0：最新一代，画质最好，硬件要求高
Realistic Vision：写实风格人像
Anything V5：动漫风格
Protogen：综合风格

五、实际案例

5.1 案例一：写实人像

正向提示词：
portrait photo of a young woman, detailed skin texture, natural lighting, shot on Canon EOS R5, 85mm lens, professional photography, 8k, realistic

反向提示词：
anime, cartoon, illustration, painting, worst quality, low quality, blurry, deformed, extra fingers

参数建议：Steps 30, CFG 7.5, DPM++ 2M Karras, 512x768

5.2 案例二：建筑概念设计

正向提示词：
futuristic sustainable architecture, vertical garden, solar panels, glass and steel facade, award winning design, architectural visualization, render style, studio lighting, 8k

反向提示词：
worst quality, low quality, blurry, deformed, watermark, signature

参数建议：Steps 35, CFG 8, DPM++ 2M Karras, 768x512

5.3 案例三：游戏角色设计

正向提示词：
fantasy game character design, warrior female, detailed armor, sword and shield, dynamic pose, concept art, artstation trending, highly detailed, digital art

反向提示词：
realistic, photo, worst quality, low quality, deformed

参数建议：Steps 40, CFG 9, DPM++ 2M Karras, 512x768

六、常见问题

Q1: 显存不足（CUDA out of memory）怎么办？

尝试：降低图片尺寸到512x512、减少采样步数、开启xformers优化、或使用--lowvram模式。如果显卡只有6GB，建议使用SD 1.5而非SDXL。

Q2: 生成图片模糊或不清晰？

增加采样步数到30以上、使用更精细的提示词、开启Hires. fix（高清修复）进行二次放大、确保使用了高质量的checkpoint模型。

Q3: 如何生成中文提示词？

推荐在 Stable Diffusion WebUI 中安装 translate 插件自动翻译，或使用 ChatGPT/Claude 等工具将中文转为英文提示词。

Q4: 如何安装ControlNet？

在 Extensions → Install from URL 中输入 https://github.com/Mikubill/sd-webui-controlnet，安装后重启WebUI，并下载对应的ControlNet模型文件放入 models/ControlNet 目录。

Q5: 生成的图片和预期差距大？

提示词要具体且结构化；多尝试不同的checkpoint模型；利用图生图功能以参考图为基础调整；适当调低CFG值（7左右）获得更贴近提示词的结果。

七、优缺点总结

优点

完全开源免费，可本地私有部署
模型生态丰富，LoRA、Checkpointousands可选
高度可定制，社区插件丰富
数据完全私有，适合商业项目
不依赖云服务，断网可用

缺点

对硬件有一定要求，入门门槛较高
需要一定的学习和调参时间
Windows用户配置过程较繁琐
部分优质模型需要自行下载
生成速度取决于显卡性能

结语

Stable Diffusion是AI图像生成领域最强大的开源工具，适合愿意投入时间学习的用户。其完全私有的部署方式和丰富的社区生态，使其在专业设计师和开发者群体中广受欢迎。建议新手从AUTOMATIC1111 WebUI + SD 1.5开始，熟悉基础操作后再尝试SDXL、LoRA、ControlNet等进阶功能。