Stable Diffusion 部署与使用教程

前言:开源AI图像的巅峰之作

Stable Diffusion是目前最受欢迎的开源AI图像生成模型,由Stability AI发布,以其开源免费、本地部署能力和强大的社区生态著称。与Midjourney不同,Stable Diffusion可以完全本地运行,不依赖任何云服务,数据完全私有,适合对隐私有要求的用户和开发者。

本文将详细介绍Stable Diffusion的本地部署方法、WebUI使用技巧、模型选择,以及实际创作中的最佳实践,帮助你快速上手这款强大的开源AI图像工具。

一、环境准备

1.1 硬件要求

Stable Diffusion对硬件有一定要求,建议配置:

  • 显卡:NVIDIA显卡,显存至少8GB(推荐12GB以上)
  • 内存:16GB RAM
  • 硬盘:至少20GB可用空间(模型文件较大)
  • 操作系统:Windows 10/11、Linux、macOS(需M1/M2芯片)

1.2 快速上手:官方托管版

如果不想本地部署,可以使用官方提供的在线版本:

1.3 本地部署方案选择

本地部署有多种方案:

  • AUTOMATIC1111 WebUI:最流行,功能最全,社区支持最好(推荐)
  • ComfyUI:节点式工作流,适合进阶用户
  • SD.Next:WebUI的现代化分支
  • InvokeAI:面向专业艺术家的界面

二、本地部署(AUTOMATIC1111)

2.1 安装前置条件

Windows用户需要先安装:

  • Python 3.10.6官网下载(安装时勾选"Add Python to PATH")
  • Git官网下载
  • NVIDIA驱动:确保显卡驱动为最新版本

2.2 下载与安装

在命令行执行:

# 克隆仓库
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

# 进入目录
cd stable-diffusion-webui

# 下载基础模型(SD 1.5或SDXL)
# 将模型文件放入 models/Stable-diffusion 目录
# 推荐起始模型:v1-5-pruned-emaonly.safetensors

2.3 启动WebUI

Windows用户双击 webui-user.bat,Linux/macOS用户运行:

./webui.sh

首次启动会自动下载依赖,耐心等待。启动成功后,控制台显示本地地址,通常为 http://127.0.0.1:7860,在浏览器中打开即可使用。

三、基础使用

3.1 界面布局

WebUI主要分为:

  • 顶部左侧模型选择器:切换不同的checkpoint模型
  • 左侧提示词区:正向提示词(Positive Prompt)和反向提示词(Negative Prompt)
  • 中部生图参数:采样方法、步数、尺寸、批次数量等
  • 右侧图片输出区:生成后显示图片及操作按钮

3.2 核心参数说明

  • Prompt(提示词):描述你想生成的内容,越具体越好
  • Negative Prompt(反向提示词):输入不希望出现的元素
  • Sampling Steps(采样步数):20-50步,推荐28-35步
  • Width / Height(尺寸):512x512到1024x1024,推荐512x768竖图或768x512横图
  • CFG Scale(引导强度):7-12之间,推荐7-9
  • Batch count / Batch size:生成图片数量

3.3 提示词写作技巧

高效提示词结构:

# 主体描述
1girl, beautiful face, detailed eyes, long flowing hair

# 风格和质量标签
masterpiece, best quality, highly detailed, digital art, illustration

# 光线和环境
soft lighting, golden hour, outdoor, nature background

# 画质强化(通常放反向提示词)
worst quality, low quality, blurry, deformed, extra limbs

四、进阶技巧

4.1 LoRA模型使用

LoRA(Low-Rank Adaptation)是小型定制模型,用于调整生成风格或添加特定角色:

  1. 下载LoRA文件(通常为.safetensors格式)
  2. 放入 models/Lora 目录
  3. 在提示词中使用 <lora:模型名:权重> 调用
1girl, <lora:add_detail:0.8>, beautiful face, detailed eyes

4.2 ControlNet精准控制

ControlNet是强大的控制插件,可以根据输入图片/线条/深度图等条件控制生成:

  • Canny:根据边缘线稿生成
  • Depth:根据深度图生成,保持空间结构
  • OpenPose:根据姿态图生成,保持人物姿势
  • Scribble:根据手绘草图生成

4.3 图生图(Img2Img)

上传一张图片,AI根据原图重新生成,常用于:

  • 图片放大和细节增强(Extras)
  • 风格转换
  • 局部重绘(Inpainting)
  • 图片扩展(Outpainting)

4.4 模型选择建议

  • SD 1.5:最成熟,资源最多,新手入门首选
  • SD 2.1:分辨率提升,但生态不如1.5
  • SDXL 1.0:最新一代,画质最好,硬件要求高
  • Realistic Vision:写实风格人像
  • Anything V5:动漫风格
  • Protogen:综合风格

五、实际案例

5.1 案例一:写实人像

正向提示词:
portrait photo of a young woman, detailed skin texture, natural lighting, shot on Canon EOS R5, 85mm lens, professional photography, 8k, realistic

反向提示词:
anime, cartoon, illustration, painting, worst quality, low quality, blurry, deformed, extra fingers

参数建议:Steps 30, CFG 7.5, DPM++ 2M Karras, 512x768

5.2 案例二:建筑概念设计

正向提示词:
futuristic sustainable architecture, vertical garden, solar panels, glass and steel facade, award winning design, architectural visualization, render style, studio lighting, 8k

反向提示词:
worst quality, low quality, blurry, deformed, watermark, signature

参数建议:Steps 35, CFG 8, DPM++ 2M Karras, 768x512

5.3 案例三:游戏角色设计

正向提示词:
fantasy game character design, warrior female, detailed armor, sword and shield, dynamic pose, concept art, artstation trending, highly detailed, digital art

反向提示词:
realistic, photo, worst quality, low quality, deformed

参数建议:Steps 40, CFG 9, DPM++ 2M Karras, 512x768

六、常见问题

Q1: 显存不足(CUDA out of memory)怎么办?

尝试:降低图片尺寸到512x512、减少采样步数、开启xformers优化、或使用--lowvram模式。如果显卡只有6GB,建议使用SD 1.5而非SDXL。

Q2: 生成图片模糊或不清晰?

增加采样步数到30以上、使用更精细的提示词、开启Hires. fix(高清修复)进行二次放大、确保使用了高质量的checkpoint模型。

Q3: 如何生成中文提示词?

推荐在 Stable Diffusion WebUI 中安装 translate 插件自动翻译,或使用 ChatGPT/Claude 等工具将中文转为英文提示词。

Q4: 如何安装ControlNet?

在 Extensions → Install from URL 中输入 https://github.com/Mikubill/sd-webui-controlnet,安装后重启WebUI,并下载对应的ControlNet模型文件放入 models/ControlNet 目录。

Q5: 生成的图片和预期差距大?

提示词要具体且结构化;多尝试不同的checkpoint模型;利用图生图功能以参考图为基础调整;适当调低CFG值(7左右)获得更贴近提示词的结果。

七、优缺点总结

优点

  • 完全开源免费,可本地私有部署
  • 模型生态丰富,LoRA、Checkpointousands可选
  • 高度可定制,社区插件丰富
  • 数据完全私有,适合商业项目
  • 不依赖云服务,断网可用

缺点

  • 对硬件有一定要求,入门门槛较高
  • 需要一定的学习和调参时间
  • Windows用户配置过程较繁琐
  • 部分优质模型需要自行下载
  • 生成速度取决于显卡性能

结语

Stable Diffusion是AI图像生成领域最强大的开源工具,适合愿意投入时间学习的用户。其完全私有的部署方式和丰富的社区生态,使其在专业设计师和开发者群体中广受欢迎。建议新手从AUTOMATIC1111 WebUI + SD 1.5开始,熟悉基础操作后再尝试SDXL、LoRA、ControlNet等进阶功能。