Stable Diffusion 3

Stable Diffusion 3 终于开源了，2B参数的 Stable Diffusion 3 Medium 模型已经可以在HuggingFace上下载了：

https://huggingface.co/stabilityai/stable-diffusion-3-medium
https://github.com/CompVis/stable-diffusion

Stable Diffusion 3 Medium 的参数量为2B，大小适中，它非常适合在消费级个人电脑和笔记本电脑上运行，同时也适用于企业级GPU。

SD3 Medium的优势如下所示：

照片级真实感：克服了手部和面部常见的伪影问题，无需复杂的工作流程即可提供高质量的图像。
提示词遵循性：理解涉及空间关系、构图元素、动作和风格的复杂提示。
文字能力：借助Diffusion Transformer架构，在生成无伪影和拼写错误的文本方面取得了前所未有的成果。
资源高效：由于其低VRAM占用，非常适合在标准消费级GPU上运行，且不降低性能。
微调：能够从小数据集中吸收细微的细节，使其非常适合定制化。

另外，StabilityAI与NVIDIA合作，利用TensorRT来提升所有Stable Diffusion模型的性能，包括Stable Diffusion 3 Medium。经过TensorRT优化的版本，性能提升了50%，Stable Diffusion 3 Medium的TensorRT优化版本也将发布。

而且，AMD也已经针对包括AMD最新的APU、消费级GPU和MI-300X企业级GPU在内的各种AMD设备，对SD3 Medium的推理进行了优化。

除了模型之外，StabilityAI还直接放出了SD3的ComfyUI工作流：

实测comfyui上12GB显存就可以跑了：

作者：Ddd4j 创建时间：2024-07-09 12:25
最后编辑：Ddd4j 更新时间：2026-02-27 09:37

上一篇：图像模型（Image Models）
下一篇： PaddleOCR-VL