翻译: 简称 SD,使用词典翻译为:稳定扩散。
官方 Stable Diffusion 由 Stability AI 发布,使用 Python 语言开发的图像生成深度学习模型。
官方介绍: Stable Diffusion是一种基于扩散过程的图像生成模型,可以生成高质量、高分辨率的图像。它通过模拟扩散过程,将噪声图像逐渐转化为目标图像。这种模型具有较强的稳定性和可控性,可以生成具有多样化效果和良好视觉效果的图像。
GPT-4 给出的解释如下: Stable Diffusion是一种先进的深度学习模型,专注于生成高质量的图像。它属于生成对抗网络(GANs)的一种变体,但更具体地,它使用了变分自编码器(VAEs)和Transformer架构的组合,以实现在给定文本提示的情况下生成图像的能力。这种模型由CompVis团队和其他合作者开发,并于2022年公开发布。
Stable Diffusion的核心特点包括:
-
文本到图像生成:用户可以提供简短的文本描述(例如,“一只穿着宇航服的猫在月球上”),模型则能根据这些描述生成相应的图像。这种能力使其在艺术创作、游戏设计、广告和其他需要视觉内容的领域中非常有用。
-
高度定制化的输出:通过调整输入文本或模型的参数,用户可以控制生成图像的风格、细节等方面,从而获得高度定制化的输出。
-
开源和可访问性:Stable Diffusion的开源性质意味着研究人员、开发者和艺术家可以自由使用、修改和集成此模型,促进了人工智能领域的创新和应用。
-
高效性:与其他图像生成模型相比,Stable Diffusion在保持高质量输出的同时,对计算资源的需求相对较低,这使得它能够在不具备顶级硬件的设备上运行。
Stable Diffusion的应用场景非常广泛,包括但不限于:
- 艺术创作:艺术家和设计师可以使用它来生成独特的视觉作品或作为创作过程的一部分。
- 内容生成:在媒体和娱乐行业中,它可以用来快速生成图像或视觉内容,加速内容的生产。
- 教育和研究:在教育领域,它可以作为学习人工智能和计算机视觉概念的工具。同时,研究人员可以通过它探索图像生成和深度学习的新方法。
- 产品设计和原型制作:设计师可以利用它来生成设计概念或产品原型图,加速设计过程。 总之,Stable Diffusion是一个强大的工具,它将深度学习的最新进展应用于图像生成,为创意产业和技术研究提供了新的可能性。
SD 也是有多个版本,依旧目前官网 GITHUB NEWS 来看,截止 2024年01月30日,SD的当前版本为 V2,SD2.1-768
由 AUTOMATIC1111 发布的一个基于 Gradio 库的浏览器界面,用于 Stable Diffusion。
这样描述也就没有什么可说了,SD 的使用是需要通过命令方式进行的,有了界面,相对而言适合普通人操作了。
笔者说明: Stable Diffusion web UI 的安装过程主要在于 git,如果你是使用梯子或者代理安装,那么你可能需要通过下列命令设置一下本地 git 的代理:
其中的代理地址可以从系统代理中查看,win11中:设置-网络和Internet-手动设置代理。使用完成后,通过下列命令重置:
下面的命令是用于查看 git 代理情况的:
由 Lvmin Zhang 发布的一个基于 Gradio 库的图像生成软件,这里和 Stable Diffusion web UI 不同,并不是为 Stable Diffusion 服务的浏览器界面。
作者在项目中这样说的:
English:
Fooocus is a rethinking of Stable Diffusion and Midjourney’s designs:
- Learned from Stable Diffusion, the software is offline, open source, and free.
- Learned from Midjourney, the manual tweaking is not needed, and users only need to focus on the prompts and images.
中文:
Foocus 是对 Stable Diffusion 和 Midjourney 设计的重新思考:
- 从 Stable Diffusion 学习,该软件是离线的,开源的,免费的。
- 从 Midjourney 了解到,不需要手动调整,用户只需要关注提示和图像。
从这个描述中能猜出一点,Fooocus 应该也是基于 Stable Diffusion 实现的,但是对 Stable Diffusion 的功能做了二次封装,使得它的使用更简便。
笔者说明:
1、安装
Fooocus 的初次使用及初次使用某个功能时,都会触发对应的 Models 下载(可能也是其他什么文件,笔者暂时只知道是下载了一些文件),下载这些文件是需要梯子或者代理的,但是有意思的事,如果你开启了梯子或者代理,Fooocus可能无法运行,因为会报错:
2、汉化
直接在 Fooocus 官方 github 下的 Issues 中搜索 cn 关键词,截止目前(2024-01-30)有人申请合并过,但是作者好像没有同意,可以下载这个 cn.json 并放到 language 文件夹中,如果遇到缺少的英文汉化的情况,界面会依旧显示英文,可以自行在 cn.json 中补全
Midjourney 大家熟知的图像人工智能工具,收费,而且不便宜,Midjourney后台应该也具有自己的【图像生成深度学习模型】,由于是商业工具,公开信息相对有限,只能合理推测,它类似于其他先进的文本到图像生成技术,比如OpenAI的DALL·E或Stability AI的Stable Diffusion,依赖于深度神经网络来理解文本输入并生成相应的图像。
Midjourney的图像生成工具展示了深度学习在艺术和创意表达方面的潜力,允许用户探索和实现他们的创意想法,无论是用于个人项目、艺术创作还是商业应用。尽管Midjourney如何具体实现其技术的细节未完全公开,但它的存在无疑加强了AI在图像生成领域的应用和影响力。
这样一来,大家应该就知道这两者是什么样的相同的和不同点了。
相同点:
- 都是为了从文字生产图像
不同的:
- SD 是学习模型本身,而 Midjourney 是基于某种【图像生成深度学习模型】发布的工具
- SD 开源免费,Midjourney 商用收费,并且价格不便宜
CKPT(CheckPoint)
经过训练的图片合集,被称作模型,也就是chekpoint,体积较大,一般真人版的单个模型的大小在7GB左右,动漫版的在2-5个G之间。早期的CKPT后缀名是ckpt,如今新的CKPT后缀名都是safetensors。
Fooocus 的 CheckPoint 目录为:Fooocusmodelscheckpoints Web UI 的 Lora 目录为:stable-diffusion-webuimodelsStable-diffusion
Lora
是一种体积较小的绘画模型,是对大模型的微调。与每次作画只能选择一个大模型不同,lora模型可以在已选择大模型的基础上添加一个甚至多个。一般体积在几十到几百兆左右。后缀也是safetensors。比如有专门绘制人体部位的,比如专门画面部或者眼睛的 Lora。
一、AIGC所有方向的学习路线
AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、AIGC必备工具
三、最新AIGC学习笔记
四、AIGC视频教程合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例