2500字长文｜设计师视角解释AI绘画底层原理

2500字长文｜设计师视角解释AI绘画底层原理

2024-12-27 04:44

hello，大家好，我是想象。

今天给大家带来的分享是如何通过设计师视角，用设计师语言帮助大家快速理解AI绘画的底层逻辑。

作为一名设计师，我也在很长一段时间不清楚AI绘画到底是怎么出图的，如果没有了解本质，只是了解大概，不理解里面各个参数后面的原理，那么之后面临的最直接的一个问题是不知道怎么微调模型，只能照着人家的教程1:1模仿，就无法进行原创，更别谈通过实际业务来搭建属于自己的模型和comfyui工作流了。

知其然，不知其所以然是不可取的，这就是“知识”和“懂”的区别，所以这篇文章就让我们一起解决下“根”的问题。我将以设计师的语言尽我所能帮助大家理解AI绘画出图原理。

为了搞明白其中的原理，我咨询了前端工程师，后端工程师，算法工程师，产品经理、运营人员等，最后终于明白了七七八八，感谢他们的倾囊相授。

我不能保证大家能理解很全面，但是我能保证大家看完后，对AI绘画有一个比较整体的理解。

首先，有三个基本的问题需要先解决下：

什么是AIGC
什么是stable diffusion
什么是comfyui

1.什么是AIGC

AIGC的全名叫做（Artificial Intelligence Generated Content：生成式人工智能），通过机器学习，AIGC能根据自己学习到的内容，主动创作出新的类似的内容，我们可以理解为“好学”。那么AIGC能学习什么，又能生成什么呢？

从目前的主流产品来看，AIGC能生成内容大致有：文本、代码、图片、视频和音频。

2.什么是Stable Diffusion

Stable Diffusion（稳定扩散）是AIGC中生成图片的一款工具，称之为图片生成类AI大模型，它的主要工作是根据文本的描述产生详细图像。我们可以理解为这款工具就是生成图片的，也是设计师最需要的工具，能解决的一个最直接的问题是，设计素材不用上网到处找了，自己给自己造一个就完事儿了。

下面这张图就是stable diffusion生成图片的全过程，其实就是从模糊变清晰的过程，这里面的原理我会在后面细讲。

他有一个竞对，叫做Midjourney，是图片类AIGC应用程序，虽然做的东西一样，但是呈现方式和解决路径不同，针对的用户群体也不同，sd（Stable Diffusion）相较于Mj（Midjourney），可控性更强，功能更丰富，定制化也更强，而且是开源的。当然mj也有自己的优势，比如操作简单，好理解，sd的上手难度比mj会高很多。

3.什么是ComfyUI

因为stable diffusion是个大模型，就需要一个界面来承载模型，方便用户使用，这个界面就叫做Comfyui，从本质上讲,ComfyUI是构建在Stable Diffusion之上的基于节点的图形用户界面(GUI),而Stable Diffusion是一种最先进的深度学习模型,可以根据文本描述生成图像。

comfyui既然是GUI图形界面，那么就肯定会有产品界面的优化，所以优化之前的界面有个很熟悉的名字叫做webui，因此，得出结论，webui和comfyui其实是一个东西，只是展现方式不同，一个是页面操作，一个是节点操作。在上手难度上看，webui更容易理解，但出图的速度，comfyui更快捷，而且comfyui可以直接复用别人的工作流，喜欢用哪个，大家可以自己决定。

总结：

总结下这些关系，就是如果你想用AIGC生成图像，你现在有三款软件可以用，分布是webui、comfyui和midjourney，如图，至于用哪个，我会在下一期做更为详细的说明。如果简单区别，就是mj很难控制相同的角色，比如绘制漫画，很难做到人物统一，元素保持一致，这时候就需要用到sd，他能实现线稿上色，2D转3D，图片换风格，做到人物元素保持完全一致，即：精细可控。

OK，到这里，基本已经简单阐述了AIGC的基本概念，下面就是本章的重点内容，AI是怎么画画的？解决这个问题，其实本质是理解AI绘画是怎么自己思考的。要明白AI绘图的底层问题，其实很简单，只要我们理解了人是怎么学会画画的。

我们要先解决以下2个点：

人是怎么识别图片的？
AI是怎么识别图片的？

这里，请问，披着狼皮的羊，是狼还是羊？

答案是在人类看来，是狼，但是，AI会觉得是羊，为什么会出现两者皆然不同的答案，是因为人类看的是形状，AI看的是纹理。

人类会关注图片中的对象的形状，这是通过经验来获得的，看下图：

AI是怎么识别图片的？

AI研究的是图片中对象的纹路。我把它解释成“RGB色块的像素分布规律”，AI先把图片通过“加噪点”的方式将图片一点点扩散，类似photoshop中的添加杂色。这个过程叫做正向扩散。

之后，提取每个小色块的RGB，这样就把一张图片变成了由一堆像素数据组成的排列组合，再通过一个标签（tag）来定义这一组像素数据，告诉AI，basketabll的像素是这种分布规律，足球football的像素是那种分布规律，AI就会记住每一张图片的像素分布规律特征。

当几千几万个同类物体都被AI识别之后，AI就会知道这类物体的像素分布特征，这个时候，再给AI识别一张类似的图片，AI就是根据该图片的特征和之前存储的特征进行比对判断，最后给出结果。这里用到了两个很重要的技术：人工神经网络和深度学习，鉴于超纲，我们知道即可。

人工神经网络，就是类似于人类中大脑的神经元，它可以将相关的知识进行连接，是一种模仿生物神经网络（动物的中枢神经系统，特别是大脑）的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。所以，上面的篮球在深度学习之后就会变成一个类似“神经元”的东西存在系统里。这里的神经元会通过一个数字来表达。

好了，这个时候，当你跟AI说，帮我画一张篮球的照片，AI就会在已经学习的几百上千张篮球图片中去找特征，然后得到一张类似的像素分布图。本质就是模仿。

仔细想想，这其实非常类似人类绘画、书法的过程，拿书法举例，一开始我们不停地临摹大师的书法，当临摹的次数愈来越多，技能也就越来越熟练，慢慢就会有形成自己的风格，这种风格独一无二，跟谁都不一样，但是是从不断学习“大书法家”的字体中习得到的，学到的不是“形”，而是“神”，也就是行话里面的“神韵”。所以每一位大书法家都会说我的字是“取法”于王羲之，柳公权或者是魏碑。

AI绘画也是如此，它学到的是每一个字，每一个笔画的“规律”，然后根据这个规律，“模仿”出类似的效果。

ok，到这里相信大家已经对AI绘画的原理有个基本的认识，还差最后一步，AI是怎么把像素分布的一堆数字变成一张图片的，这里用到的技术是“反向扩散”。在AI识图的时候，是先把图片“正向扩散”成像素分布，最终出图的时候，就是把这个过程倒着推导一遍，可以给大家举个类似的画面，就是沙画。

diffusion model 扩散原理比喻

如果大家对这个感兴趣，可以推荐大家去stable diffusion 官网做深度了解：

https://stability.ai/

今天的分享就写到这里，感谢大家。从这一章中，我们主要了解到：

AIGC的定义：生成式人工智能
stable diffusion和midjourney的区别：控图效果不一样
AI识图的底层逻辑：提取像素分布规律
人工神经网络和深度学习：对函数进行近似估算
AI绘图的底层逻辑：扩散原理

AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。

感兴趣的小伙伴，赠送全套AIGC学习资料和安装工具，包含AI绘画、AI人工智能等前沿科技教程，模型插件，具体看下方。

AIGC所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

工具都帮大家整理好了，安装就可直接上手！

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。