6000字干货！超全面的AI绘画基础知识扫盲

6000字干货！超全面的AI绘画基础知识扫盲

2024-12-27 03:26

最近大火的 AI 绘画，并不是一个全新的事物，早在 2015 年就已经出现了基于 GAN (生成对抗网络) 生成图像的 AI 应用实例，但因为技术的不成熟，并没有得到广泛的推广。

这两年因为显卡算力的增长和扩散模型的出现，AI 绘画迎来了一波热潮，大有要把设计师干失业的凶猛势头，无论是网上的社区还是微信社群，都弥漫着一股恐慌的气氛。

对于 UI 设计师来说，这种恐慌是无谓的、盲目的、幼稚的，但我光这么说是没用的，因为恐惧来源未知。就像之前一篇分享的评论中，很多夸大 AI 作用的设计师 “既不懂项目，也不懂 AI 是什么”……

所以，项目的分享前面已经做了很多，这篇分享主要用白话就和大家做一次基础的扫盲：

AI 绘画到底是什么
目前有哪些 AI 绘画工具
它们的生成方式和过程
相关的限制和阻力
可以应用的具体场景

AI 绘画是一种利用人工智能技术（其实就是机器学习算法）创作视觉作品的方法。

AI 绘画的应用，是部分科学家和工程师，先搭建了可以学习图像来自我完善和强化的技术，接着提供给它成百上千万的图像，让它通这些养分快速成长，理解不同的具体事物、光影、风格是什么。然后，当我们输入相关的文本信息指令时，它就会通过这些文本内容去匹配自己已经理解和记录的图形要素，并将它们绘制出来。

说是 AI，但它的本质依然是一种算法，一种对规律的记忆和复现，是一种数学化的总结和组合，并不是抽象的艺术思考和创作，距离多数人想象中真正的人工智能其实还差了很远。

目前市面上涌现出了一大批 AI 绘画工具，这里我介绍其中最有代表性的几个：Stable diffusion、Midjourney、Adobe Firefly。

1. Stable Diffusion

Stable Diffusion (简称 SD) 是一个可以本地部署的 AI 程序，因为其开源的属性，让大多数不想花钱且动手能力强的用户可以快速搭建并生成任意数量的结果。也能依据自己的需求和画风进行针对性的大模型训练，还可以扩展相关的插件和模型，包括对 VAE、Lora、Control net 等，包含了极多的设置选项和上限。

2. Midjourney

Midjourney (简称 MJ) 是市面上商业化最成功的在线 AI 绘画服务商，是一款运行在 Discord 上的程序（类似小程序），只需要进行几步简单的注册和操作就能登录使用。是目前影响力最大，使用人数最多的 AI 绘画工具。

2022 年有人拿着 MJ 生成的画参加科罗拉多州立博物馆举办的「Fine Art Exhibition」美术展，并获得了一等奖，就是下面这张：

虽然不知道这个奖项有多大的炒作成份，但是实打实的让 MJ 迎来了热度的大爆发，用户量在一个月之间增长了 4 倍。也由此可见 MJ 在对艺术绘画风格的生成上有着不俗的能力。当然 MJ 也有偏向二次元的 Niji 模型偏向真实摄影的 testp、V5 模型。

3. Adobe Firefly

Adobe Firefly 是 Adobe 自己开发的 AI 工具，是这几个 AI 生成工具中最年轻的，前不久刚刚推出 beta 测试。作为一家以软件工具作为核心业务的企业，Firefly 自带很深的生产力属性，除了在生成过程中提供表单式的选项外，还支持对生成内容进行图层分层，并导入到自家软件。

虽然 Firefly 目前才刚刚起步，但以 AI 绘画这种需要大量资源投喂的方向来说，Adobe 有得天独厚的优势，未来直接接入 PS、AI、AE 等工具是必然的，也是可以最贴合平面类设计工作的工具。

除了它们三个以外，还有别的很多绘图工具，不管是正在快速迭代的，还是开发中的，如 Dalle、NovelAI、NightCafe Creator、Tiamat、Imagen、Parti 等。

作为 AI 绘画的起步阶段，目前我们不能完全断言哪个工具最后会成为效果最好，最适合我们的。但可以肯定的是，整个行业都在快速成长，现状不能代表未来的格局。具体会发展到什么地步，就要拭目以待了。

就像把大象装进冰箱只需要三步，所有 AI 绘画基本上都分为这几个步骤：

1. 模型的预训练

步骤中这个潜在空间的映射过程，就是模型预训练的结果，也就是说你训练模型时是如何做文本到图片的对应的，那么生成时候就会大概率做同样的对应。

并且这种对应，是在模型训练完成就难以再修改的。因为模型训练的数据量和计算力需求极为庞大，所以除非大公司有庞大的资源进行模型训练，否则如果是使用现有的 AI 大模型，个人想要进行微调几乎是难以实现的。

举个例子来说，现有的 MJ 因为缺少字母数字字形的训练，所以生成的所有图形几乎都与具体的字形无关，哪怕你给它指定了图片中需要数字「0」，它也做不到，因为它脑瓜里没有这样的东西。

就像我让你画一个王鹫，你连这动物见都没见过，怎么可能画得出来。模型的作用就像你对世界的认识，没有输入和学习，就没有认识。

2. 图片生成器

市面上有好几个不同的方案来实现图片的最终生成，例如 MJ、Firefly 主要采用的 GAN（生成对抗网络），以及 SD 使用的扩散算法，还有 VAE (变分自动解码器)等等。

不过不管它们具体使用的方法是什么，其过程大致抽象如下：生成器首先生成一个低分辨率的图片，每一层神经网络会在此基础上添加不同层级的特征和细节，就好像 AI 慢慢地把一副模糊的，低细节的画，画得更清晰、细节更丰富。

在这个过程中，我们不能够进行人为干预，你想要更改其中的某些细节，就需要重新修改 Prompt (描述词)，让 AI 重新生成，并且还无法保证你的此次修改能否起效。因为我们无法理解 AI 是如何拆解你的 Prompt 并对应到图片上去的，对使用者来说，这就是一个「黑箱」。

3. 具体的图像生成

每个 AI 绘画工具都会有一个关键字输入框，通过对应语法输入相关的指令和描述，来生成图像。而每个工具对文本的理解和模型不同，即使用一样的描述生成的东西也不一样。根据前面预训练的说明，不同模型擅长的和画不了的东西也不一样。

所以，下面我们就用一组基本一样的关键词，在不同的工具中生成对应的结果：

这里要强调，想要获得越理想的结果，描述就要越准确，而且画面结果越复杂，需要描述的字数也就越多。需要氛围感越强，情绪的描写也就需要越生动。想象下那些描写生动的文学作品，能让我们脑子里有画面，语言的描述方式就越细致、越特别。

比如搭配 GPT-4 生成的 MJ 描述文本：

当 AI 帮助我们完成一幅画的时候，有很多元素它可以进行自定的补全，比如画个人，你可以不指定他有牙齿，但只要你打入 open smile 的话 AI 自然会根据正常情况去画出牙齿。

但我们进入到非常规的情况，比如 UI 设计，每一个 UI 界面都有它自己的独特性 —— 字段不同。也就是出现在这个画布中的所有内容信息不一致，这个是绝对不可能依托脑补实现的。

那么，即使有团队开发了非常强大的文生图 AI 绘图工具，也一样需要把画面中出现的字段全部输入一遍，即使再简单的字段，你也需要描述它在画面中出现的特征、权重、交互和属性。

你们可以想象下如果用文本方式去指定下面这些页面应该怎么完成：

AI 绘画再强大，能生成再多让你惊叹的画面，它也有自身的局限性。就像前面说的，它不是真正的 AI，仅仅只是 “一种对规律的记忆和复现，是一种数学化的总结和组合”。

1. 依赖模型

之前说过，AI 生成的图像是什么风格，极大程度依赖于它是如何接受训练的，市面上有很多专门针对特定风格的模型，都是这一特性之下出现的产物。

但这也并不能保证市面上有的模型就能百分之一百满足你的工作需要，有些工作方向符合条件的团队，可以自己训练模型，想要模型的效果好，就需要投入很多的人力去进行手工的筛选和打标，且最终的模型效果很难保证。

而 UI 这个领域目前没有这样模型，AI 也并没有建立对 UI 中不同元素的认识和理解，也就是让它生成 UI 界面是随机抄下这些元素进行组合来但根本不清楚自己在做什么。

2. 随机生成

生成器在生成低细节图片时，基本上就确定了构图，但这种确定是随机的确定，也就是说你通常很难指定图片中的某样东西，在图片中的哪个具体的位置。这种随机性会消耗设计师大量的精力来进行 rerolling，直到 AI 恰好随到了一个比较符合你预期的构图。

但这样一来，就太依赖 AI 的即兴发挥了，而在 UI 设计中，一个界面从上到下应该包含哪些模块，每个模块里包含哪些字段是指定的非常具体的，和它的随机性是完全背离的。

3. 指向性差

之前所举的 MJ 无法生成具体的数字/字母，就是一个指向性差的例子。

MJ 虽然非常擅长画人物，画山水，画建筑，但它非常不擅长画抽象的人造物。除了字形之外，它还不能在已有的 IP 形象基础上进行姿势、风格、3D 化变体；对图标、logo 的描绘也比较差 (几乎不可用)；对元素进行秩序排列也比较难做好。它太喜欢细节了，这些对人类来说更简单的东西反而画不明白。

尤其是在 UI 的领域中，我们往往对元素的制定有精确到像素的需要，已这种方式去要求 AI 显然是本末倒置的，只能增加更多的工作量。

4. 难以微调

AI 绘画的每一副图片都要重新生成一次，比如在 MJ 中，你随机无数次生成出接近自己想要的东西，但是要你要微调里面的内容时，却会发现做不到，每次调整就是生成一张新的图。

而在 SD 中，虽然可以使用图片局部编辑，但是那个编辑仅仅是根据周边环境对这个区域重新生成，能不能获得你要的结果还是得碰运气。这在 UI 界面输出的流程中是不可接受的，因为我们会在确定的设计稿中替换元素位置，或者用指定元素替代现有元素。

手动操作特别容易，但是 AI 的生成模式和我们日常的手动设计过程是完完全全不同的，所以它没办法支持，最后还是得靠我们自己去动手完成。

AI 插画确实可以在一些设计的领域起到革命性的作用，但目前多数是加快这些工作的效率和质量，而不是直接替代，下面罗列一些具体的应用场景。

1. 插画

首先肯定是插画的领域，这个是目前 AI 做的最好也最成熟的方向。不管是游戏 CG 还是概念插画、运营插画，它都可以很好的完成。

当然，基于前面说到的那些缺点，商用环境下是不会直接使用生成的结果上线的，而是要在这个基础上使用 PS 进行修改，或直接以此作为灵感重绘。

所以，要求稍高的商业插画即使引入 AI 依旧需要专业的插画师来操作，只是对他们的要求多了一项使用 AI 的技能。而最底层的插画工人确实失业风险已经近在眼前。

2. 游戏 UI

游戏 UI 也是插画的一部分，只是绘制的范围更小。过去游戏 UI 绘制界面中的图标是非常痛苦吃力的，一个简单的宝箱可能就要画很多版本，绞尽脑汁。而 AI 绘画就可以快速生成大量的版本，这些图直接拿来修改或临摹一遍，大大缩短了出图时间。

这也是 AI 插画目前影响最大的地方，因为游戏项目组是非常严格控制成本的，而 AI 带来的效率提升，让个人生成力飞跃，那么自然不再需要那么多的游戏 UI。只要团队跑通对应的流程，就可以立马开始裁员，精简团队的名额，这在各个头部大厂已经实际发生了。

3. 平面包装

平面包装方向也是一个重点依赖抽象图形的领域，对精确度的要求并不高，所以往往有一个模糊的方向和概念，设计师是乐于接受随机生成结果和样式的。

根据目前的实际产出案例质量，包装设计除了外部轮廓，可以大量依赖 AI 来生成需要喷刷的视觉图案。但要记住图案仅仅是包装设计的一小部分，它的结果依旧需要专业的设计师来审视、筛选和修改（需要铺开和添加指定文字），所以会成为一个非常好的工具而不是直接取代包装设计师。

4. 服装设计/摄影

在服装领域，设计和摄影都不同程度受到 AI 影响。服装设计很多时候仰赖一些抽象的灵感和思路，而 AI 的随机性可以很好的提供给设计师灵感，但不管生成的图质量有多高，都需要专业的设计师根据成本、流行、材料、季节的关系对它进行调整，重新绘制和打版。

而在成衣环节，很多时候要拍摄模特图片是要花费很大成本和时间的，而将设计好的服装在模特身上“试穿”已经成为可以实现的功能。虽然目前还有很多缺陷，但可以遇见的是未来肯定会有专用的产品上线，对低端商拍和模特行业产生直接的影响。

5. 建筑/室内

还有就是因为 Controlnet 的应用，AI 插画可以生成更细腻、丰富的室内建筑、室内效果图了，往往产出的质量还不错，远超低端设计师的工作效果。

但是，光靠这种效果图能完成最终建筑或室内设计吗？想想也知道不可能，因为实际场景包含的各种限制、参数、需求是没办法有效反馈给 AI 让它解决的。所以这些效果图依旧只是飞机稿，为设计师提供灵感的工具。

但可以相见的是，如果 AI 生成效果图那么好，未来如果能结合 3D 模型（如 Sketchup）直接生成，而略过使用 3D 软件渲染的步骤，那么一方面出图的时间大大缩短，另一方面设计师和客户的沟通将变得无比高效。

之所以最后提那么多应用的场景，就是为了让大家明白一件事，AI 目前的能做的事情，仅仅是 —— 生成位图。

除了需求比较基础和低级的低端插画市场，商业项目直接使用 AI 生成结果上线，只会引发灾难性的后果。即使 Adobe 走的更快一点，提供了图层的区分，但也仅仅是不同层的位图而已，还是要设计师打开 PS/AI 做调整。

因为视觉图像仅仅是不同设计领域中的一个部分而已，是需要结合进工作流和考虑各种外部影响的，这些判断是需要专业设计师来完成的。

随着 AI 的发展，不同的设计领域都会引入 AI 绘图结合进设计流程，但说到底它只是一个工具，不可能包办整个项目都出发到落地的所有细节，因为这些关键的信息是在三次元中产生的，而项目又不是工业生产线，可以完全标准化运作。

搞清楚这些内容的想法，你就不会轻易被恐慌情绪牵着鼻子走，做一个无知且惶恐的局外人了。

如果后面有时间，我们也会在这个基础上进一步更新成系列新的教学，指导大家如何安装和使用 SD、MJ、Firefly，并输出对应的内容。

想要看到这些的话，就记得多分享、点赞、留言～

我们下篇再贱…

欢迎关注作者的微信公众号：「超人的电话亭」