分享好友 最新动态首页 最新动态分类 切换频道
2500字长文|设计师视角解释AI绘画底层原理
2024-12-27 04:44

hello,大家好,我是想象。

今天给大家带来的分享是如何通过设计师视角,用设计师语言帮助大家快速理解AI绘画的底层逻辑。

作为一名设计师,我也在很长一段时间不清楚AI绘画到底是怎么出图的,如果没有了解本质,只是了解大概,不理解里面各个参数后面的原理,那么之后面临的最直接的一个问题是不知道怎么微调模型,只能照着人家的教程1:1模仿,就无法进行原创,更别谈通过实际业务来搭建属于自己的模型和comfyui工作流了。

知其然,不知其所以然是不可取的,这就是“知识”和“懂”的区别,所以这篇文章就让我们一起解决下“根”的问题。我将以设计师的语言尽我所能帮助大家理解AI绘画出图原理。

为了搞明白其中的原理,我咨询了前端工程师,后端工程师,算法工程师,产品经理、运营人员等,最后终于明白了七七八八,感谢他们的倾囊相授。

我不能保证大家能理解很全面,但是我能保证大家看完后,对AI绘画有一个比较整体的理解。

首先,有三个基本的问题需要先解决下

  1. 什么是AIGC

  2. 什么是stable diffusion

  3. 什么是comfyui

1.什么是AIGC

AIGC的全名叫做(Artificial Intelligence Generated Content:生成式人工智能,通过机器学习,AIGC能根据自己学习到的内容,主动创作出新的类似的内容,我们可以理解为“好学”。那么AIGC能学习什么,又能生成什么呢

从目前的主流产品来看,AIGC能生成内容大致有:文本、代码、图片、视频和音频。

2.什么是Stable Diffusion

Stable Diffusion(稳定扩散)是AIGC中生成图片的一款工具,称之为图片生成类AI大模型,它的主要工作是根据文本的描述产生详细图像。我们可以理解为这款工具就是生成图片的,也是设计师最需要的工具,能解决的一个最直接的问题是,设计素材不用上网到处找了,自己给自己造一个就完事儿了。

下面这张图就是stable diffusion生成图片的全过程,其实就是从模糊变清晰的过程,这里面的原理我会在后面细讲。

他有一个竞对,叫做Midjourney,是图片类AIGC应用程序,虽然做的东西一样,但是呈现方式和解决路径不同,针对的用户群体也不同,sd(Stable Diffusion)相较于Mj(Midjourney,可控性更强,功能更丰富,定制化也更强,而且是开源的。当然mj也有自己的优势,比如操作简单,好理解,sd的上手难度比mj会高很多。

3.什么是ComfyUI

因为stable diffusion是个大模型,就需要一个界面来承载模型,方便用户使用,这个界面就叫做Comfyui,从本质上讲,ComfyUI是构建在Stable Diffusion之上的基于节点的图形用户界面(GUI),而Stable Diffusion是一种最先进的深度学习模型,可以根据文本描述生成图像。

comfyui既然是GUI图形界面,那么就肯定会有产品界面的优化,所以优化之前的界面有个很熟悉的名字叫做webui,因此,得出结论,webui和comfyui其实是一个东西,只是展现方式不同,一个是页面操作,一个是节点操作。在上手难度上看,webui更容易理解,但出图的速度,comfyui更快捷,而且comfyui可以直接复用别人的工作流,喜欢用哪个,大家可以自己决定。

总结

总结下这些关系,就是如果你想用AIGC生成图像,你现在有三款软件可以用,分布是webui、comfyui和midjourney,如图,至于用哪个,我会在下一期做更为详细的说明。如果简单区别,就是mj很难控制相同的角色,比如绘制漫画,很难做到人物统一,元素保持一致,这时候就需要用到sd,他能实现线稿上色,2D转3D,图片换风格,做到人物元素保持完全一致,即:精细可控。

OK,到这里,基本已经简单阐述了AIGC的基本概念,下面就是本章的重点内容,AI是怎么画画的?解决这个问题,其实本质是理解AI绘画是怎么自己思考的。要明白AI绘图的底层问题,其实很简单,只要我们理解了人是怎么学会画画的。

我们要先解决以下2个点

  1. 人是怎么识别图片的

  2. AI是怎么识别图片的

这里,请问,披着狼皮的羊,是狼还是羊

答案是在人类看来,是狼,但是,AI会觉得是羊,为什么会出现两者皆然不同的答案,是因为人类看的是形状,AI看的是纹理。

人类会关注图片中的对象的形状,这是通过经验来获得的,看下图

AI是怎么识别图片的

AI研究的是图片中对象的纹路。我把它解释成“RGB色块的像素分布规律”,AI先把图片通过“加噪点”的方式将图片一点点扩散,类似photoshop中的添加杂色。这个过程叫做正向扩散。

之后,提取每个小色块的RGB,这样就把一张图片变成了由一堆像素数据组成的排列组合,再通过一个标签(tag)来定义这一组像素数据,告诉AI,basketabll的像素是这种分布规律,足球football的像素是那种分布规律,AI就会记住每一张图片的像素分布规律特征。

当几千几万个同类物体都被AI识别之后,AI就会知道这类物体的像素分布特征,这个时候,再给AI识别一张类似的图片,AI就是根据该图片的特征和之前存储的特征进行比对判断,最后给出结果。这里用到了两个很重要的技术:人工神经网络和深度学习,鉴于超纲,我们知道即可。

人工神经网络,就是类似于人类中大脑的神经元,它可以将相关的知识进行连接,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。所以,上面的篮球在深度学习之后就会变成一个类似“神经元”的东西存在系统里。这里的神经元会通过一个数字来表达。

好了,这个时候,当你跟AI说,帮我画一张篮球的照片,AI就会在已经学习的几百上千张篮球图片中去找特征,然后得到一张类似的像素分布图。本质就是模仿。

仔细想想,这其实非常类似人类绘画、书法的过程,拿书法举例,一开始我们不停地临摹大师的书法,当临摹的次数愈来越多,技能也就越来越熟练,慢慢就会有形成自己的风格,这种风格独一无二,跟谁都不一样,但是是从不断学习“大书法家”的字体中习得到的,学到的不是“形”,而是“神”,也就是行话里面的“神韵”。所以每一位大书法家都会说我的字是“取法”于王羲之,柳公权或者是魏碑。

AI绘画也是如此,它学到的是每一个字,每一个笔画的“规律”,然后根据这个规律,“模仿”出类似的效果。

ok,到这里相信大家已经对AI绘画的原理有个基本的认识,还差最后一步,AI是怎么把像素分布的一堆数字变成一张图片的,这里用到的技术是“反向扩散”。在AI识图的时候,是先把图片“正向扩散”成像素分布,最终出图的时候,就是把这个过程倒着推导一遍,可以给大家举个类似的画面,就是沙画。

diffusion model 扩散原理比喻

如果大家对这个感兴趣,可以推荐大家去stable diffusion 官网做深度了解

https://stability.ai/

今天的分享就写到这里,感谢大家。从这一章中,我们主要了解到

  • AIGC的定义:生成式人工智能

  • stable diffusion和midjourney的区别:控图效果不一样

  • AI识图的底层逻辑:提取像素分布规律

  • 人工神经网络和深度学习:对函数进行近似估算

  • AI绘图的底层逻辑:扩散原理

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

感兴趣的小伙伴,赠送全套AIGC学习资料和安装工具,包含AI绘画、AI人工智能等前沿科技教程,模型插件,具体看下方。

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

工具都帮大家整理好了,安装就可直接上手

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

最新文章
奔驰EQE AMG怎么样 内外兼修
主流车尺寸适中,能够很好的满足各方面需求,同时主流车的价格也比较合理,所以买它就对了!如今消费者买车首先就是要看这款车配置丰不丰富,对于自然也不例外。赶紧来看看它吧。先看下奔驰EQE AMG的外观,奔驰EQE AMG前脸整体看上去较为精
百度手机卫士 app下载v9.26.12
《百度手机卫士app》一款非常好用的手机软件,这一款是百度手机软件的精简版,这一版保留了核心功能删除了多种没有必要的功能和广告,减小了体积。喜欢的朋友可以来下载一下。有趣的手机软件好用的安卓软件手机安全软件下载从心出发,5.54M
谷歌浏览器官方版 v124.0.6116.78 Chrome中文版
谷歌浏览器(Google Chrome)是Google公司开发的网页浏览器。谷歌浏览器设计超级简洁,使用起来更加方便,支持多标签浏览,每个标签页面都在独立的“沙箱”内运行,很大程度上避免了恶意网页和应用软件侵入而崩溃。此外,谷歌浏览器基于更强
英文seo
英文SEO(Search Engine Optimization)是一种通过优化网站内容和结构,提高网站在搜索引擎中排名的技术。它包括关键词研究、内容创建、链接建设、网站架构优化等多个方面。通过SEO技术,可以提高网站的曝光率,吸引更多的潜在客户,并最终
谷歌SEO营销攻略,解锁网站流量与品牌声望提升之道
谷歌SEO营销策略旨在提升网站流量和品牌知名度。通过关键词优化、高质量内容创作、链接建设、移动优化等技术手段,提升网站在谷歌搜索结果中的排名。利用社交媒体、付费广告等渠道扩大品牌影响力,吸引更多潜在客户,实现网站流量和品牌价
腾讯云发布DI-X深度学习平台,AI布局全面提速
3月28日,腾讯云宣布推出DI-X深度学习平台,进一步开放腾讯在AI领域的领先能力,助力企业驶入人工智能快车道。随着DI-X平台的发布,腾讯云在AI领域的全线布局也浮出水面:从IaaS基础设施、AI平台服务、AI基础服务、AI应用服务,到垂直行业
高清美女写真生成器评测:解锁AI绘画的无限可能!
步骤二:选择功能在首页,选择“高级生图”选项,进入后就可以看到多种图像风格供选择。步骤三:输入文本描述在生成页面,用户只需输入对想要生成美女的详细描述,比如“清新自然的夏日穿搭”或“优雅的晚礼服”,然后点击生成按钮。步骤四
用AI画美女:一键生成我的超逼真AI女友!
Midjourney:作为一款广受欢迎的AI艺术生成工具,Midjourney使用起来也相当简单。用户能够使用Discord平台下的命令进行艺术创作。其生成结果色彩丰富,适合追求栩栩如生效果的艺术家。然而,由于其使用仍需小白用户做一些配置,因此对新手
相关文章
推荐文章
发表评论
0评