分享好友 最新动态首页 最新动态分类 切换频道
Generative AI 新世界:过去、现在和未来
2024-12-26 13:28

人类善于分析事物。但是现在看来,机器很有可能做得更好。机器可以不知疲倦夜以继日地分析数据,不断从中找到很多人类场景用例的模式:信用卡欺诈预警、垃圾邮件检测,股票价格预测、以及个性化地推荐商品和视频等等。他们在这些任务上变得越来越聪明了。这被称为 “分析人工智能(Analytical AI)” 或”传统人工智能(Traditional AI)”。

Generative AI 新世界:过去、现在和未来

但是人类不仅擅长分析事物,还善于创造。我们写诗、设计产品、制作游戏和编写代码。直到公元 2022 年之前,机器还没有机会在创造性工作中与人类竞争,它们只能从事分析和死记硬背的认知劳动。但是现在(是的,就是现在)机器已经开始在创造感性而美好事物的领域尝试超越人类,这个新类别被称为 “生成式人工智能(Generative AI)”。这意味着机器已经开始在创造生成全新的事物,而不是分析已经存在的旧事物。

生成式人工智能不仅会变得更快、更便宜,而且在某些情况下比人类手工创造的更好。每个需要人类创作原创作品的行业—从社交媒体到游戏、从广告到建筑、从编码到平面设计、从产品设计到法律、从营销到销售都有待全新重塑。某些功能可能会被生成式人工智能完全取代,或者激发出超越人类想象力的全新灵感。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术,观点,和项目,并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏,看到这里请一定不要匆匆划过,点这里让它成为你的技术宝库!

新世界正在到来。

做为一名曾经多次穿越过市场周期的从业者,我亲历过通信行业、IT 行业、移动互联网行业等不同时代的周期,亲身体验过其间的潮起云涌,亲眼目睹过其中的天高云淡,以及最终惨烈竞争后的回归平淡。因此,面对已经开启的 AI 时代周期,与其盲目地跳进去跟随,不如先搞清楚这个新周期的一些底层逻辑,比如说:知识底座。

如果说 TCP/IP、HTML 等知识结构是上一个时代的知识底座,那么面对已经开始的 AI 时代,我们每个人是否应该先问自己一个问题:“什么是 AI 时代的知识底座?”

从到目前为止 AI 的知识发展看来,也许这个知识底座会是:Transformer。

欢迎进入 Transformer 的新世界。

在过去的五年中,人工智能世界发生了很多令人欣喜的重大变化。其中许多变化是由一篇名为 “Attention is All You Need” 的论文推动的。这篇发表于 2017 年的论文介绍了一种名为 “Transformer” 的新架构。下图为“Attention is All You Need” 的论文中描述的 Transformer 模型的架构图示。

Source:https://arxiv.org/pdf/1706.03762.pdf?trk=cndc-detail

概括来说,Transformer 模型为机器学习领域做出了两项贡献。首先,它提高了在人工智能中使用并行计算的效率。其次,它引入了 “注意力(Attention)” 的概念,这使人工智能能够理解单词之间的关系。你所听到的技术,例如 GPT-3、BERT、Sable Diffusion 等,都是 Transformer 架构在不同领域演进的结果。

什么是注意力机制?根据该论文中的描述,注意力函数可以描述为将查询和一组键值对映射到输出,其中查询、键、值和输出都是向量。输出是按值的加权总和计算的,其中分配给每个值的权重由查询的兼容性函数与相应键值计算得出。Transformer 使用多头注意力(multi-headed attention),这是对称为缩放点积注意力(scaled dot-product attention)的特定注意力函数的并行计算。如下图所示。

Source:https://arxiv.org/pdf/1706.03762.pdf?trk=cndc-detail

上面这段对“注意力机制”的描述还是偏学术化。维基百科上的定义会更通俗易懂些:“注意力机制(英语:attention)是人工神经网络中一种模仿认知注意力的技术。这种机制可以增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,以此将网络的关注点聚焦于数据中最重要的一小部分。数据中哪些部分比其他部分更重要取决于上下文。可以通过梯度下降法对注意力机制进行训练 ……”

可见,注意力机制的灵活性来自于它的“软权重”特性,即这种权重是可以在运行时改变的,而非像通常的权重一样必须在运行时保持固定。

很多人工智能领域的思想领袖和专家,认为 Transformer 架构在未来五年左右并不会有太大变化。这就是为什么你会看到一些芯片制造商在其新芯片(例如 NVIDIA H100)中集成 Transformer Engine 的原因。

在 2022 年拉斯维加斯的 re:Invent 2022 中,来自 NVIDIA 的架构师分享了如何在亚马逊云科技上,使用 NVIDIA 新一代芯片做深度学习训练的专题,里面特别提到了 H100 芯片中 Transformer Engine 的设计结构和初衷。对技术架构细节感兴趣的同学,可以通过以下视频深入了解:

https://www.youtube.com/watch?v=l8AFfaCkp0E?trk=cndc-detail

一个有趣的视角是将各种 Transformer 按照出现的时间顺序排列的图示。

Source: “Transformer models: an introduction and catalog”https://arxiv.org/abs/2302.07730?trk=cndc-detail

我听到过的一个比较有趣的视角是:如果您之前对 Transformer 知道得不多,不要恐慌。因为您看到引领这一波生成式人工智能(Generative AI)变革的重要几篇论文的情况:

CLIP 论文在 2021 年发表;

Stable Diffusion 和 DALL-E-2 在 2022 年才出现;

GPT3.5、ChatGPT、Bloom 等在 2022 年底才出现……

这个新世界的演进才刚刚开始,你还有足够的时间重新开始学习 Transformer!

Generative AI 与更广泛的人工智能具有相同的值得人类深入思考问题:“为什么现在发生?” 概括来说,这个答案是我们当下具有:

更好的模型;

更多的数据;

更多的计算;

Generative AI 的进化速度比我们所能想象的要快得多,为了将当前时刻置于大时代洪流的背景之下,非常值得我们大致地了解下 AI 的发展历史和曾经走过的路。

第一波浪潮:小型模型占据了至高无上的地位(2015 年之前)

小型模型在理解语言方面被认为是 “最先进的”。这些小型模型擅长分析任务,可用于从交货时间预测到欺诈分类等工作。但是,对于一般用途的生成任务,它们的表现力还不够。生成人类级写作或代码仍然是白日梦。

第二波浪潮:规模竞赛(2015 年至今)

2017 年发表的里程碑意义的论文(“Attention is All You Need”)描述了一种用于自然语言理解的新神经网络架构,这种架构名为 Transformer,它可以生成高质量的语言模型,同时更具可并行性,并且需要更少的训练时间。这些模型是 few-shot learners 的,因此可以相对容易地针对特定领域进行定制。

Source:https://www.science.org/content/article/computers-ace-iq-tests-still-make-dumb-mistakes-can-different-tests-help?trk=cndc-detail

随着模型越来越大,它们开始提供人类层面的结果,然后是超人的结果。在 2015 - 2020 年间,用于训练这些模型的计算增加了 6 个数量级,其结果超过了人类在手写、语音和图像识别、阅读理解和语言理解方面的性能基准。GPT-3 模型在这时脱颖而出,该模型的性能比 GPT-2 有了巨大的飞跃,内容涉及从代码生成到写作等多项任务。

尽管基础研究取得了种种进展,但这些模型并不被人广泛使用。原因是它们庞大且难以运行(需要 GPU 编排等),能够使用这些模型的门槛太高(不可用或仅限封闭 BETA),而且用作云服务的成本也很高。尽管存在这些局限性,但最早的 Generative AI 应用程序开始进入竞争阶段。

第三波浪潮:更好、更快、更便宜(2022 年以后)

由于像亚马逊云科技这样的云技术公司,一直在推动云计算的普及,计算变得更加便宜。而像 diffusion model 等新技术降低了训练和运行推理所需的成本,研究界因此可以继续开发更好的算法和更大的模型。开发者访问权限从封闭 BETA 扩展到开放 BETA,或者在某些情况下扩展到开源(open-source)。对于一直缺乏 LLM 访问权限的开发人员来说,现在闸门已开放,可供探索和应用程序开发。应用程序开始蓬勃发展。

第四波浪潮:杀手级应用程序的出现(现在)

随着基础平台层的逐渐巩固,模型不断变得更好/更快/更便宜,模型访问趋向于免费和开源,应用层的创造力爆炸的时机已经成熟。

正如十年前的移动互联网爆发的前夜,由于移动通过 GPS、摄像头和移动连接等新场景、新功能释放了新类型的应用程序一样,我们预计这些大型模型将激发新一轮的 Generative AI 应用。我们预计 Generative AI 也将出现杀手级应用程序。

Source:https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/?trk=cndc-detail

以下是 Generative AI 的应用格局图,描述了为每个类别提供支持的平台层以及将在上面构建的潜在应用程序类型。

Source:https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/?trk=cndc-detail

文本是进展最快的领域。

代码生成可能会在短期内对开发人员的生产力产生重大影响,如Amazon CodeWhisperer所示。

图像是一种较新的现象。我们看到了不同风格的图像模型的出现,以及用于编辑和修改生成的图像的不同技术。

语音合成已经存在了一段时间(例如,你好 Siri!)。就像图像一样,今天的模型也为进一步完善提供了起点。

视频和三维模型正在迅速上线。人们对这些模式开启电影、游戏、虚拟现实和实体产品设计等大型创意市场的潜力感到兴奋。

其他领域:从音频和音乐到生物学和化学,许多领域都在进行基础模型研发。

下图说明了我们如何期望基本模型取得进展以及相关应用成为可能的时间表。

Source:https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/?trk=cndc-detail

回顾过去的一年,有两个 AIGC 方向已经发生了让人惊艳的进步。其中一个方向就是:文字生成图像(Text-to-Image)方向。

根据来自亚马逊云科技的官方博客,用户现在可以很方便的在 SageMaker JumpStart 中使用 Stable Diffusion 模型,轻松地生成富有想象力的绘画作品。

The following images are in response to the inputs “a photo of an astronaut riding a horse on mars,” “a painting of new york city in impressionist style,” and “dog in a suit.”

The following images are in response to the inputs: (i) dogs playing poker, (ii) A colorful photo of a castle in the middle of a forest with trees, and (iii) A colorful photo of a castle in the middle of a forest with trees. Negative prompt: Yellow color.

Source:https://aws.amazon.com/cn/blogs/machine-learning/generate-images-from-text-with-the-stable-diffusion-model-on-amazon-sagemaker-jumpstart/?trk=cndc-detail

关于文字生成图像(Text-to-Image)方向的论文解读、示例代码等我们还会有其他专题深入讨论。

以上就是关于 Transformer 和 Generative AI 的部分介绍。在下一篇文章中,我们将详细讨论关于 Generative AI 另一个重要的进步方向就是:文字生成(Text Generation)方向。分享这个领域的最新进展,以及亚马逊云科技在为支持这些大型语言模型(LLMs)的编译优化、分布式训练等方面的进展和贡献。

作者黄浩文

亚马逊云科技资深开发者布道师,专注于 AI/ML、Data Science 等。拥有 20 多年电信、移动互联网以及云计算等行业架构设计、技术及创业管理等丰富经验,曾就职于 Microsoft、Sun Microsystems、中国电信等企业,专注为游戏、电商、媒体和广告等企业客户提供 AI/ML、数据分析和企业数字化转型等解决方案咨询服务。

最新文章
AI绘画神器助你轻松生成超逼真美女写真!
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 在这个数字化高度发展的时代,美女写真已经不仅仅依靠传统摄影技巧来实现了。许多小伙伴们可
360AI搜索蝉联全球访问量最大AI原生搜索引擎
近日,独立AI产品榜单“AI产品榜(aicpb.com)”8月榜单更新发布,三六零(下称“360”)公司旗下360AI搜索用户访问量位列国内总榜第二名、全球搜索引擎榜第三名。结合 Similarweb 公开数据,2024年8月份,360AI搜索用户访问量已超 2 亿,
2024年最火动漫头像制作工具:简单AI助你轻松搞定个性头像!
近日,随着热门动漫角色的热潮不断升温,许多玩家希望能够拥有自己独特的动漫头像,来表现个人风格和兴趣。可惜的是,虽然市面上有不少AI绘图工具,但大部分人的头像还是千篇一律,缺少个性。特别是在动漫头像和情侣头像的制作上,普通人往
#动画 #奥特曼儿童动画片 #赛罗奥特曼 #打怪兽 #小朋友的世界
{{if !data.isVip && data.isActText}}{{else if !data.isVip && !data.isActText}}{{else}}{{if !data.isNormalVip}}{{if data.expiredVip && data.isActText}}{{else if data.expiredVip && !data.isActText}}{{else}}{{/if}}{{else if d
AI驱动的智能制造优势解读
在当今快速发展的科技时代,人工智能(AI)正逐渐成为制造业转型升级的重要驱动力。通过引入先进的AI技术,企业可以实现生产过程的自动化、优化资源配置、提高产品质量以及降低成本。一、AI驱动的智能制造的核心优势1. 生产效率的提升AI可以
Google相机App正版
Google相机App正版是一款非常好用的摄影类应用,提供了众多的拍摄参数,让用户能够根据自己的喜好来调节,以此来拍摄出更多有质感的照片,还拥有了大量的贴纸和特效素材,方便用户可以后期进行调整编辑,让自己的相片可以更加的有趣。Googl
Ai写真系统AI全方位定制服务
我们可以开发的系统如下:ai明星变脸系统,AI写真系统,AI论文生成与ai论文降重系统,AI生成图片系统,AI生成视频系统,AI生成动漫系统,ai生成画册系统,AI生成小说系统,ai证件照生成系统,AI美女跳舞生成系统,ai修图,ai微信聊天,AI客服
5个SEO排名工具推荐
在当今数字化时代,网站的SEO排名对于企业和个人的在线可见性至关重要。为了提高网站在搜索引擎中的排名,许多工具和软件应运而生,它们可以帮助用户分析关键词、监测排名、优化网站内容等。在本文中,我们将介绍5款不同的SEO排名工具,其
DDoS攻击原理与防御
DDoS攻击(Distributed Denial of Service Attack,分布式拒绝服务攻击)的前身是DoS攻击(Denial of Service Attack,拒绝服务攻击),是指一种通过各种技术手段导致目标系统进入拒绝服务状态
java入门基础四(方法和数组)
概念:特定功能的代码块。 优点:减少了代码的冗余。 方法的分类:静态方法、成员方法、构造方法(此节主要在静态方法的基础上使用) 注意: 方法编写的位置:类里,与main方法并立。方法
相关文章
推荐文章
发表评论
0评