分享好友 最新动态首页 最新动态分类 切换频道
大模型元年,人类文明的操作系统正在大更新
2024-12-26 10:46

这是人工智能的寒武纪大爆发,硅基生物的多样性和演化速度,在工业革命以来前所未有。

在大约 5.4 亿年前,海底突然出现了多种生命形式,地球几乎所有现生动物门类在这一时期快速形成。科学家分析寒武纪大爆发的原因,很可能只是海水的氧气水平略微增加到某个阈值以上。

大模型元年,人类文明的操作系统正在大更新


在这场 AI 大爆发前,让阈值带来微妙变化的,不是一年前发布的 ChatGPT ,其实是六年前一篇名为 Attention is All You Need 的论文——Transformer 架构诞生了。

GPT 刷屏了一整年,其中的 T 指的就是 Transformer ,Copilot、 DALL·E 3 、 Midjourney、Runway……这一年不断刷新我们认知的 AI 产品,几乎离不开 Transformer 。

Sam Altman 让 GPT-3.5 提前发布的决定,则提前引发了全球科技公司的大转型和大升级。


资本疯狂涌入,在生成式 AI 上砸了超过 360 亿美元。一群 AI 独角兽一夜长大。国内掀起了“百模大战”,不到一年涌现出 200 多个国产大模型,在 FOMO、复杂情绪中也不乏真正的行业革新者。


兴奋之外,和大模型参数一同呈现指数级别规模增长的,还有普通人在历史转折点中的无措和焦虑。

每次 AI 重磅产品上线,打工人就会被“革命”一次,大量机构乐此不疲计算出你被取代的概率,比起最近热议的 AI 意识觉醒,这样的威胁更加真实。我们似乎正在成为刘宇昆笔下的“奇点遗民”:


我出生于奇点元年,也就是第一个人被上载到机器的那年。教皇声讨这位“数字亚当”,数字精英们却为之欢呼雀跃,而余下的所有人则竭力去理解这个新世界。


AI 正在从看不见摸不着的底层技术,迈向工具性、普适化和工业化的“大应用时代”。


一、AI 寒武纪爆发的催化剂


2023 年之前,AI 在全世界范围引起关注的事件,还是 2016 年 AlphaGo 击败李世石,人们同样震惊于人脑无法匹敌 AI,但和今天的震惊完全不可同日而语。

一个能替普通人做 PPT 写文档做表格的 AI,要比在围棋中击败世界冠军的机器人“可怕”千万倍,因为没有谁可以再把自己当作观众。


这也是2023 年 AIGC 最大的主旋律——从技术原型走向产品化。套用王兴 2018 年饭否上那句经典,“2023 年是过去 10 年里 AI 距离普通人生活最近的 1 年,却是未来 10 年里距离最远的 1 年。”


悄然面世


转折点发生在 2017 年,在 AlphaGo 再次击败柯洁后不到一个月,Transformer 架构悄然面世。Google 最开始只想用 Transformer 来解决机器翻译问题,似乎还没意识到自己发明了什么。

这篇论文在学界和业内几乎没有引起反响,在当年的全球顶级 AI  会议 NeurIPS 上颗粒无收。只有一家刚成立两年,规模只有 50 人的非营利机构将其视为圭臬,马上决定全力投入其中,这家机构叫做 OpenAI


Transformer带来最大的价值,是改变了机器理解人类自然语言的方式。


超级大拼图


你可以将机器处理自然语言的过程看作拼图,只不过由于人类语言过于复杂多样,这可能是一块超级大的拼图。

过去由 RNN (循环神经网络)来处理,就像一个人拿一盒拼图但不知道它的全貌,只能一个个试错,根据已拼接的部分来决定下一步怎么做。

这大概类似 RNN 逐步处理输入序列,几度依赖于先前的信息来推断下一步的内容,也因此制约了机器学习的速度。


而 Transformer 就相当于提前看到了整幅拼图,不需要按照特定顺序也能很快知道每一块拼图该放在哪。这就是Transformer 的自注意力机制,它可以同时关注输入序列中的所有部分,而不受顺序的束缚。

Transformer 在处理需要全局理解的复杂任务时将高效得多,而且随着大模型处理的数据规模扩大,这个速度将以指数级提升。


大模型得以在预训练中像婴儿一样快速形成对世界的基础认知,理解语言的结构、常见词汇和一般性的上下文关系。之后通过在特定任务上的微调,模型就像是接受专业培训一样,获得不同领域的技能和知识,成为不同行业的专家。


二、AIGC的产品化元年


在 GPT-3.5 发布不到 4 个月,多模态的 GPT-4 横空出世,在多项专业和学术指标下都展现出人类的顶尖水平。

为什么这一年重磅的 AI 产品几乎每个月都在涌现,而且迭代速度极快?Transformer 就是背后的核心驱动力。


初现端倪


当 Word 、 PowerPoint 、Excel ,只需要一句话就完成,AIGC 的“iPhone 时刻”初现端倪。

Midjourney V5不到一个月解决“不会画手”的问题,最近的 V6 再次将每个维度的表现大幅提升。

讨论 AI 生成的图片是否足够逼真的价值越来越小,但我们不得不开始思考,AI 的审美输出是否能被视为摄影美术的艺术。


Runway 的“运动笔刷”简直就是数字时代的神笔马良,斯坦福华人博士 Pika 1.0 ,让 AI 视频开始变得像美图秀秀一样易用。阿里 、Meta、Stability 的 AI 视频产品也悉数亮相,而这些都发生在一个月内。


指日可待


AI 孙燕姿爆红不是偶然,开源的 So-VITS-SVC 在重新定义创作。


“你跟一个每几分钟就推出一张新专辑的人还有什么好争的。”

“人类无法超越它已指日可待。”


孙燕姿面对 AI 孙燕姿的坦然,反而让更多人滋生 AI 焦虑。

基于大模型而生的产品和应用层出不穷, 数据显示过去一年全球最火的 50 个 AI 工具累计访问量达到 240亿,总流量增长了 10.7 倍。

微软 CTO Kevin Scott 提出过一个观点:


让 PC 、互联网、智能手机变得伟大的,并不是那些随平台诞生而存在之物,而是基于这些之上,被人们重新创造出来的新事物。


应用生态


AIGC 被类比成 PC 、互联网、智能手机这样的革命性创新,也将走过这样的轨迹。

OpenAI 的 GPT Store ,在经历“宫斗”风波后也终于上线,目前全网的GPTs 已经超过 300 万个。

方向已经再明确不过:打造 AI 时代的 App Store,帮助更多人(甚至不是开发者)来构建应用生态。


GPTs 让一个不懂代码的人也能构建 AI 应用,未来的应用开发方式或许会完全不同。


一个新的生态正在加速形成。

“iPhone 时刻”和“App Store”是屡屡出现在 OpenAI 上的标签,可从 GPT-3.5 、GPT-4 、ChatGPT App 到 GPT Store,却仅仅用了不到一年。


提到苹果,在乔布斯发布初代 iPhone 的 2007 年,还有一件事对智能手机未来产生的影响,丝毫不亚于 iPhone,那就是 Android 的发布。

历史不会简单重演,但常有相似的韵律。

 Meta 发布的开源可免费商用大模型 Llama2,参数最高达 700亿,开始了大模型的另外一条叙事。


开源大模型


虽然 ChatGPT 也开放了 API 接口,但对于很多开发者和企业来说仍有不少限制,针对细分场景微调的需求不能完全满足。

更重要的是,调用 GPT-4 的成本不低,成为 AI 应用一个很大的门槛。这也是为什么不少 AI 初创团队出现“用户越多,亏得越多”的窘境。

开源大模型的出现,可以让 AI 应用的开发周期和成本都大幅降低。 Llama2 -70B 大约比 GPT-4 便宜了 30 倍,这将是大模型商业化落地的加速器。


Llama2 发布两个月后,通过 Hugging Face 的 Llama 模型下载量就超过 3000 万次,国内兴起的 AIGC 浪潮里不少应用基础模型就是 Llama2。

Meta 首席科学家、深度学习三巨头之一 Yann LeCun 认为,开源将改变大语言模型的格局。


“闭源证明了大模型路线的可行性,而开源则通过繁荣的生态,让大模型变得易用、可用。”


大模型产品化


大模型时代的 Android 呼之欲出,可到底是谁还未可知。

在 2023 年最后一个月,阿里云开源的通义千问 Qwen-72B 赶超 Llama2,国产开源大模型终于在全球范围内达到顶尖水平。基于通义千问改造的钉钉,也在最近推出了以自然语言进行交互的 AI 助理,探索AI Agent 的产品化形态,加入到 GPT Store 的竞争行列当中。


最近一家只有22 人的公司 Mistral AI ,也推出了8x7B 开源 MoE 大模型,性能已经接近 GPT-4。

Mistral AI CEO Arthur Mensch 同样表示,如果能通过小模型将 Agents 运行的计算成本降低 100 倍,那么我们就有机会构建很多有意思的应用。

有趣的是,一直以封闭生态著称的苹果,也悄悄发布一款开源多模态 LLM。基于苹果 Ajax 架构开发“Apple GPT”前几个月也被曝光,今年我们或许就能看到 iPhone 上的大模型应用。


2023 为 2024 AI Agent 的爆发埋下伏笔,我们将看到更多满足消费者或商业需求的 AI 原生应用,大模型的产品化再次加速。

而当你习惯了和 ChatGPT 聊天,再切换到智能手机和其他应用,或许会有那么一瞬间这样的感觉:我们和设备交互方式应该改变了。


三、撬动交互革新的杠杆


在 GPT-4 上线几天后,比尔·盖茨发布了一篇博客,称在有生之年见证了两次革命性的 Demo ,第一次是在 1980 年看到了图形用户界面(GUI)——现代操作系统的前身。


至于第二次,则在 GPT-3.5 发布几个月前 ,他看到 OpenAI 团队训练的 AI 能回答没专门训练过的问题。


人和机器的交互方式,往往至少几十年才会发生一次重大变化,但每次更新都会给世界带来根本性的改变。


从命令行界面(CLI)跨入图形用户界面(GUI)后,数字世界的边界快速扩张,电脑、手机、平板、车机……我们与无数黑镜的交互以此为基础。

这些年人们不断尝试寻找下一个 iPhone,试图发掘又一次颠覆生活方式的科技,本质上都在回答一个问题:


下一代革命性的人机交互模式会是什么?


自然用户界面


这个问题或许还没有标准答案,可 ChatGPT 的出现让我们看到更符合直觉的交互——自然语言。相比 GUI 所见即所得的触控、点击,原来我们还能以一种更简单的方式进行交互。

这种交互逻辑可以称之为自然用户界面(Natural user interface, NUI )这并非一个新概念,早在 2008 年,微软首席 UI 设计总监 August de los Reye 曾公开指出,GUI 未来演进的方向就是 NUI。

人机交互领域的先驱 Bill Buxton 也曾在一篇论文中列举了一些 NUI 应该遵循的原则,其中有一条:


简单性高于一切:复杂性是自然用户界面的敌人。每个交互都应该是不言自明的,不需要说明手册。


基于对话的语音交互并不新鲜,为什么NUI 到今天才成为可能?如果你和 ChatGPT 聊过几次天,大概就能感受到这种变化。

你只需要直接说出你的需求,大模型就能理解并给出成果,而且这个需求可以很复杂,写一篇文章、做个PPT、甚至编程,用户不用熟悉各个功能键也能完成。


计算机对自然语言的理解能力大幅提升,是 NUI 与过去交互逻辑本质上的不同。

《人类简史》作者 尤瓦尔·赫拉利认为,语言是每一种人类文化的操作系统,而以 ChatGPT 为代表的 AI 已经破解了人类文明的“操作系统”。

作为语言重要载体的文本,也自然成为未来人机交互重要的入口。


四、AI 将成为智能手机新的操作系统


“对话”是人类最自然的交互方式,什么硬件形态才更适合承载呢?

这大概就是下一代计算中心的答案。大模型应用方兴未艾,在当下最合适 AI 的载体或许还是智能手机。

未来智能手机的形态可能将被取代,但我们这代人大多会从智能手机上开始感受 AI 带来的交互变革。


智能手机与大模型


在 2023 年的智能手机发布会上,AI 和大模型成为高频词汇,大模型和智能手机的融合在肉眼可见的加深。大多数厂商都是在端侧引入大模型,但思路也有所不同。


端云结合


一类以 OPPO 、vivo 为代表,推出多个参数规模的大模型,通过端侧和云端的配合来处理不同的场景需求。

vivo 的蓝心大模型参数就覆盖了从10 亿 到 1750 亿的 6 个量级,最近发布的两款手机 X100 和 S18 是业内首批百亿大模型在终端调通的手机。


轻量级大模型


另外一类则是包括小米和荣耀在内,主打本地部署的轻量级大模型,通过量化等技术大幅降低模型在手机运行所需的内存。

1 月上市的荣耀 Magic6 系列搭载的就是自研的端侧 7B 大模型,结合 MagicOS 8.0 尝试基于意图识别的交互,也是大模型对人机交互改变最直接的改变。


内存优化


至于苹果,去年秘密研发的 Apple GPT 就曾曝光,今年极有可能也会看到大模型在 iPhone 上的表现。

苹果在最近的一篇论文中,已经展示了一个内存优化的技术方案,可以将大模型部署到手机这样内存受限的设备上。以苹果对隐私安全的重视程度,大概率也会采用本地部署不上云的路线。


手机芯片


随着大模型逐渐成为智能操作系统的核心,衡量手机芯片性能的维度不再只是频率和核心,还有对大模型运行的支持能力。


高通的骁龙 8 Gen 3 就是首个专门为生成式 AI 打造的移动平台,能在端侧运行 100 亿参数大模型。

联发科最新一代的旗舰芯片天玑9300,也内置了生成式AI 引擎 APU970,能够运行超过 330 亿参数的端侧大模型。


除了硬件厂商,OpenAI、微软、Google 等科技公司都在探索 AI 硬件的形态。

无论是去年出现的 AI Pin、内置 Meta AI 的雷朋眼镜,还是一众大模型+手机,都未必是 AI 硬件最理想的形态,但让大模型在移动设备高效流畅运行是一个重要的基础。

基于自然语言的交互到来,影响的不只是我们的随身设备,应用的形态也将完全改变,甚至 app 都将不存在了。


当 AI 可以理解用户的自然语言,基于本地的数据训练逐渐理解用户的意图,过去应用提供的服务和功能都无缝整合到系统中调用,出穿住行娱乐所有场景,用户只要说出需求即可。

整个交互界面本身就是一个超级 app,显然就不需要这么多应用了,大模型与智能手机系统的结合就是迈向这个未来的过渡。

至于各家互联网公司提供的服务能否打通,可能是未来实现这种交互最大的障碍。但无论是智能手机还是应用,都终将是人类发展史上一个阶段性产物。


新石器时代


AIGC 被很多人认为是第四次工业革命,每一次工业革命,背后都是不只是单纯的技术问题。

人类从两千年前至今,一直在探索对智能的认知,在计算机技术还未萌芽时,哲学、文学等看似和科学没有关系的学科就开始推动智能认知的迭代。


机械运动


16 世纪,笛卡尔从弹簧和齿轮驱动的自动操作装置得到启发,认为人类就是一台复杂的机器。

100年后,英国哲学家托马斯•霍布斯提出新的观点:思维产生于大脑中微小的机械运动。


认知科学


被认为开启“认知科学”里程碑的《语言与沟通》在 1951 年出版,作者是心理学家乔治•米勒。米勒认为使用信息理论、计算和语言学的理念,我们能严格地研究精神世界。

这一理念启发数学家约翰•冯•诺依曼,提出“人类神经系统的功能在表面上是数字化的。”人类开始将计算机和大脑的运行对比。


超级对齐


今天深度学习已经让机器认知越来越靠近人类认知, 前 OpenAI 首席科学家 Ilya Sutskever 认为,“AI 只要能够非常好地预测下一个token,就能帮助人类达到 AGI。”

有趣的是,当我们担忧 AI 发展速度太快时,提出的解决办法看起来也不那么“科学”。

Ilya 一直强调的“超级对齐”(Superalignment),就是要给 AI 盖上无条件爱人类的思想钢印 。用陶芳波博士的话说,这是一种就像 孔子、耶稣、释迦摩尼这些给文明带来深远影响的无条件的爱。


这一年,我们有了处于时代转折点更强烈的体感,我们和世界的互动方式被改变,似乎在等待一个系统的大版本更新。

就像多年的原始人,看着手中的石头,兴奋、茫然、恐惧……

人类文明第三个千年的起点 ,一个新石器时代正在开启 。


最新文章
腾讯地图开放平台申请
2024年01月14日吴经理100地图标注 , 地图定位 , 导航地图标记网络技术服务;信息技术咨询服务;技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广;日用百货销售;化妆品零售;互联网销售(除销售需要许可的商品);化妆品批发;服
《推广商业范例》PPT课件
《《推广商业范例》PPT课件》由会员分享,可在线阅读,更多相关《《推广商业范例》PPT课件(32页珍藏版)》请在装配图网上搜索。1、RSS 计划更新条码与标识 2 议程介绍缩小空间码(RSS) RSS与 EAN/UPC和EPC的比较 GS1的 RSS决策 GS1推广商
格蕾丝·凯利,才是王妃中的王妃,永远优雅的时尚icon!
范主说:美人已去,风格永恒文 | 神马君, 授权商务范发布神马君前段时间去了趟故宫,在那看了一场摩纳哥王室的展览。展览浓缩了摩纳哥公国多年的历史和各方面的成就,神马君一进到展馆,就眼前一亮看到了熟悉的”摩纳哥王妃“---格蕾丝·凯
昆明SEO整站优化,策略与实战技巧深度解析
昆明专业整站SEO,深度解析优化策略与实战技巧。本文涵盖关键词研究、网站结构调整、内容优化、外部链接建设等核心环节,旨在帮助从业者掌握高效SEO方法,提升网站排名和流量。随着互联网的快速发展,搜索引擎优化(SEO)已经成为企业提升
管理层次是什么(管理层次)
1、按层次划分管理层次,管理可分为高层管理、中层管理和基层(底层)管理三个层次。 高层管理者是组织管理层次的高级管理者,其主要作用是确立组织管理层次的宗旨和目标,规定职责和提供资源。中层管理者负责利用资源以实现高层管理者确立
做一个WordPress社区+知识付费小程序
知识付费、积分阅读这个在小程序里面可以激发潜在的用户,积分我们可以利用每天的签到打卡这个功能,尽可能的去引导用户每天去进入小程序,增加小程序的留存,说到小程序的留存大家都知道,这个是很低的
站长必备高效工具,助力网站运营效率大幅提升
  在当今数字化时代,网站运营效率对于任何一个站长来说都是至关重要的。一个高效运营的网站不仅可以提升用户体验,还能增加网站的流量和收益。为了实现这一目标,站长们可以借助一些必备工具来提升网站的运营效率。  一个优秀的网站分
欧洲杯克罗地亚队11威尔士队(2020欧洲杯克罗地亚国家队阵容)
1、克罗地亚vs威尔士比分2、世界足球国家队排名前三十3、欧洲杯积分榜排名4、欧洲杯都有哪些国家5、2024欧洲杯预选赛积分榜最新6、克罗地亚和威尔士哪个强年3月22日03:45,以色列VS冰岛,比分2:2。2024年3月22日03:45,威尔士VS芬兰,比
路由器助手
《路由器助手》是款非常好用的路由器连接助手,适用于路由器的PPPoE协议拨号,让你在手机一键轻松设置密码。你还等什么?赶快下载体验吧。本软件为Android手机端路由器连接助手,适用于路由器的PPPoE协议拨号。为了软件体验及质量,我们不投
SLAM优化算法:图优化和凸优化算法的区别
小白:师兄师兄,最近我在看SLAM的优化算法,有种方法叫“图优化”,以前学习算法的时候还有一个优化方法叫“凸优化”,这两个不是一个东西吧?师兄:哈哈,这个问题有意思,虽然它们中文发音一样,但是意思差别大着呢!我们来看看英文表达
相关文章
推荐文章
发表评论
0评