“元年”之后，生成式AI又将走向何方：多模态、开源化、强监管成关键词

“元年”之后，生成式AI又将走向何方：多模态、开源化、强监管成关键词

2024-12-26 11:58

　　一年多以前，如果有人告诉你，他可以用一句话就能在数秒之间生成一首诗，一幅画，甚至一部电影，你肯定觉得是天方夜谭，脑洞开得太大。然而，随着ChatGPT的出现，这样的想象步入了现实。

　　2023年，毫无疑问是AI的一年。在这一年里，以ChatGPT为首的生成式AI技术在全球点燃研发浪潮，各大科技公司竞相入局，从文本到图像，从音乐到视频，从游戏到教育，无一领域不在大力推动AI技术的应用，呈现出“百花齐放”的生动局面。

　　生成式AI企业也获得了前所未有的关注和投资，“盘活”了创投行业。据AI投资者 Nathan Benaich 和 Air Street Capital 团队制作的《2023年AI现状》报告，截至2023年10月2日，专注研发生成式AI应用的初创企业今年累计获得了近180亿美元的风投资金，较2022年整年增长超360%。

ntenteditable="false" style="text-align: center" loaded="success-image">

　　图片来源：《2023年AI现状》报告截图

　　然而，这一年也出现了一些戏剧性事件，如AI大佬联名发表呼吁暂停研究的公开信以及OpenAI“宫斗”，引发人们对生成式AI的质疑和担忧。这些事件让外界看到了生成式AI的另一面，意识到了生成式AI的复杂性和监管的必要性。

　　进入2024年，AI注定仍将成为全球关注的焦点。CNBC技术执行委员会于今年11月底及12月初对 22 名顶级技术官员进行的抽样调查显示，没有一名受访者表示他们不会在2024年进行新的AI投资。其中，超过一半（59%）的受访者明确称，其所在公司正在加速对AI相关能力的新投资。其余受访者称正在评估AI领域的新投资，不过态度相对更谨慎。

　　从具体的方向看，多位业界专家在接受《每日经济新闻》记者采访时认为，多模态模型与视频生成能力、开源闭源之争和AI智能体将最受关注，同时AI的安全性与监管问题将继续成为热点话题。

　　狂飙突进的AI：全球AI独角兽超470个，企业总价值达7.5万亿美元

　　“2023年最令我吃惊的事情是，研究界的东西转化为商业产品的速度太快了：Adobe的Firefly、百度的文心一言、谷歌的Bard、微软的Copilot等等。我们正在探索这些东西的更多用处，而对终端用户而言，这些工具可以协助完成机械性的任务、快速地综合信息等，”马里兰大学计算机科学教授、微软资深首席研究员哈尔·道梅三世（Hal Daumé III）对《每日经济新闻》记者表示。

　　《2023年AI现状》报告数据显示，截至2023年9月19日，全球AI独角兽数量达473个，其中美国有315个，中国有70个，英国有27个，全球AI独角兽企业的总价值达7.5万亿美元，其中美国AI独角兽企业总价值达5.9万亿美元，中国AI独角兽企业总价值为1.3万亿美元，英国AI独角兽企业总价值为1550亿美元。

ntenteditable="false" style="text-align: center" loaded="success-image">

　　图片来源：《2023年AI现状》报告截图

　　2023年，OpenAI仍然保持着行业领头羊和风向标的地位，3月发布多模态大模型GPT-4后，又将重心放在商业化尝试和生态建设上，11月，OpenAI召开了第一次开发者大会，展露出打造生态的野心。

　　传统的科技巨头也各显神通，试图在这一风口领域拿下更多话语权。

ntenteditable="false" style="text-align: center" loaded="success-image">

　　图片来源：每经编辑兰素英制图

　　微软1月份就快速宣布将向OpenAI投资100亿美元，希望进一步“拴紧”合作关系，同时也在加紧自家AI工具的发布和升级，陆续推出了AI赋能的Bing Chat，新的Edge浏览器，以及办公软件的Copilot套件。

　　谷歌在AI上颇有“起了个大早，赶了个晚集”的焦虑。2月，谷歌匆忙推出ChatGPT对手Bard，却在演示过程中出现错误而导致股价一日大跌8%。为了加快速度，谷歌4月份将旗下两个主要的人工智能研究部门GoogleBrain和DeepMind合并为Google DeepMind。12月，谷歌推出了GPT-4的对标大模型Gemini，并自称在多个测试上性能优于前者。

　　Facebook母公司Meta则重点强调自家大模型的开源特性。7月，Meta发布大语言模型Llama 2，宣布向所有开发和商用开源，与谷歌和OpenAI展开错位竞争。在AI上声量略小的亚马逊，则重注押宝Anthropic，9月份宣布向后者投资40亿美元。

　　站在一线从业者的角度，Lightning AI的首席AI教育官塞巴斯蒂安·拉什卡（Sebastian Raschka）对《每日经济新闻》记者总结了2023年AI的发展，“2023年可以说是大语言模型之年，似乎所有人的注意力都在这上面。这一年，我们看到了各类提升大模型效率和适配性的方法；微调大模型方法和连接网络内容的‘检索增强生成’技术；以Stable Video Diffusion和Pika 1.0为代表的文字生成视频技术的热潮等。”

　　生成式AI技术的发展不仅创造了新的机遇，也改变了各行各业的工作模式，以及企业为客户提供价值的方式，提高了生产力。

　　2024年，AI发展将呈现三大趋势

　　精彩纷呈的2023年被普遍视为生成式AI的元年，科技产业的图景已经被深刻改变。2024年，AI行业必将迎来巨大的变革。

　　12月25日，OpenAI CEO（）曼向网友征集对OpenAI 2024年的期望，下一代多模态大模型GPT-5、更好的GPTs应用、视频和开源等内容成为最常见的答案。实际上，多模态模型、视频生成、AI智能体（Agents）也是业内人士展望2024年时的高频词。而随着AI前所未有的发展态势以及在各大领域的渗透，如何保障和监管其可持续、负责任的发展也是接下来的重大课题之一。

　　趋势一：视频生成和智能体

　　“2024年，我们会越来越依赖多模态模型，”艾伦人工智能研究院创始CEO奥伦·伊奇奥尼对《每日经济新闻》记者表示。

　　这也是《福布斯》所展望的2024年AI领域的发展趋势之一。该杂志指出，AI领域一个关键性的创新是多模态生成式AI，此类系统能处理文本、声音、旋律和视觉信号等各种输入信息，并将其融合起来进行综合理解。随着多模态技术的不断发展，AI模型将迎接更加复杂多样化的交互场景，有望在智能家居、智慧城市、医疗诊断、自动驾驶等领域打开全新的应用空间。

　　视频生成也是2024年值得关注的热点。塞巴斯蒂安·拉什卡告诉记者，“Stable Video Diffusion和Pika 1.0这类文本生成视频工具的发布意味着扩散模型又回来了。”

　　这类产品的“出圈”势必会将加速视频生成领域的迭代。除AI初创企业外，谷歌也在这一领域迅速跟进，先是与美国国家工程院院士、斯坦福大学教授李飞飞及其团队合作推出AI视频生成模型W.A.L.T，后又发布了一个全新的视频生成模型VideoPoet，而且无需特定数据便可生成视频。

　　虽然生成式AI沿着生成文字、图像再到视频不断升级，但它与人类互动还停留在输入和输出内容的阶段，而还无法真正帮人类在现实生活中做出行动，比如预定餐厅、购买物品等。

　　“2024年，我们将看到更加复杂的AI智能体，它们能代替用户做出行动。”奥伦·伊奇奥尼对《每日经济新闻》记者预测道。

　　实际上， OpenAI在开发者大会上推出的定制GPTs和一系列辅助开发工具被视为打造AI智能体的先行部署。比尔·盖茨11月也曾撰文指出，AI智能体将在未来五年里彻底改变我们使用计算机的方式。在他的畅想中，用户只需用自然语言告知自己的需求，计算机就会自动跨越不同软件程序完成任务，AI智能体将成为每个人都能拥有的“远远超出当今技术的AI驱动个人助理”。

　　趋势二：开源或将超越专有模型

　　12月中旬，Meta 首席 AI 科学家、图灵奖获得者 Yann LeCun援引方舟投资研究团队的一张2024年AI趋势图表感叹称，“开源人工智能模型正走在超越专有模型的路上。”

ntenteditable="false" style="text-align: center" loaded="success-image">

　　图片来源：X.com

　　开源与专有模型的路线之争颇有当年安卓与iOS的感觉。12月，Meta和IBM领头成立了“AI联盟”，成员包括40多家企业和学术机构，致力于推动发展AI的开放路线，在2023年风头正劲的OpenAI、微软、谷歌和英伟达则不在其中。

　　方舟投资（Ark Invest）的团队认为，开源大模型在性能上落后闭源大模型6到8个月，但正在逐步缩小差距，随着谷歌和OpenAI等公司越来越少地公布其模型的最新信息，开源大模型将对其商业模式构成挑战。如上图所示，开源模型的性能在不断追赶专有模型。这可能意味着在不久的将来，开源模型有望在性能上与专有模型平起平坐，甚至超越。

　　不过，哈尔·道梅三世在采访中对《每日经济新闻》记者表示，现在自称开源的大模型只在限制性许可下公布了模型权重和代码等内容，实际上离真正的开源还有距离。“我们需要的是开放的数据集、基础设施和使用许可，我希望AI联盟能往这个方向发展，但也并不是每家机构会认可这种做法。只要我们有很好的开放模型，人们可以自由选择，剩下的就交给市场力量来发挥作用吧。”

　　以开源大模型结合内部数据打造定制化的AI应用，也是AI走向落地的重要方向之一。Meta 的开源大模型 LLaMA 系列就因其快速迭代、可定制性和隐私性的特点而备受青睐。在AI应用开发中结合内部数据，可在很大程度上解决通用大模型产生的不准确或不合理回答的问题。

　　“在科学研究领域，比如地球和大气科学、天文学和高能物理学，我们有大量的数据。我认为在这些领域可能会有很多动作。此外，数据中间商也有收集和出售很多个人数据，虽然我们可能不会看到这些数据被公开用来训练模型，但可能将产生很多商业案例，其中会有好的应用，比如像英伟达那样用聊天机器人来管理公司文件，也可能会有坏的应用，比如追踪员工的邮件。”

　　趋势三：AI监管将加强

　　在AI技术高歌猛进的同时，科技圈也发生了一些戏剧性的事件：前有上千名科技大佬和AI专家联名签署公开信，呼吁暂停比GPT-4更强大的AI系统训练之后，后有震惊业界的因安全和道德之争而引发的OpenAI“宫斗”事件。

　　知名AI专家李飞飞表示，2023年是AI发展的“拐点”，这一年AI带来了深刻改变，公众对AI的认知度也上升了，但这一年“也显示出这项技术有多么混乱”。

　　正如历史上所有的颠覆性技术一样，人类需要时间探索如何与AI相处。AI的安全性和监管框架必将成为2024年的热点话题。

　　斯坦福大学以人为本AI中心副主任詹姆斯·蓝迪（James Landay）认为，由于AI视频生成技术进一步提高，“我们将看到人们‘说’一些他们根本没说过的话的视频广泛传播，消费者需要认识到这一点，投票人也需要认识到这一点。”

　　尤为值得注意的是，2024年美国将举行大选，如何应对生成式AI带来的虚假信息冲击，将是一个重要看点。

　　实际上，截至2023年底，我们已经看到AI监管有了不少行动。阿尔特曼重返OpenAI之后，第一个大动作就是发布最新安全指南，赋予董事会推翻公司领导层发布AI系统的否决权。12月，欧盟制定了《人工智能法案》，开始全面监管AI。