国外,比尔·盖茨预言 Agent 会颠覆软件行业、改变每个人与计算机交互的方式。国内,李彦宏认为 Agent 是AI的未来,正率领百度 All in 其中~
而这两年真正火爆全网的Agent项目其实并不多,笔者印象深刻的有两个,一个是“斯坦福小镇”,另一个则是 ChatDev。
之所以 ChatDev令笔者印象深刻,除了因为项目本身的优秀和新颖之外,另一个原因则是该项目是国内团队研发并开源的,具体而言是来自清华大学NLP实验室和大模型创业公司面壁智能团队。
当时,面壁智能就给笔者留下了深刻的印象,而就在今年3月,斯坦福大学吴恩达教授在一场演讲中还点赞了这个 ChatDev 项目,为大家详细阐述了“多智能体协作”的趣味和魅力所在——开一家游戏公司只需要一个 ChatDev 就够了,ChatDev 可以分饰多个AI智能体,分别扮演软件公司的 CEO、产品经理、设计师、测试人员......
后来笔者慢慢了解到,面壁智能基于国际领先的AI智能体技术,已经推出个体智能、群体智能和智能协作的 AI Agent“三驾马车”:XAgent、AgentVerse、ChatDev。
从此,面壁智能就是笔者心目中「国内最懂 Agent 的大模型公司」! 面壁智能也在今年智源大会被钦点为国内大模型四小龙之一。
而要说笔者心目中国外最懂 Agent 的大模型公司,那自然是老大哥 OpenAI。
OpenAI 也确实推出了火爆一时的 GPT Store,然而几个月过去, GPT Store 已经悄然被人遗忘,成为了成千上万个GPTs 的大型墓场,一是令人唏嘘不已。
话说,为何笔者这么关心 Agent 的发展呢?
因为笔者知道光靠大模型是实现不了 AGI 的,AI Agent 才是大模型落地应用的最后一公里。只有凭借Agent 的记忆能力、使用工具、任务规划、沟通协作等方面的能力,大模型才可以深入行业与场景,高效解决复杂任务及具体需求。
就在笔者今年以来仍在翘首以盼 OpenAI 能真正带来突破性的Agent项目时,没想到面壁智能力挽狂澜,带给了我 OpenAI 给不了的惊喜!
笔者突然发现,面壁智能上周推出了一个叫做 IoA 的项目,翻译之后就是 「智能体互联网」~
智能体互联网?把全世界的智能体给连接起来 ??
卧槽!这也太敢想了吧!!!
笔者一下子看到了历史进程的演化:互联网——>物联网——Agent 智联网。
正如互联网把全世界所有信息和人连接在一起,物联网把所有设备连接在一起,未来通过大模型驱动的智能体平台可以把更多的人、设备和物品连接起来,推动万物互联进阶“Internet of Agents”智联网新时代!
只不过,野心这么大,可别不是什么只有幻想没有技术支撑的空中楼阁吧?
仔细看了看,发现还真不是,面壁智能联合清华大学NLP实验室认认真真做实验,搞了一篇正经的研究论文出来:
而且 IoA 一经开源发布,也获得了全球范围内开发者的持续关注和讨论。
接下来笔者就带大家一起看看,面壁智能是如何迈向 IoA 智联网的第一步,将异构智能体“孤岛”连接成完整大陆的吧。
过往的智能体可能有不同的架构、运行于不同的设备、有不同的能力,同时在数量和功能上飞速演进,但目前单个智能体更多处于“孤岛”的相对隔离状态,智能体之间的互相发现、大规模自由协作,还没有先例。之前,多智能体协作的“工作流”(workflow),尽管已经显示了巨大的应用潜力,却依然存在着三重限制:
为了跨过这些障碍,面壁智能联合清华大学NLP实验室,正式推出了LLM驱动的智能体互联网(Internet of Agents, IoA),这是一个受互联网启发的智能体通信和协作通用框架。简单来说,IoA 创建了一个可以自由注册、互相发现的Agent协作平台,并且让智能体之间协作再向上构建,对原来Agent协作工作流(Work Flow)进行三个方向扩容,跨设备、更多异质Agent开放互联、协作组织方式高度灵活,从而在更高维度上形成智能体互联网 Internet of Agents(IoA)。
loA为异构智能体的协作提供了一个灵活且高效的平台。loA本质通过引入一个能够集成不同第三方智能体的协议,以及类似即时通讯应用的框架来促进智能体在平台上发现其他智能体并动态组队。
IoA 的核心由两个主要组件组成:服务器和客户端。服务器作为中心枢纽,管理智能体注册、发现和消息路由,确保具备不同能力的智能体能够互相发现并发起通信。客户端则作为单个智能体的包装,提供必要的通信功能,并适应指定的沟通协议。
loA对于现有Agent智能体协作“工作流”和应用方式有三项重要突破:
大多数多智能体系统在一个设备上模拟多个智能体,这与现实场景相悖。IoA 支持分布在多个设备和位置的智能体通过网络进行协作。
大多数多智能体系统只允许接入框架内部定义的智能体,而IoA允许开发者通过为现有智能体实现一个adapter接入到IoA的客户端中并注册到IoA服务端,扩展系统内智能体的能力多样性。
大多数多智能体系统的沟通机制单一,或者需要用户进行指定。IoA将沟通阶段抽象为5个阶段:讨论、同步任务分配、异步任务分配、暂停等待任务完成、总结,通过有限状态自动机实现了自主会话流程控制机制,允许智能体根据任务需求和进展自适应调整协作策略。
loA 的突破,主要得益于四大核心机制的建立:
为了实现分布式的异构智能体协作,我们借鉴了即时通信软件中用户可以进行注册并被其他用户通过关键词搜索到的机制,提出了智能体注册与发现机制。
自主嵌套团队组建机制实现了根据任务需求动态灵活地组合合适的智能体。该机制允许智能体根据任务需求自适应地组建团队,并为复杂、多方面的任务创建嵌套子团队。
通过实现这些关键机制,IoA 实现了智能体之间的结构化、高效的通信和协作。这种方法允许智能体根据协作需求动态调整,促进在复杂多智能体场景中的更有效的问题解决和决策。
任务分配与执行机制旨在高效地在智能体之间分配工作,并管理简单和复杂任务的执行。该机制与团队组建和会话流程控制机制协同工作,确保协作和任务完成。
通过集成任务分配与执行与团队组建和会话流程控制机制,IoA 提供了一种灵活和高效的方法来管理复杂的多智能体协作。该方法允许动态任务分解、专门智能体分配和协调执行,使系统能够有效地解决各种问题。
IoA 与其他智能体协作“工作流”关键特性对比
为了展示 IoA 在整合异构智能体方面的有效性,loA在多种任务上进行了全面的实验。这些实验旨在展示智能体异质性的不同方面,包括工具多样性、架构多样性、不同的观察和动作空间,以及不同的知识基础。
GAIA是Meta提出的一个Agent能力benchmark,包含需要推理能力、网页浏览、代码计算等多方面能力的多样化任务。通过仅接入最基础的4个ReAct智能体(分别配备有网页浏览器、代码解释器、wikidata查询工具以及Youtube字幕下载器),IoA 在 GAIA 基准测试中的表现显著优于现有方法。尽管仅使用了基本的 ReAct 智能体,IoA 在整体性能上仍然达到最高,并在需要高级推理和复杂协作的更高难度级别中表现尤为突出。
(图)GAIA结果表现
GAIA中大部分包含的是问答题,为了评测IoA在更为现实的开放式问题下的表现,我们通过self-instruct的方式构建了一个涵盖代码、数学、生活助手以及搜索报告四类任务共150条数据。并在IoA中接入了AutoGPT与Open Interpreter——两个最知名的智能体——通过GPT-4对IoA的输出与AutoGPT、Open Interpreter两者的输出分别进行对比。
实验结果显示,IoA 在协调 AutoGPT 和 Open Interpreter 的协作方面表现卓越,显著优于单独使用这些智能体。IoA 在所有四个任务类别中均表现出色,相比于AutoGPT与Open Interpreter来说,总体胜率分别为76.5%和63.4%。
(图)接入了AutoGPT + Open Interpreter的 IoA 与两者分别的对比
为了考察IoA在智能体所处环境与动作空间不同的情况下,能否使智能体高效协同完成任务,我们在Rocobench上进行了测试,这是一个虚拟具身的benchmark,在每个任务中,两个或三个具身智能体需要通过沟通协作完成共同的目标。
我们将 IoA 与两个基准进行了对比:Central Plan 和 Roco Dialog。结果显示,IoA 在具身AI任务中表现出色,成功率显著高于专为此任务设计的 Roco Dialog 框架。在多个任务中,IoA 的成功率甚至超过了拥有完整环境可见性的 Central Plan 基准。
(图)具身任务中,IoA与其他基准的对比
(图)IoA完成Rocobench任务
在多智能体系统中,一个常见情况是不同的智能体具备不同的知识,例如挂载了不同的知识库,或是在不同的领域数据集上进行过训练。为了观察在知识异构的情况下IoA是否能够使得不同智能体有效沟通并完成回答,面壁提出在RAG问答场景下进行测试,设置了三种场景:
实验结果显示,基于GPT 3.5的IoA在所有数据集上的RAG表现能够达到或超越单个GPT-4的表现。同时在异构知识场景下,IoA 的表现也较为出色,在两个数据集上超过了之前一个同构的多智能体RAG框架。同时,IoA的同构表现也体现了IoA有着较高的能力上限。
(图)IoA在RAG任务上与其他基线框架的对比
面壁智能推出「智能体互联网」IoA的灵感,可能既有“互联网”的启发,更是某种群体智能、大规模协作涌现的前沿探索。
人类的历史就摆在眼前。智人作为个体已经拥有非凡智慧,彼此充分交流信息、分工协作、深入实践,带来了各种工具和发明层出不穷,以及自然科学的诞生。某种程度上,现代文明也是智人在“世界网络”交互的结果。
由大模型驱动的智能体,本身就是对人的行为的某种模仿。将目前正在快速发展、散落在全球各地的Agent智能体连接起来,loA就像创造了一个Agent交互的世界网络,然后演化开启。
首先,对于开发者和最终用户来说,未来在IoA上,你可以发现更多更丰富更强大的Agent。就像互联网是一个看不到边界的数据、信息和资源宝库,处在不断的膨胀、扩充、能力边界延展之中,loA作为一个Agent存在、协作、涌动的海洋,不断地扩充如今Agent的能力边界,未来,很可能每个人都会主动或被动的参与其中。
其次,IoA创造一个「智能体」可以互相发现、自由交互的开放空间。以IoA为纽带,在万物都是Agent的未来,每个物品都通过Agent技术内置了对自己功能的智能化理解,这些理解通过互联网联系起来,最终引发人类生活方式的全面变革。
最后,由高度智慧的个体进行群体协作,会“涌现”什么,长期变化更是值得探索。当前已有的Agent协作网络,仅仅针对某些特定任务效果更好,大规模异质Agents协作,从促进单个Agents的能力演变、强化到Agents网络IoA上互相交互。从已知到未知,loA可能正通向某个未知领域,在未来引发“智慧大爆炸”。