昆工团队提出AI生成式智能体，有望用于陪伴机器人和在线心理咨询等

昆工团队提出AI生成式智能体，有望用于陪伴机器人和在线心理咨询等

2024-12-26 06:15

近几年，大语言模型的发展势如破竹。但是，它在需要理解隐含指令和应用常识知识的任务中依然表现不佳。

比如，需要进行多次尝试，才能达到人类级别的表现，这导致大语言模型在实际环境中的响应或推断不准确。

为解决上述问题，近期，来自昆明理工大学的研究团队，提出了一种基于计算意识结构的“内部时间-意识机器”（ITCM，Internal TimeConsciousness Machine），并构建了基于 ITCM 的智能体（ITCMA，ITCM-based Agent）。

该智能体支持在开放世界中的行为生成与推理，增强了大语言模型理解隐含指令和运用常识的能力。

该课题组引入 Alfworld 环境对 ITCMA 进行了测试，发现经过训练的 ITCMA 在已经见过的数据集上，比当前最优水平高出 9%；而未经训练的 ITCMA，在已经见过的数据集上的任务完成率也达到 96%，比当前最优水平高出 5%。

这一结果表明，该智能体在实用性和泛化能力上超越了传统智能体。

值得一提的是，该团队还将 ITCMA 部署到四足机器人上，以开展它在现实世界中的有效性实验。（具体结果演示可见 https://www.bilibili.com/video/BV19t421n7Ef）

结果显示，未经训练的 ITCMA 的任务完成率达到 85%，接近于其在未见过的数据集上的表现，这证明了该智能体在现实环境中具备实用性。

图丨现实世界中四足机器人的环境（来源：arXiv）

从应用上看，该智能体有望在以下几个领域拥有良好的前景。

其一，陪伴机器人领域。

目前，一些研究已经证明，即使是对较为简单的数字人，人们也会产生依恋式投射。

那么，基于生成式智能体的数字人，能够让人们产生强度更高的依恋式投射。在这种情况下，该智能体或将在陪伴机器人领域发挥重要作用。

其二，虚拟心理咨询领域。

事实上，因为共情、伦理等问题的存在，心理咨询行业在过去一直对由 AI 提供的心理咨询与心理干预秉持谨慎态度。

大语言模型出现以后，该行业发现 AI 至少可以帮助解决一些简单的心理干预问题，进而在一定程度上缓解因心理健康专业人员数量不足而给行业造成的压力。

那么，基于 ITCMA 的数字人，由于包含情感与镜像，所以可能有助于破解现有的大语言模型在与人类深度交互上面临的共情问题。

近日，相关论文以《ITCMA：基于计算意识结构的生成式智能体》（ITCMA: A Generative Agent Based on a Computational Consciousness Structure）为题在预印本平台 arXiv 上发表[1]。

昆明理工大学硕士研究生张瀚中是第一作者，昆明理工大学殷继彬副教授担任通讯作者。

图丨相关论文（来源：arXiv）

据张瀚中介绍，该研究始于 2021 年。

图丨张瀚中（来源：张瀚中）

彼时，学界普遍认为，通用人工智能，即强人工智能，距离人类还相当遥远。

所以，该领域的大多数研究者，选择将研究重点更多地集中在用于完成某一具体任务的弱人工智能上。

神经网络，通常被认为是弱人工智能的一部分。随着这种“黑箱”式算法的不断深入发展，学界和业界也越来越关注它的可解释性。

不仅如此，当问题域发生变化以后，神经网络的有效性也会大大降低。

正是基于上述背景，该课题组选择将人工心理作为该研究的方向。

不过，随着研究的渐趋深入，他们的课题方向也慢慢变成了以人机交互为核心、包含交叉心理学、社会学和哲学等学科的跨学科研究。

2022 年，ChatGPT 的诞生证明了，参数规模足够大的模型有可能产生涌现能力。

进一步地，美国斯坦福大学团队以大语言模型为核心，提出了生成式智能体。这说明，大语言模型涌现出的智能，能够在一定程度上具备社会性。

对于生成式智能体来说，它的输入对象是当下的环境和以往的经验，输出对象则是所生成的行为。

而生成这种行为的基础，则来自于一种新颖的智能体架构，可以把大语言模型与合成信息及检索信息的机制相结合，来为大语言模型的输出提供条件。

假如没有上述机制，虽然大语言模型仍然可以输出行为，但所产生的智能体很可能无法根据以往经验做出反应，以及无法做出重要判断，进而导致无法保持长期一致性。

举个例子，在由斯坦福大学和谷歌公司的研究人员开发的虚拟环境项目“斯坦福 AI 小镇”中，研究人员把多个智能体放在一个小镇里，并在不进行任何干预的情况下，让它们自由交互。

在此过程中，智能体的作用是，让小镇中的非玩家控制角色，根据玩家的不同行为做出反应。

而该研究的诞生，也驱动大量关于智能体的成果在 2023 年涌现。它们大多基于一种联结主义思想，认为大语言模型的成功，可以让智能体被还原为复杂系统的产生结果。

“事实上，我们并不完全认同上述思想。即使 GPT-4 和 Claude 3 已经在很多方面都超越了人类，但是包括记忆、幻觉等在内的诸多问题仍然存在。

因此，用大语言模型作为‘大脑’的生成式智能体，也少不了拥有这些局限性。”张瀚中表示。

从学科角度看，认知神经科学，与生物学上作为大脑底层的神经科学不同。

前者并不那么关注有哪些神经元，以及它们是怎么联结的，而是更关注作为上层结构的“脑区”，也就是那些彼此关联、但又各司其职的大脑功能性部分。

该课题组认为，关于通用人工智能的研究也是类似的。

所以，在这种情况下，与其关注底层的神经网络如何构建，不如在现有研究的基础上，以能够模仿人类意识的计算意识结构为基本理论模型，将整个“大脑”进行解构，让其来处理一些如意识流、记忆、情绪等简单的规则集。

“在当时，我们认为单纯以神经网络为核心的弱人工智能，难以发展成为通用人工智能。

因此，在诸如综合信息论、意识图灵机等模型的影响下，我们结合心理学与哲学中现象学的意识持存模型，提出了 ITCM 结构。”张瀚中表示。

基于 ITCM 结构，该团队构建了生成式智能体 ITCMA，旨在为开放世界中的行为，提供一个可以与其他智能体互动、并能够对环境变化做出反应的框架。

也就是说，通过计算意识解构 ITCM，研究人员就可以获得拥有“意识”的智能体，即便这种意识只是一种相当初级的意识。

“ITCMA 既能通过自己的想法去‘主动地’做些什么，又能通过 ITCM 中现象场的相似性，来完成经验的跨任务迁移，甚至于能在没有任何经验的情况下，自主学习如何完成任务。”张瀚中表示。

他们通过实验证明，ITCMA 可以在没有任何指导的情况下，于很短的时间里（20 步以内）学会如何根据环境提供的工具找到一个物品，并在将它冷冻之后，放到橱柜里。

显然，正是通过对学科研究视角的转换，让他们得以修正传统的生成式智能体因过度依赖大语言模型而导致的一系列缺陷。

据张瀚中介绍，ITCM 的模型之所以能够成功建立，也得益于他的一位就读于心理学专业的朋友提供帮助。

“在讨论如何表述 ITCM 模型时，她从心理学角度出发，给我提出了不少建议。

并且，她也基于此建立了一套名为‘梦之剧场’的心理理论，并将其发表在豆瓣上。未来，或许这会在一定程度上成为 ITCM 的心理理论基础。”他说。

实际上，在目前关于 ITCMA 的研究中，研究人员仅仅研究了该智能体作为单个智能体，完成任务的效果和学习能力，并未进一步研究其在多个智能体同时存在的情况下，能够展现出怎样的协作和交互效果。

所以，接下来，他们计划重点研究 ITCMA 在社交网络环境中的社会性协同策略。

“在这项研究中，或许有很多人更关注 ITCM 的结构和实验结果，但我和团队其他成员认为，最重要的部分反而体现在非旨在委身于任务的模型，以及 ITCMA 意识的高级功能解释上。”张瀚中表示。

他们十分看重 ITCMA 相较于传统智能体的不同之处，并致力于让它具有足够的“主体性”。

正如“智能体”这一概念的哲学原始定义一样，他们期待生成式智能体是一种拥有欲望、信仰和意图，并且可以自主采取行动的实体。

“主动性始终是其中最重要的特质。我们希望 ITCMA 不仅仅是一种任务驱动的工具，还能够拥有自己的想法，并能去自主地做些什么。”张瀚中表示。

参考资料：

1.H.,Zhang,J.,Yin,H.,Wang.et al. ITCMA: A Generative Agent Based on a Computational Consciousness Structure. arXiv:2403.20097. https://doi.org/10.48550/arXiv.2403.20097

运营/排版：何晨龙

01/ 川大团队研发高达15结的垂直腔面激光器，实现74%电光转换率，打破该领域长达二十年效率停滞局面

02/ 科学家研发新型印刷电路板，实现超90%的原料回收率，预计成本和传统印刷电路板相似

03/ 江南大学团队打造新一代碱基编辑器，编辑窗口最高可达41nt，可用于高版本工业底盘菌株开发

04/ 加州大学团队开发新型超声贴片，实现3D脑血流动力学监测，为脑科学研究提供有效平台

05/ 分布式电合成氨路在何方？科学家开展合成氨热力学分析，首次找出能耗更低的候选介导金属