分享好友 最新动态首页 最新动态分类 切换频道
AI Agent重塑微服务治理
2024-12-27 04:33

随着技术架构的发展,微服务系统的复杂性不断增加,对运维提出了更高的要求。为了应对这一挑战,一种AI驱动的微服务治理方案被提出。该方案采用多智能体架构,将运维专家经验整合,并通过自然语言交互和智能推理,简化了灰度发布和配置限流熔断等操作。利用大型语言模型(LLM)的推理能力,方案能够进行深入的故障诊断和处理,实现运维经验的自动化。每个智能体都能承担特定角色,高效完成复杂任务,并通过持续的数据训练和SOP提炼,不断优化功能,满足用户需求。在数字时代,AI为微服务治理开辟了新的可能性。

传统场景下,软件的研发主要依靠人,需求沟通、开发、测试、部署等阶段都需要大量人力投入。大模型优秀的代码生成和一定的思维链推理能力,能够激发微服务研发、运维等环节“智能涌现”,重塑软件研发全生命周期。

商业产品包含效果广告(搜索广告,信息流广告)和展示广告(品牌广告,开屏广告)两大类广告产品,以及基木鱼和观星盘、电商等营销工具。为了保障复杂系统的稳定性,业务同学需投入大量人力运维微服务,从而保证业务功能快速交付和线上高稳定性。这些工作包含两类

  1. 常规流程操作 日常上线部署、调整部署和发布 API、配置修改、路由参数更改等常规操作。

  2. SRE架构优化 技术栈持续升级,针对线上报警等稳定性问题,进行深层次的根因定位和故障处理、架构优化。

平台工程团队面向商业产品打造的 Jarvis 平台,提供了一整套的运维工具包括自动化部署和微服务治理分析能力。但是这些治理工具存在以下问题

  1. **组合操作复杂:**完成单一目的需要大量的组合操作,这些操作入口深(隐藏在重重菜单中,链路长。

  2. **强依赖人工经验:**对于根因定位和故障处理、架构优化, Jarvis 平台开发了微服务治理、性能分析、自动化监控、调用链分析等高阶能力。但是这些工具使用门栏较高,定位问题严重依赖于人工经验。如果对该业务应用无运维经验,则需要耗费大量时间去定位止损和优化架构。

为了提升商业产品维护的效率问题,Jarvis 平台使用 AI 原生应用思维来全新重塑产品形态,革命性提升业务研发运维效率,基于多智能体架构将专家经验内化,大幅降低使用门槛,显著提升微服务维护的效率(包括故障处理和根因定位、架构优化、部署操作等)。

主要有两个关键环节

  1. 全流程对话式交互:用户依靠自然语言发出指令多轮持续对话完成一项完整的升级操作,比如灰度发布、配置限流熔断、流量录制和回放等复杂操作。

  2. LLM 推理诊断处理 基于定位问题的经验,依靠LLM的推理能力,进行根因分析,通过智能诊断、报警等机制来驱动系统故障的高效处理,实现人工运维经验的可复制性。

应用使用JarvisBot 升级到jdk17全流程对话式交互

  1. 用户要求升级 JDK17

  2. DirectorAgent解析SOP规划执行路径,组装CoderAgent、OpsAgent解决该需求

  3. CoderAgent自动升级代码并发出CR;代码负责人 CR 合入

  4. OpsAgent部署上线,并将录制流量回放保证服务正常,承接线上流量

基于思维链推理的报警处理LLM 推理诊断处理

  1. 用户要求诊断错误日志报警

  2. DirectorAgent解析 SOP 规划执行路径,组装DiagnosisAgent、OpsAgent解决该问题

  3. DiagnosisAgent拉取 Metrics 日志和 Tracing 日志定位到问题实例,提出”屏蔽实例“优化建议

  4. 用户确认后,OpsAgent执行优化止损操作

3.1 业界探索

单个AI智能体=LLM+记忆+规划+工具等,参考述上OpenAI理论基础。

多智能体则需要由多个Agent依靠既定SOP互相进行交流,从而保证智能体能够正确的合力完成一个复杂的长程任务。智能体的关键在于SOP,是不同工种技能的关键,能让每一个智能体扮演一个特定角色。

SOP指的是Standard Operating Procedure,即标准操作程序,它提供了执行特定任务所需涉及的角色分工和详细操作步骤,以确保在不同情况下都能保持作业结果的准确性和高效性。SOP 在软件开发、系统维护和团队协作中起着重要作用,有助于确保开发人员遵循最佳实践、减少错误和提供工作效率。

为了解决项目开篇提到用户需求,系统为了快速产出大量的能力,因此经过多次迭代,有了一系列演进

阶段一:多智能体协作。 Agent 之间需要相互调用才能完成复杂的对话目标。但是Agent 的工作存在大量重复,比如几乎所有智能体都需要调用底层的 API agent进行数据查询,诊断的智能体其实也需要大量的优化操作。智能体直接的边界非常不清晰,交互的方式也比较多样,有通过自然语言,有通过直接调用的,非常混乱。

阶段二:智能体协作SOP 标准化。 通过标准操作程序(SOPs)编码作为智能体Prompt,指导大模型按照结构化流程工作并协调智能体各个环节,允许具有领域专长的智能体验证输出并减少复合错误,有效避免大模型的幻觉问题。SOPs 总结人工操作流程经验,从而让 agent 的职责和产出结果标准化、agent 间的协作完全符合要求。

3.2 SOP格式定义

问题场景

SOP

自然语言描述的场景

自然语言描述的操作步骤

举例

问题场景

SOP

错误日志报警诊断分析

1:信息收集,收集要诊断排查的所有相关数据和信息

2:分析诊断,分析诊断具体的原因

3: 止损建议,根据诊断原因给出止损建议

信息收集

1. [TOOL]查询错误信息详情,获取结果列表中第一条数据traceId, stack_error_message, localBns

2. [TOOL]查询错误日志信息,获取traceId相关联的所有日志信息

分析诊断

1. [TOOL]分析错误日志信息,根据日志信息总结错误根因

2. [TOOL]分析错误信息详情,根据错误信息的描述和stack_error_message分析错误原因

止损

1. [TOOL]查询止损建议,根据诊断原因查询止损建议

JarvisBot是一个中枢神经模块,做决策和触发任务,不做具体的业务逻辑。它链接用户(LUI层)和业务层,跟用户进行自然语言的交互,理解自然语言描述的SOP ,指挥底层系统完成对应的任务。它的几个重要部分包括

  • Agents(智能体集合:包含DirectorAgent(技术负责人)、CoderAgent(程序员)、OpsAgent(操作智能体)、DiagnosisAgent(诊断智能体)等一系列智能体。

  • 智能体都基于 BaseAgent 构建,具有基础的 SOP 理解和LLM ReAct 思维链规划能力。

  • 不同的 Agent 具有不同的技能,比如DirectorAgent规划智能体工作流、CoderAgent监听PRD生成代码,DiagnosisAgent监听诊断类问题产生诊断结论等。

  • Agents之间通过消息总线进行交互,不同的 Agent 产生和订阅不同主题的消息。

  • 知识管理端:管理各种静态数据,并提供一定的自动化手段进行更新。比如借助数据飞轮管理和优化Prompts,录入并管理 SOP,自动化录制知识。

  • 工具集合:链接底层业务接口,封装一些复杂操作,通过HTTP或者 RPC 请求获取业务模块的数据。

  • 模型管理:对模型一些的封装管理,包括一些重试策略、排队算法等。

下图是一个典型的基于 SOP解决诊断问题的流程图

既然SOP是驱动多智能体协作的关键,如何持续产出 SOP 是让多智能体架构真正具有自主进化的能力关键。如何产出 SOP依赖于数据提炼的能力。因此:如何构建数据飞轮并且利用数据飞轮持续优化提炼SOP, 是实现多智能体持续进化的关键。

5.1 大小模型飞速协同进化,是智能性进化的根基

智能体架构底层依靠一系列不同尺寸的模型。其中通用大模型用于通用知识理解和复杂推理,轻量级模型用于SFT 微调。

上表看出,模型尺寸越小,成本越低、响应速度越快,但是通识能力和复杂问题推理能力就越来越差。

JarvisBot智能体的核心思路是用大模型教会小模型,借助大模型去构建小模型SFT训练优质数据集,在不同细分场景大量的使用小模型,从而达到智能性和成本的完美平衡。

基于离线AI 对话评估系统利用规则库、参考历史相似语料打分、语料聚类抽样、多LLM(文心4、GPT4、专精SFT模型等)群体智能打分,评估线上对话语料。单日机器可自动完成评估对话条目4w+,产出大量的评估报告推动JarvisBot从产品、LUI技术解析和模型基座多个角度飞速进化。

5.2 如何实现持续进化—数据飞轮训练专家模型,自动提炼SOP

通过自动化评估系统,可以不断评估智能体的智能性,不断洞察用户的需求,包括产品功能使用情况、未满足的功能诉求、用户习惯操作动线等。借助数据飞轮可以不断训练出专家模型,自动提炼SOP,从而帮助多智能体不断的持续进化。

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以,免费领取【】

最新文章
面容即密码!人脸识别签到助参会者快速入场
在数字化技术不断发展的今天,人脸识别签到技术正逐渐成为各类活动入场管理的热门之选,以其卓越的智能化特性重塑着传统签到模式。人脸识别:精准验证的奥秘人脸识别签到,是一种依托先进的图像识别技术与深度学习算法的身份验证方式。它通
用AI绘画生成诱人美女,简单几步打造个人专属女神
在科技越来越发达的今天,AI绘画逐渐走入了我们的生活。作为一位AI工具科普博主,今天我想和家人们分享的是,如何使用AI生成超逼真的美女写真。你是否想过,为你的社交平台增添一些引人注目的照片,或者为自己创造一个独特的人物形象?人工
高清美女写真就这样轻松生成!用AI工具打造你的数位女神
在主页上,挑选一款你喜欢的美女写真模板,工具内提供了众多预设风格,可以让你眼花缭乱。步骤三:自定义设计根据你的喜好,调整肤色、发型、眼睛等细节。你会发现,镜头下的她越来越符合你心中的那个完美形象。步骤四:生成并预览完成调整
近八成受访大学生认为需要减少对算法推荐的依赖
  视觉中国供图  就读于西北师范大学的刘昊冉觉得算法无处不在,有时仅仅是和同学聊天谈到某个话题,打开手机就会发现相关推荐已经出现在各类软件里了。刘昊冉对这样的推荐不太满意,感觉隐私在算法面前暴露无遗。  近日,中国青年报
东莞市莞城街道第二教师村老旧小区改造工程项目竞争性磋商公告
  项目概况  东莞市莞城街道第二教师村老旧小区改造工程项目的潜在供应商应在广东省东莞市莞城高第街5号市7楼东莞市莞城招投标服务所获取采购文件,并于2021年11月30日 09时30分(北京时间)前提交响应文件。  一、项目基本情况  
零基础教程,从零开始搭建你的
从零开始搭建,本文详细介绍了整个步骤,包括选择、、主机购买、设计、内容填充、SEO优化等关键环节,助你打造个性化。lia href=http://azrprosper.com/fwq/#id1 title=筹备阶段筹备阶段/a/lilia href=http://azrprosper.com/fwq/#id2 titl
node.js毕设宠物在线管理系统程序+论文
本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码 关于宠物管理系统的研究,现有研究主要以宠物领养管理、宠物医院管理等为主,专门针对宠物在线综合管理&#x
鹏欣漫城都荟 首页网站-鹏欣漫城都荟-楼盘详情-昆明 鹏欣漫城都荟昆明鹏欣漫城都荟 售楼处欢迎您
总栋数:A1、A2、A3地块共计11栋楼栋间距:左右40.15米,前后52.41米车位配比:1:1.1容积率:3.0绿化率:46%物业公司:春川物业物业费:2.5元/平总户数:1096户梯户比:2T4交付标准:精装/毛坯装修标准:2000元/平公摊:19%-22%首付比例:
高颜值微信小程序 UI 组件库!
今天来分享 8 个高颜值的微信小程序 UI 组件库,速速收藏!Vant WeappVant 是一个轻量、可靠的移动端组件库,由有赞于 2017 年开源。目前 Vant 官方提供了 Vue 2 版本、Vue 3 版本和微信小程序版本,并由社区团队维护 React 版本和支付宝小
欧慕斯智能锁怎么改密码
smart lock智能锁怎么改密码对于如何修改smart lock智能锁的密码,首先需要明确的是,不同品牌和型号的smart lock智能锁在修改密码的步骤上可能会有所不同。因此,在进行密码修改之前,建议先查阅您所使用的smart lock智能锁的说明书或者联
相关文章
推荐文章
发表评论
0评