最近,大模型领域的最新动向,让笔者对RPA行业的未来产生了担忧。
一件事情,是Anthropic发布了Claude 3.5,Claude 3.5 Sonnet展示了自主看屏幕操作光标完成复杂任务的能力,包括移动光标、点击相应位置以及通过虚拟键盘输入信息,模仿人类与计算机的交互方式。另一件事情,是OpenAI直播第6天,所展示出的GPT-4o的屏幕理解能力,以及OpenAI即将推出名为“Operator”的全新AI智能体。
当看到Claude 3.5发布的时候,我的一个感觉就是——糟了,RPA遇到了“门口的野蛮人”。当GPT-4o展示出屏幕理解能力的时候,我对这一趋势更加确认了。
Claude 3.5与GPT-Operator,它们到底有多强?
Anthropic的Computer Use功能,使得Claude能够模拟人类与计算机的交互方式,通过API实现屏幕截图、移动光标、点击按钮等操作。这一功能的开发,标志着AI在桌面操作领域的重大突破,使得AI助手不再局限于特定工具,而是可以直接使用为人类设计的软件。
Agent.exe是一个利用Claude 3.5 Sonnet API的开源Electron应用程序,允许用户通过AI直接控制本地计算机。
另一方面,OpenAI计划推出的“Operator”智能体,旨在自动执行各种复杂操作,包括编写代码、预订旅行、自动电商购物等。用户只需在电脑上简单下达指令,Operator就能自动完成任务。这一功能将与Anthropic的“计算机使用”API竞争,解放人类双手,代替用户操控电脑。
Claude 3.5和GPT-Operator的出现,标志着AI从“智能助手”向“超级员工”的转变。它们不仅能理解和设计流程,还能自主执行任务,展现出强大的操作能力。这对传统的RPA行业提出了新的挑战,迫使其重新思考自身的价值和定位。
RPA的核心能力与大模型的“致命威胁”
RPA(流程自动化)曾是企业提升效率的“自动化利器”,其核心能力涵盖四个关键环节:流程理解、流程设计、流程执行与流程管理。这是一条从分析到操作,再到优化的完整闭环。
首先是流程理解。RPA通过分析文档、表格以及系统中的数据,提取并解析业务逻辑。它将繁琐、重复的人工任务拆解为规则驱动的流程,这为后续自动化奠定了基础。
其次是流程设计。RPA利用可视化工具,将复杂的业务逻辑转化为自动化脚本。企业可以根据需求重新设计操作步骤,确保流程的高效性和适应性。
流程执行则是RPA的核心体现。它通过模拟人类在系统中的操作,完成一系列任务,如点击按钮、填写表单、发送邮件等。执行的精度和速度,成为RPA对人力替代的关键优势。
最后是流程管理。RPA不仅可以管理多个流程机器人,还能实时监控、调度和优化任务执行。对企业而言,这种管理能力尤为重要,它确保了自动化任务的持续性和稳定性。
这套逻辑曾经无懈可击。但大模型的出现,正在打破这个规则。在上述几个环节,Claude、ChatGPT这类大模型产品,都表现出替代甚至超越的潜力。随着大模型技术的发展,以及其在智能体应用上的演进,相信在不远的将来,其将在多个业务流程自动化的多个关键环节上,表现出超越传统RPA的潜力:
流程理解:动态适应与认知超越
传统RPA依赖预定义规则来解析流程,这种规则化理解虽然有效,但在复杂场景下显得僵化。大模型的优势在于它的“动态学习能力”,Claude 3.5结合图像和文本,能从文档、视频中快速掌握业务逻辑。更重要的是,它不需要人为设定规则,而是通过多模态感知和推理,灵活应对多变的场景。
举例来说,传统RPA在处理发票时,需要明确的模板匹配和字段解析。一旦模板变化,RPA往往需要重新调整。而大模型可以通过学习发票的视觉结构和文本内容,直接理解信息分布,无需人为干预。
流程设计:从“规则预设”到“逻辑优化”
RPA的流程设计本质上是人为逻辑的转化,自动化脚本的编写需要清晰的边界和规则。而GPT-Operator通过其推理能力,实现了从规则预设到逻辑优化的跨越。它不仅能理解业务需求,还能基于数据和环境,重新设计更高效的流程。
例如,面对复杂的供应链优化问题,RPA的方案需要人类工程师手动设定逻辑和路径。而GPT-Operator则可以通过语义分析理解供应链的瓶颈,自动生成优化策略,并在任务中不断迭代。
流程执行:打破界面和工具的限制
传统RPA通过脚本实现对界面的操作,但它对界面变化的敏感性是一个显著缺陷。系统界面稍有改动,RPA脚本可能就会失效。而Claude 3.5展现了对界面动态变化的更强适应性。它可以直接操作屏幕,并在不同的系统和工具之间切换执行任务。
例如,在跨系统的数据整合任务中,传统RPA需要多段脚本串联完成。而Claude 3.5则能够实时调整操作路径,直接完成数据整合。这种灵活性使其在多变的商业场景中表现得更加游刃有余。
流程管理:从执行扩展到全局调控的可能性
目前,大模型在流程管理方面尚未达到RPA的深度能力。RPA提供了完善的任务调度和批量管理功能,能够实时监控和优化多个流程的执行。尽管如此,大模型通过与第三方工具整合,展现出了强大的扩展潜力。未来,它可能在流程管理的广度和智能化程度上超越RPA。
RPA的自动化逻辑以“规则”为核心,而大模型则以“认知”为本质。这是一次范式的转变——从固定的规则执行到动态的智能适配。从技术角度看,RPA是对人类操作的模拟,而大模型则是对人类思维的复刻。
这正是大模型的致命威胁:它不只是做得更快、更准,而是彻底改变了“流程自动化”的定义。对于RPA而言,这不仅仅是竞争,而是生存根基的被瓦解。
大模型颠覆的启示,从Chegg到Stack Overflow
事实上,大模型不仅仅能赋能一些行业领域,也能颠覆一些领域。而且,这不只是假设,而是已经在一些领域里发生过的现实。
技术从来不讲情面,它更像是一股洪流,迅速吞噬那些停滞不前的企业。Chegg、Stack Overflow、RWS,这些曾在各自领域无可替代的“王者”,正被技术毫不留情地拖下神坛。他们的共同命运提醒我们:不是每个企业都能跟上技术变革的脚步,而那些失去了核心竞争力的玩家,终将被市场抛弃。
Chegg的宿命:技术浪潮下的教育巨轮沉没
Chegg曾是教育领域的“黄金矿工”,它通过提供题库和答案订阅服务,成为学生作业场景中的必备工具。但ChatGPT来了,带着无与伦比的效率和免费的答案。这一冲击是毁灭性的:半年内,Chegg流失了超过50万付费用户,股价跌去99%。这不是市场调整,而是生意模式的崩塌。
Chegg的悲剧在于,它的核心价值过于单薄。提供答案这个功能,在大模型面前显得毫无壁垒——一个简单的对话就能免费完成它的工作。技术不仅“偷走”了它的用户,更直击其商业逻辑的根基。Chegg没有转型,没有建立起任何独特的附加价值,它的失败是一场可以预见的坍塌。
当核心功能沦为技术的附属品,而企业又无法在用户体验、品牌生态或服务深度上建立护城河,结局只会是一场无力回天的“技术屠杀”。
Stack Overflow:从不可替代到可有可无
如果说Chegg的崩塌是教育行业的警示,那Stack Overflow的故事更像是对整个知识共享平台的嘲讽。这家被誉为程序员“圣地”的技术问答平台,曾以其海量内容和社区机制牢牢占据市场。但ChatGPT让用户有了更快的选择,一段对话,几秒钟的时间,它就能给出明确答案,而不需要花时间翻阅帖子或等待社区回复。
结果是流量雪崩:两年间,Stack Overflow的月流量减少了50%。社区式知识共享的优势,变成了劣势。用户不再有耐心去阅读长篇讨论,当技术能提供快速解答,社区的互动性也变得无足轻重。
平台的核心价值不应该只是功能本身,而是独特的用户体验。效率是时代的刚需,如果你无法比技术工具做得更快、更好,用户的选择将不会留情。
RWS:翻译巨头的滑铁卢
翻译服务公司RWS长期以来以其高质量和专业化著称,在法律、技术等高端领域具有优势。但大模型的语言处理能力让这些优势逐渐失色,ChatGPT不仅能提供准确的翻译,还能理解上下文、识别复杂术语,并迅速给出结果。更低的成本,更便捷的服务,最终让RWS的市场受到重创。
RWS的股价暴跌了57%,核心原因是它无法将自己从“翻译工具”转型为“语言解决方案提供商”。当技术的性能和成本优势碾压市场时,传统服务商只能选择被颠覆。
当大模型的能力覆盖基本功能,企业如果不能通过差异化优势进行自我升级,就难逃被边缘化的命运。高端市场的门槛会降低,只有具备深度行业理解和定制化能力的企业才能生存。
大模型的颠覆逻辑:谁最危险?
大模型的颠覆性来自它打破了单一功能产品的生存逻辑。功能化越强的产品,越容易被替代。这些产品有几个共同点:
技术壁垒低:核心功能简单,容易被大模型复制。
附加价值少:缺乏生态或服务延展性,用户容易流失。
用户粘性弱:与用户的关系建立在功能性需求,而非情感或品牌价值。
正因如此,那些以“功能性”为核心卖点的企业,无论是在教育、翻译还是技术平台领域,都难以逃脱被颠覆的命运。
那么,应该如何避免被大模型颠覆呢?
在技术浪潮中幸存下来的企业,必然具备以下特征:
1. 建立行业壁垒:深入特定领域,提供个性化、合规性强的服务,成为行业标准的定义者。
2. 构建用户生态:单一功能难以抗衡大模型,但平台化的生态却是护城河。通过多方协作建立闭环,让用户离不开你。
3. 加速技术整合:不要对抗技术,拥抱它,利用大模型提升自身能力,成为技术的合作者,而非旁观者。
技术从来不是对手,固守老逻辑才是。主动创新、重新定义自己的价值,是企业在技术浪潮中的唯一出路。
从Chegg到Stack Overflow,再到RWS,这些曾经的行业领军者被颠覆的原因不是技术的进步,而是它们自身的停滞。当技术以指数级速度前进时,企业的缓慢转型便成了致命伤。
被替代的不只是功能,而是思维的惯性。大模型让功能性产品的生存空间越来越窄,唯有那些能够摆脱功能依赖、建立独特价值的企业,才能在这场生死较量中脱颖而出。技术不会等你,它只会向前。
Claude 3.5的短板,与RPA厂商的生存空间
需要指出的是,Claude 3.5和类似的大模型虽然展现了颠覆性能力,但它们并非完美。正如任何新兴技术一样,大模型在实际应用中仍存在显著短板,而这些短板,恰恰是RPA厂商赖以生存的关键空间。如果RPA能够抓住这些点,不仅可以找到自身定位,还可能在与大模型的协作中实现价值重塑。
具体来看,目前大模型存在的短板,以及RPA厂商赖以生存的长处,可以归纳为以下几个方面:
1. 流程管理的复杂度
大模型在单任务执行中表现卓越,但在多任务调度和流程管理上却显得乏力。企业自动化的核心不仅是执行任务,更在于如何高效协调多个流程机器人、实时监控执行情况并进行动态优化。RPA厂商长期以来积累的监控和调度工具,使其在企业级流程管理中拥有无可替代的专业性。
2. 行业深度与合规性
自动化解决方案无法“一招通吃”,金融、医疗等高壁垒行业对数据合规性、隐私保护以及行业规范有着极高要求。大模型的通用性是其优势,但也是它的局限:它缺乏深度行业知识的嵌入和本地化的灵活性。而RPA厂商通过与特定行业的长期合作,已经构建了针对性的解决方案,这是大模型短时间内难以复制的。
3. 部署灵活性与成本控制
大模型依赖云端部署,这在隐私敏感行业中可能成为一个巨大障碍。企业对本地化部署的需求(例如将流程机器人部署在内部网络中运行),是大模型目前难以满足的。同时,大模型的高计算成本和资源需求对一些中小型企业来说也构成了门槛,而RPA工具的轻量化特性则使其更具吸引力。
RPA厂商在流程管理、行业专注和本地化部署上具备明显优势,例如:以UiPath和Automation Anywhere为代表的行业领导者,通过多年的市场深耕,建立了自身的核心竞争力。UiPath以其企业级自动化能力著称,它不仅提供流程设计和执行,还在流程监控、分析和优化方面独树一帜。这些功能使企业能够实现全生命周期的流程管理,从而在效率和精度上取得更高收益。Automation Anywhere则在跨系统集成和数据安全方面占据领先地位,其工具能够无缝连接不同的软件生态系统,帮助企业打通孤立的数据孤岛,同时提供强大的隐私保护功能。
这些厂商的共同特点在于深耕企业需求,提供针对性强的解决方案,而非依赖“一刀切”的通用能力。
当然,RPA厂商要想在接下来的竞争中生存下来,不能躺在以前的功劳簿上睡大觉,而是应该积极拥抱新技术,以足够快的创新速度,迅速抢占先机。具体来看,RPA厂商可以在以下几个方面发力:
1. 深化行业解决方案
RPA厂商需要放弃单纯的工具思维,从泛用型工具向行业定制化解决方案转型。通过深度融入特定行业的需求,如医疗领域的HIPAA合规、金融行业的SOX合规等,RPA厂商可以打造难以撼动的行业壁垒。
2. 整合大模型的能力
大模型不是敌人,而是工具。RPA厂商可以通过将Claude 3.5等大模型整合为底层能力,借助其强大的流程理解和推理能力,提高自身产品的竞争力。例如,将大模型用于文档分析和任务规划,RPA工具则负责精细化的执行和管理,形成互补的生态。
3. 强化数据与隐私的护城河
在数据安全成为企业焦点的时代,RPA厂商可以通过强化本地部署能力、提供私有化解决方案,确保客户数据不外流。这种对数据隐私和合规的重视,将成为RPA在特定行业的核心竞争力。
4. 打造创新生态系统
未来的竞争不再是单点技术的对决,而是生态系统的博弈。RPA厂商可以通过建立开发者社区和开放插件体系,吸引更多企业和第三方合作伙伴参与,从而形成一个强大的平台生态。这不仅增强了客户粘性,也为企业持续创新提供了土壤。
事实上,在积极拥抱大模型技术方面,中国不少RPA厂商已经在行动,而且有些已经取得了一些成效,比较典型的如实在智能、艺赛旗、金智维、影刀、弘玑、来也科技等。
实在智能:发布了自研的垂直大模型TARS,并积极探索大模型与RPA的结合,推出了实在AI Agent智能体产品。通过实在Agent,用户可通过文本或对话直接生成数字员工,实现“你说,PC做”。
艺赛旗:推出了旗旗助手(AI-Agent),通过集成大模型的能力,基于用户的自然语言输入,可将其转化为可执行指令,并自动判断处理、执行自动化流程。
金智维:基于RPA+LLM打造了金智维K-Agent平台,该平台具备智能交互、思考、分析和决策等能力。用户基于K-Agent平台,可以实现快速开发、部署各类智能助手(Copilot)型数字员工。
影刀:发布了影刀AI Power这款产品,以及在影刀RPA融合AI能力,推出影刀Go、影刀Copilot两个新功能。影刀Go通过提供一个搜索和快速访问办公工具的界面,提升了办公生产力。
弘玑Cyclone:通过模型微调技术,将GPT与原有及新开发的组件封装,构成多个智能组件,并通过自然语言或API驱动。
来也科技:推出了基于大语言模型的产品“魔法帽”(Magic Hat),允许开发者通过自然语言生成自动化流程片段。
因此,技术的变革总是充满挑战,而挑战的另一面是机会。Claude 3.5和类似的大模型正在重新定义自动化的边界,但它们并不是终局。RPA厂商面临的不是一纸“死亡通知书”,而是一场生存与进化的博弈。那些能够借助大模型浪潮重塑自我,打造更深壁垒和更广生态的企业,将不仅是幸存者,更是未来的塑造者。黎明前总是黑暗,而曙光,只属于那些准备好迎接它的人。
文:一蓑烟雨 / 数据猿责编:凝视深空 / 数据猿