分享好友 最新动态首页 最新动态分类 切换频道
AI编程界添新星!普林斯顿研究团队推出了革命性的智能体
2024-12-26 15:16

 

AI编程界再添新星!普林斯顿研究团队推出了革命性的智能体-计算机接口(ACI)——SWE-agent。这一创新使得大型语言模型如GPT-4能够华丽转身,成为软件工程领域的AI专家,自动在真实的GitHub仓库中修复bug。

困扰GPT-4已久的编程难题,如今迎刃而解。在SWE-bench测试集中,SWE-agent表现出色,解决了12.29%的问题,平均仅需93秒,准确率令人瞩目。更令人振奋的是,SWE-agent完全免费开源。

短短十几小时内,便在GitHub收获了1.6k星、109个Fork的热烈反响。感兴趣的朋友可访问:https://github.com/princeton-nlp/SWE-agent。英伟达高级科学家Jim Fan也透露了成功秘诀:要在SWEBench上取得12.3%的佳绩,关键在于精心设计GPT-4的命令行工具,无需其他复杂手段。

John Yang及其研究团队强调,大模型需要精心设计的智能体——计算机接口,以提供类似于人类喜好的UI设计体验。例如,当LLM出现缩进错误时,编辑器能够立即阻止并给出反馈。此外,他们还发现,在查看文件时,限制SWE-agent一次显示100行比展示200-300行或整个文件更为有效。

即使拥有强大的GPT-4模型支持,一个优秀的智能体-计算机设计同样至关重要。John Yang团队的技术报告将于4月10日发布,届时将详细展示SWE-agent的工作原理和应用前景。

此外,该项目的logo由Ofir Press使用DALLE-3精心设计,突显了开源Devin的独特性和创新精神。自推出以来,Devin在短短一个月内迅速走向大众化,吸引了众多开发者的关注。

有开发者表示:“我感受到了一个全新的研究领域正在崛起——智能体计算机交互(ACI)。它与人机交互(HCI)有着紧密联系,但更专注于LLM和LVM的应用。”同时,对于普林斯顿团队利用GPT-4在基准测试中取得的12.29%准确率,许多人感到惊叹,并期待GPT-5的诞生将带来更多突破。

随着开源Devin的普及和智能体计算机交互(ACI)领域的发展,软件行业的传统护城河似乎已经消失。数字经济应用实践专家骆仁童博士对此表示期待,随着更多的AI垂直应用出现,我们将看到更多创新工具和方法涌现,推动软件工程领域不断前进。

智能体工作流SWE-agent的运作可概括为两大环节:首先是“推理”阶段,SWE-agent针对GitHub中的某一问题,利用特定脚本进行处理后,提出相应的拉取请求以期待问题得到解决;随后进入“评估”阶段,对提出的拉取请求进行严格检查,以验证其是否有效解决了原问题。

目前,这一流程主要应用于SWE-bench基准测试中的问题。若要在任意GitHub问题上运行SWE-agent,可执行以下命令:`python run.py --model_name gpt4 --data_path [GitHub问题链接] --config_file config/default_from_url.yaml`。

而对于SWE-bench上的问题,需在SWE-bench Lite上运行SWE-agent并生成补丁:`python run.py --model_name gpt4 --per_instance_cost_limit 2.00 --config_file https://www.bilibili.com/read/config/default.yaml`。若需针对SWE-bench中的特定问题进行操作,可添加`--instance_filter`选项。

至于评估阶段,只需在终端中切换至evaluation目录并运行`https://www.bilibili.com/read/run_eval.sh

作者介绍

SWE-agent这项研究中两位核心作者是John Yang和Carlos E. Jimenez。

John Yang

John Yang目前是普林斯顿大学的研究助理,导师是Karthik Narasimhan。他曾在加州大学伯克利分校取得了电子工程和计算机学士学位。他本人对语言基础和交互、LLM的基准测试、软件工程和代码生成感兴趣。

Carlos E. Jimenez

Carlos E. Jimenez是普林斯顿的博士生,导师是Karthik Narasimhan教授。他研究的是自然语言处理的人工智能和ML,研究兴趣包括代码语言模型,以及面向任务的对话。

无疑,人工智能正在重塑技术行业的运作模式。从Devin、Devika到OpenDevin,他们在软件工程的舞台上展现出卓越的实力。AI已不再是软件工程师的简单助手,而是逐步取代他们,胜任曾被认为仅人类能完成的复杂任务。

这引发了一个深刻的问题:AI是否已从工具蜕变为工程合作伙伴?更进一步,AI是否具备独立编写安全代码的能力?未来,编程的大权是否会完全交给AI?这些问题不仅关乎技术的飞速发展,更触及我们对AI角色和能力的根本认知。

Devin:引领AI工程新时代

就在今年3月12日,一家仅创立两个月、由十名成员组成的初创企业,以其创新之举在全球范围内引发了强烈震撼。

这家公司的杰作便是全球首例AI程序员——Devin。Devin不仅具备全面的全栈技术能力,能够自主掌握未知技术领域,更能在整个开发流程中无缝构建与部署应用程序,从修正代码缺陷到亲自训练及优化自身的AI模型,无所不能。

在权威的SWE-bench测试中,Devin以显著优势超越了Claude 2、Llama、GPT-4等业界翘楚,其优异表现令人瞩目,得分高达13.86%,堪称卓越。

显然,Devin并非一款普通的AI辅助工具,而是具备独立执行全套软件工程任务的先进AI体系。它的诞生标志着AI技术在工程领域的重大飞跃。

与传统AI工具相比,Devin的独特之处在于其能够自主规划并执行复杂的软件工程项目,这意味AI现今已具备担当工程师角色的实力。

除了核心的编程工作,Devin还展现了处理程序故障、实现应用部署以及培育新型AI模型的全方位能力,彻底颠覆了人们对AI在软件开发中作用的认知。

OpenDevin:共绘未来图景

在首发当日,一款名为OpenDevin的Devin开源版本应运而生,它以革新之姿强势登场。

OpenDevin积极倡导社区成员参与代码贡献,并坚定秉持开放标准的理念,其核心目标在于持续优化与强化AI在软件开发领域的应用效能。如此一来,软件工程师们将能更为高效地驾驭编程工作,提升生产力。

Devika:开源社区冉冉升起的新星

在Devin于AI软件工程领域的开拓性贡献的启发下,又一极具潜力的开源项目——Devika应运而生。

Devika是一位积极进取的AI软件工程师角色,具备理解复杂人类指令的能力。它能将这些指令细化为明确的操作步骤,精准收集相关数据信息,进而依据这些输入自动生成实现预定目标的代码。

详言之,Devika巧妙借力于Claude 3的卓越性能,融合尖端的AI规划与编程技术,构建起一个面向公众、由社区集体驱动的开放式创新平台。

Devika不仅代表着一项技术创新,更是对全球开源社群的一份诚挚邀约。它呼唤着各路贡献者携手踏上AI创新之旅,共襄盛举,擘画并塑造AI技术的未来图景。

AI编程的崛起展示了其在软件工程领域的巨大潜力,从规划复杂任务到修复漏洞,甚至管理整个开发流程。尽管如此,AI仍难以应对现有复杂代码库和编写安全代码的挑战,这要求深入了解代码背景、潜在漏洞及最新安全研究。因此,人类的监督在此过程中不可或缺。

虽然AI尚未能完全替代软件工程师,但它正在重塑技术界的未来。当前,Devin、Devika和OpenDevin等AI软件工程师引发我们思考:AI应被视为类似人类的存在吗?Ethan Mollick在“On the Necessity of Sin”中探讨了与AI合作共创软件工程未来的机遇与挑战。答案或许取决于我们对未来的设想及是否愿意拥抱开源、透明和协作的精神。

商道童言(Innovationcases)欢迎点赞和分享哦!~~

免费电子书:结构化思维 | 荆棘商途 | 年度十词 创新企业案例 | 区块链金融

数字经济应用实践专家 骆仁童主讲课程

人工智能:《AI趋势》《ChatGPT》

数字应用:《区块链》《元宇宙》《大数据》

数字中国:《智慧城市》《数字政府》《智慧建筑》《智慧交通》

数字化转型:《制造业数转》《零售业数转》《中小企业创新》

产业数字化:《烟草数转》《银行金融科技》《电力能源互联网》

宏观与趋势:《数字经济》《2024宏观》《双碳》

思维与技能:《数字化思维》《组织变革》

创新与创业:《创业导师》《商业模式》

最新文章
23196期p5预测专家 破兜排列五预测精准5注
2023195期排列五开奖号码开出3,6,7,0,0。本期开奖号码形态特点统计大小形态为小大大小小,大小比为2:3比例,奇偶形态为奇偶奇偶偶,质合形态为质合质合合,质合比为:2:3比例,和值为16点,和尾为6点,跨度为7点。本期排列五综合分析大小组合
golang爬虫和python爬虫代码编写难度
Go语言爬虫和Python爬虫在代码编写难度上各有特点,具体如下:Go语言以其简洁的语法和强大的并发处理能力而闻名,这使得编写爬虫变得更加高效。Go语言的并发模型基于Goroutines和Channels,可以轻松实现并发操作,这对于处理大量网络请求的
2024世界慕课与在线教育大会在伦敦举行
当地时间2024年12月12日上午,2024世界慕课与在线教育大会在英国伦敦开幕。本次大会以“智能时代下的未来高等教育重构”为主题,由世界慕课与在线教育联盟、联合国教科文组织教育信息技术研究所联合主办,清华大学、伦敦玛丽女王大学、北京
2024届高考语文试题汇编古代文化常识60题及答案.docx
1、2024届高考语文试题汇编:古代文化常识60题及答案1.下列对文化常识的解说,不正确的一项是( )A.礼记是中国古代一部重要的典章制度书籍,儒家经典著作之一,与周礼礼书合称“三礼”。B.儒家所称道的礼,可谓包罗万象,其内容涵盖政治制度
5个最好的 WordPress 论坛插件
2020年更新推荐阅读:精选7个不错的WordPress问答/论坛插件WordPress的灵活性和扩展性是任何国内的CMS无可比拟的,即使在国外,也是同类产品中的佼佼者。以wordpress为核心的网站可能是各种样子的,可以实现几乎你想要的任何功能。白话完了
b站cid电商信息流广告/我司提供免费配置cid及代投服务
何坤100小红书,b站,广点通,抖音,千川,快手,知乎等媒体广告开户投放服务日用百货销售;日用品销售;化妆品批发;化妆品零售;针纺织品销售;服装服饰批发;服装服饰零售;服装辅料销售;针纺织品及原料销售;互联网销售(除销售需要许可的商品
BT樱桃磁力搜索引擎
BT樱桃磁力搜索引擎是一款十分好用的电脑系统资源下载软件,其独特的软件设置功能,强大而bt搜索能力以及出色的网络资源下载特性能够姮好的为广大的用户群体建立一个自由、安全、稳定、便捷的高效系统下载、体验、资源查找、下载以及搜索体
2024惠州博罗高考文化课辅导评价好不好>top5评价好不好排名一览
  2. 惠州博罗高三复读辅导班  3. 惠州博罗立行高考复读冲刺班  4. 惠州博罗立行高中复读集训班
2023十大经典策略手游哪个好玩(经典耐玩的策略手游排行榜前10名)
目前策略类游戏非常受玩家欢迎,他不像休闲游戏那样随时可以停止,也不像射击类游戏那刺激,本期给大家推荐的是十大经典策略手游,如果有对这类游戏感兴趣的朋友可以往下看。1、《小小村长》这是一款像素风格的策略手游,游戏一共有两种玩
CocosCreator3.8.3实现微信好友排行榜
今天来说一下如何在CocosCreator开发游戏过程中,独立开发或者公司项目中如果有需求要做排行榜功能时候,我们该如何去实现呢? 先看演示视频如下:CocosCreator3.8.3实现微信好友排行榜演示地址其实在CocosCreator3.x和CocosCreator2.x中去
相关文章
推荐文章
发表评论
0评