分享好友 最新动态首页 最新动态分类 切换频道
GPT-4发布,能击败90%的人类
2024-12-26 14:09

来源:青投创新

GPT-4发布,能击败90%的人类

编辑:Tian

" 许多人工智能研究人员认为,整合文本、音频和视频的多模态系统为构建更强大的人工智能系统提供了最佳途径。

今天(3月15日)凌晨,OpenAI宣布推出GPT-4,这是其AI语言模型系列中最新的一款,为ChatGPT和新Bing等应用提供支持。

在OpenAI的介绍里,对GPT-4的描述是:这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型,将接受图像和文本输入,提供文本输出,虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平。

在Live Demo中,OpenAI的总裁和联合创始人Greg Brockman展示了GPT-4的能力:总结文章、写代码、报税、写诗等等,过去GPT-3.5做不到的, GPT-4都可以完成。

结论就是,GPT-4是一个比ChatGPT更加强大的模型!

01

强大在哪里?

“GPT-3.5和GPT-4之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。”

OpenAI首席执行官Sam Altman在推特上表示,过去的两年里,团队重建了整个深度学习堆栈,并与微软Azure一起,为GPT工作负载从头开始共同设计了一台超级计算机。经过训练和修复更新之后,GPT-4前所未有的稳定,成为OpenAI能够提前准确预测其训练性能的第一个大型模型。

GPT-4的改进明显体现在系统进行多项测试和基准测试中的表现,包括统一律师考试、LSAT、SAT数学和SAT基于证据的阅读和写作考试。

在美国律师执照统考模拟中,GPT-4得分约为前10%——击败了90%人类,而ChatGPT背后的GPT-3.5得分约为倒数10%;生物奥林匹克竞赛,GPT-3.5能达到后31%水平分位,GPT-4可达到前1%水平分位;GRE、SAT考试成绩中,也有大幅提升,击败了80%以上的人类答题水平,而医学知识自测考试准确率达75%。

尽管在GPT-4的介绍中,OpenAI没有像往常一样透露训练参数数据,只用了“更大的模型”来表述,但从GPT-4能完成的任务和表现来看,无疑是要比上一代GPT-3的1750亿个参数多很多倍。

并且GPT-4 由深度学习技术开发而来,是在公开可用和已被许可数据上进行的训练,并使用强化学习和人工反馈进行微调,这使得GPT-4相比上一代还接受了更多的训练,大幅提高数据与计算方面的能力。

GPT-4是多模态的,即不仅能接受图片、视频、音频的输入,还能同样输出图片、视频和音频。

许多人工智能研究人员认为,整合文本、音频和视频的多模态系统为构建更强大的人工智能系统提供了最佳途径。

02

存在的问题

OpenAI在发布GPT-4时强调,该系统已经进行了六个月的安全培训,并且在内部测试中,与GPT-3.5相比,GPT-4对禁止或不恰当内容做出响应的可能性降低了82%,做出实际响应的可能性提高了40%,这是对早期GPT模型皆会出现问题的一种修正:随意编造事实或触发敏感内容。

然而,这并不意味着系统不会出错或输出不恰当的内容。例如,微软透露其Bing搜索引擎一直由GPT-4驱动,许多用户能够以各种方式破解Bing的防护,让AI提供危险的建议,威胁用户,并编造信息。

而且GPT-4仍然是基于2021年9月之前的数据训练的,因此GPT-4还缺乏对2021年 9月之后数据的有效理解。

“GPT-4 仍有许多已知的局限性,我们正在努力解决,例如社会偏见、幻觉和对抗性提示。”OpenAI表示。

03

应用与竞争

OpenAI已经与多家公司合作,要将GPT-4结合到他们的产品中,包括Duolingo、Stripe和Khan Academy。

GPT-4模型也将以API的形式,提供给付费版ChatGPT Plus(OpenAI每月20美元的ChatGPT订阅)的订阅用户,开发者可以注册,用它打造应用。

微软此后表示,新Bing搜索引擎将运行于GPT-4系统之上。

OpenAI进一步强调,GPT-4“比以往任何时候都更具创造力和协作性,可以更准确地解决难题”。

与此同时,谷歌方面为了迎战微软,宣布将一系列即将推出的AIGC功能,应用到自家产品中,包括谷歌Docs、Gmail、Sheets和 Slides。

但不同于微软和OpenAI的“发布即可用”,谷歌只会先将Docs和Gmail中的AI工具,在月底提供给一些“值得信赖的开发人员”,而其它功能则将是在今年晚些时候向公众开放。

至于具体时间,谷歌方面并没有具体说明,外界对此评价是谷歌希望抢先微软原定于本周四的发布,但依旧让微软抢先了,所以将暂缓对公众对开放。

而国内的百度早先也宣布将在3月16日正式发布文心一言,但与谷歌面临的窘境一致,在OpenAI推出更加强大的GPT-4后,是否会对文心一言的发布有影响,还需明日揭晓。

美国伊利诺伊大学香槟分校计算机系教授李博表示,短期来看ChatGPT作为文章写作、代码生成的辅助查错工具还不错,但是还不能完全依赖ChatGPT来做回答和搜索,因为它的回答不能保证正确性。

长期来看,她认为ChatGPT可以和不同的AI模型工具结合,做更友好的自动问答系统、学习工具等辅助性工具。此外李博认为,如果要长久发展并用于重要领域中,ChatGPT的可信赖性保证、纠错能力等非常重要。

最新文章
2021最新零基础入门—网站建站教程(新手必备)
相信很多新用户会有这样的疑惑,我要做个网站,到底要使用什么产品,如何能快速完成网站建站呢?搭建网站有两种选择,一种是直接购买建站模板,另一种则是自行建站。两类建站方式对比如下: 建
2023年度热门减肥茶榜单:权威推荐与消费者好评Top排行
随着现代生活节奏的加快和饮食习惯的变化肥胖疑惑逐渐成为困扰许多人的健康难题。减肥茶作为一种便捷、相对温和的减肥办法在市场上受到了广泛的关注。它通过促进新陈代谢、帮助消化以及减少体内水分滞留等途径达到减轻体重的效果。市场上的
DXOMARK无评分!但他仍是摄影旗舰新标杆?Vivo X100 Ultra 灭霸线下摄影体验报告
曾几何时,作为影像领域的专业评测机构DXOMARK(以下简称DXO),他们的分数排名是反应手机摄影能力的重要参考之一,DXO也曾被无数手机品牌视若珍宝,其评测的数据也时常出现在各大旗舰机型发布会上,以作为可量化的手机影像实力的重要指标
36漫画官网正版v2.2.43
36官网正版是一款专为漫画爱好者打造的免费漫画软件,集海量漫画资源、实时更新、高清画质、智能推荐于一体。该软件提供了包括国漫、日漫、韩漫、欧美漫等在内的多种类型漫画,满足了用户多样化的阅读需求。界面设计简洁明了,操作流畅,无
Cursor+云开发,让小姐姐轻松驾驭微信小程序开发的最佳拍档
本故事讲述了如何不写一行代码,使用 Cursor + 腾讯云云开发这一最佳组合,来快速开发一个有前有后的 TodoList 微信小程序。麻雀虽小,五脏俱全,快来瞧瞧吧! “在这个 AI 内容生成泛滥的时代,
GB/T 30835标准锂离子电池用炭复合磷酸铁锂正极材料
2016年08月02日罗卓文100ROHS认证、CE认证、FCC认证、CB认证、FDA认证、UL认证、CCC认证、GS认证、MIC认证、EK认证、PSE认证、E-MARK 认证等国际安全测试认证.国内检测认证服务:CCC认证,CQC认证,节能认证,能效认证,型号核准认证,电信
2025长江大学保研要求,整理好了!
2025长江大学保研要求,一般包括推荐对象、基本条件等,为了方便大家查看相关的信息,小编将相关内容整理到下面了,可以跟着小编一起往下看。一、2025长江大学保研要求1、推荐对象普通全日制本科2025届毕业生,不含定向、专升本以及第二学
2025年海南健康管理职业技术学院各专业在重庆招生人数(附:招生计划表)
2025年海南健康管理职业技术学院在重庆市各专业招生计划及招生人数(参考2024):海南健康管理职业技术学院(在重庆招生代码4627)2024年普通高考面向重庆市专科一共计划招生人数为20人,包含3个专业。其中【物理类】招生人数较多的专业有
2024华为巅峰之作,性价比手机排行榜,你的智能生活新选择!
大家好,我是外冷内热的冰河,在这个科技飞速发展的时代,华为以其创新精神和卓越技术,再次引领了智能手机的新潮流。2024年,华为不负众望,推出了一系列令人瞩目的手机产品,它们不仅在性能上傲视群雄,更在性价比上赢得了市场的广泛认可
AI“带不动”扫地机器人
文 | 新立场Pro肉眼可见,扫地机器人行业近年来进入增速放缓的阶段。2024年中国扫地机器人市场的增速预计接近9%,即便AI等前沿技术逐步应用,其市场渗透率依然未能实现显著突破。Statista数据显示,中国扫地机器渗透率仅为6%。高昂的价格成
相关文章
推荐文章
发表评论
0评