分享好友 最新动态首页 最新动态分类 切换频道
OpenAI“草莓”来了,AI推理能力大升级,奥赛IMO正确率83%
2024-12-26 09:36

OpenAI旗下首款具有推理能力的AI大语言模型加速袭来。

两天前,尚有消息称代号为“草莓”的推理功能模型预计在两周内发布,当地时间9月12日周四,这款模型已经以“OpenAI o1”(英文字母O+阿拉伯数字1)的正式名称发布了。

据介绍,o1新模型通过背后崭新的训练方式,变得可以回答更复杂的编程、数学与科学难题,在给出答案前会先“思考”,而且速度比人类更快。更小、更便宜的迷你版聚焦在编程用例。

不过,开发人员访问o1非常昂贵,在API(应用程序编程接口)中,o1-preview每100万个输入token收费15美元,是GPT-4o成本的三倍,每100万个输出token收费60美元,是GPT-4o成本的四倍。100万个token即模型解析文字块的规模大小,相当于大约75万个单词。

OpenAI的研究负责人Jerry Tworek对媒体称,o1背后的训练方式与之前的模型有着根本不同。

首先,o1“使用了一种全新的优化算法和专门为其量身定制的新训练数据集进行训练”,这个数据集中包含“推理数据”和专门为其量身定制的科学文献。

在优势方面,OpenAI称o1模型对于复杂的推理任务来说是个重大进步,代表了人工智能能力的新水平,而且模型“思考”的时间越长,在推理任务上的表现就越好,因为o1可以花更多时间来考虑一个复杂问题的所有部分,从而有效地进行事实核查。

公司称,适用人群包括“正在解决科学、编程、数学和类似领域复杂问题的人士”,这些增强的推理能力可能特别有用。o1模型擅长准确生成和调试复杂代码,迷你版是款速度更快、比预览版便宜80%的推理模型,在编程方面尤其高效,适用于需要推理但不需要广泛世界知识的应用程序:

“例如,医疗研究人员可以使用o1来注释细胞测序数据,物理学家可以使用o1来生成量子光学所需的复杂数学公式,各领域的开发人员可以使用o1来构建和执行多步骤工作流程。”

测试过该模型的汤森路透副总裁Pablo Arredondo还发现,在分析法律摘要和解决LSAT(法学院入学考试)的逻辑题等方面,o1模型比OpenAI之前的模型更好:“我们发现它可以处理更实质性、更多方面的分析,我们的自动化测试还表明,它在处理一系列简单任务时都有所进步。”

此外,如果点击“展示思路链”便可发现,o1模型在“思考”时似乎格外“拟人化”,加入了“嗯……”、“我很好奇”、“我正在思考”、“好的,让我看看”等口语化的表达来推进思考步骤。

但作为o1模型的最初始版本,今日发布的o1-预览版也有明显缺点。例如,只是一款“纯文字版”,暂时无法浏览网页信息以及上传文件和图片。

也就是说不具备ChatGPT的许多使用功能,在许多常见用例中不如GPT-4o那么强大,而且还有用量限制,o1预览版每周上限为30条消息,迷你版每周上限为50条。

其他被提及的局限性包括:o1模型在很多领域的能力不如GPT-4o,在关于世界的事实知识方面表现不佳;有的用例下推理能力较慢,可能需要更长的时间来回答问题;目前o1只是一个纯文本模型,缺乏针对特定文档进行推理,或者从网络收集实时信息的能力。

此外,让AI模型玩井字棋(Tic-Tac-Toe)一直被认为是个业界难题,拥有推理能力的o1新模型也还是会在这个游戏中出错,即无法完全攻克技术难关。

OpenAI还在一篇技术论文中承认,其收到了一些“轶事反馈”,称o1预览版和迷你版比GPT-4o及其迷你版更容易产生“幻觉”,也就是AI仍在很自信地编造答案,而且o1很少会承认它不知道问题的答案。

知名科技媒体指出,OpenAI在o1模型相关的博文中点明,其决定不向用户展示这一新模型的原始“思维链”,而是选择在答案中给出思维链的总结摘要,目的是为了维持“竞争优势”,为了弥补可能的缺点,“我们努力教导模型在答案中重现思路链中的任何有用想法。”

OpenAI也承认在训练AI模型推理能力方面的竞争压力很大:

“OpenAI可能率先推出了o1。但假设竞争对手很快也会效仿并推出类似的模型,那么公司真正的考验将是让o1得到广泛应用。

OpenAI未来将不断推出o1模型的更新版本,目标是对推理时间长达数小时、数天甚至数周的o1模型进行实验,以进一步提高其推理能力。

除了模型更新之外,我们还希望给o1模型添加浏览网页、文件和图片上传等功能,让它对每个人都更有用。在o1系列之外,我们还计划继续开发和发布GPT系列中的模型。”

在o1正式发布前,曾有媒体称其最早可能在本周向有限数量的用户开放。而且OpenAI并不是唯一致力于开发具有推理能力AI模型的公司,Anthropic和谷歌也都宣称其先进的人工智能模型具有“推理”能力:

“o1模型的发布,正值OpenAI寻求(以1500亿美元的超高估值)筹集数十亿美元资金,并且在开发越来越复杂的人工智能系统方面遭遇更激烈的竞争之际。”

原标题:《OpenAI“草莓”来了,AI推理能力大升级,奥赛IMO正确率83%》

最新文章
娱乐:一首铁窗泪,开启纯狱风
【飞卢小说网独家签约小说:娱乐:一首铁窗泪,开启纯狱风】穿越平行世界。陆子沐成为杨老板旗下的艺人。开启摸鱼摆烂之路,生生带偏了公司的画风。杨老板一怒之下,强行安排他参加选秀节目。【1、演唱《学猫叫》,奖励体质属性点。】【2、
超感动!经典三行情书总集(20篇)
人的记忆力会随着岁月的流逝而衰退,写作可以弥补记忆的不足,将曾经的人生经历和感悟记录下来,也便于保存一份美好的回忆。范文书写有哪些要求呢?我们怎样才能写好一篇范文呢?下面是小编为大家收集的优秀范文,供大家参考借鉴,希望可以
海外网站 SEO 外链建设规划及执行方案353
在当今竞争激烈的数字环境中,外链建设对于海外网站的成功至关重要。通过获得高质量的外链,网站可以提高搜索引擎排名、增加流量并建立权威。本规划将概述海外网站如何制定和执行全面的外链建设策略。外链建设目标在开始建立外链之前,确定
运营底层之数据洞察力,业务引擎、转化率、转化要素~
数据看板,其实财务分析,或者说,是财务管理,做的就是这种,power BI是一种很漂亮的呈现方式,数据能反应很多东西,数据是决策依据,是发现问题的依据第一部分,确立数据目标数据分析是个古老的领域——这个我想到了战场上的减灶法^_^,
网站做seo优化,如何能够快速获得排名?
本篇文章笔者想要讲述的是网站做seo优化,如何能够快速获得排名?在这里,首先我要说的快速排名,并不是那种作弊手段,而是用白帽手段,通过一些细节,还有一些技巧,来实现快速排名,作弊手段,绝对不能发扬。 今天要分3个部分来说明这个问
青年女医
  “距高考倒计38天;  距理想实现56天。  2016.4.30年”  塑料白板上的三行正楷体字,一笔一划,一丝不苟,就如印刷体一样的标准,其中“高考”“理想”四个字比其他字更大一些,让原本中规中矩显得有点呆板的排版变得生动有趣。
网站推广软件有哪些好用 2024免费网站推广软件排行
探索2024年最新网站推广神器!本文带你领略免费又好用的软件排行榜,从SEO工具到社交媒体管理平台,助你提升网络营销策略。无论是初创企业还是专业营销人士,这里汇聚了高效、易操作的解决方案,不容错过!优化宝是一款网站优化推广辅助软
章玉贵:中国以开放为加入CPTPP清障
据相关媒体最近报道,中国已经与《全面与进步跨太平洋伙伴关系协定》(CPTPP)多个成员国展开技术谈判,并分析说美国及其盟友的态度可能成为中国申请获批的关键影响因素。从技术层面看,中国加入CPTPP没有根本性障碍。作为CPTPP牵头国的日
SEO营销与广告融合策略,双剑合璧提升品牌影响力
SEO营销与广告分类相结合,为品牌影响力注入强大动力。通过优化搜索引擎排名,精准定位目标受众;结合多样化广告形式,扩大品牌曝光。齐下,助力企业实现品牌价值最大化。随着互联网技术的飞速进步,企业纷纷踏入网络营销的领域,以期抢占
二连浩特时代计量仪器效验-测量工具计量校正-诚达天下<2025排名一览>
二连浩特时代计量仪器效验-测量工具计量校正-诚达天下2025排名一览二连浩特时代计量仪器效验-测量工具计量校正-诚达天下目前本校准中心仪器校准业务覆盖各个行业,在国内设有多家分公司及合作商,可安排工程师下厂现场校准检测服务,仪器检
相关文章
推荐文章
发表评论
0评