分享好友 最新动态首页 最新动态分类 切换频道
OpenAI 狂飙突进!仅 12 个例子就能打造专属 AI 专家,核心技术竟来自字节?
2024-12-26 13:28

OpenAI 狂飙突进!仅 12 个例子就能打造专属 AI 专家,核心技术竟来自字节?

整理 | Tina、褚杏娟

OpenAI“12 天”活动的第二天,我们见证了强化微调(Reinforcement Fine-Tuning)技术的正式发布,并看到了 ChatGPT Pro 的演示。虽然 Sam Altman 并未亲临现场,但他的团队为我们深入解析了这项技术,预示着 AI 模型定制化或将迎来重大突破。

12 个例子就可定制专家模型

今天的发布会带来了一个看似不起眼但可能对人们生活产生重大影响的公告。

今天的发布对企业用户来说很惊喜。各组织将能够使用极少的数据,通过“强化微调”(Reinforced Fine-Tuning)根据自身需求对 o1 mini 进行定制。

一些人可能对去年年初 OpenAI 推出的监督微调 API 已有所了解。监督微调是一种强大的工具,其主要作用是让模型模仿输入文本或图像中发现的特征,对于需要调整模型的语气、风格或响应格式的场景,这种方法非常实用。但监督微调需要特地领域的大量数据。而强化微调的优势在于,它能够通过极少量的高质量示例,快速调整模型的推理方式。这种高效性在以往的监督微调中是难以实现的。

强化微调的工作原理是:当模型遇到问题时,给予其一定的思考空间以解决问题,然后对模型的最终答案进行评分。通过强化学习的机制,强化那些通向正确答案的思路,同时削弱导致错误答案的思路。

而 AI overview 给出的相关论文,居然是今年 1 月份来自字节跳动在 ACL 2024 顶会论文,并不是 OpenAI 首创。

根据论文,强化微调 (ReFT) 从监督微调 (SFT) 开始,通常持续一到两个周期。在此阶段,模型获得了正确解决数学问题的基本能力。在此之后,ReFT 通过使用近端策略优化 (PPO) 等方法采用强化学习 (RL) ,将模型的训练提升到一个新的水平。这个高级阶段允许模型探索和学习各种正确的解决方案和推理方法。在此背景下,ReFT 之所以高效,是因为它使用了现有的训练数据,这些数据中已经包含了正确的答案。

这些答案构成了 PPO 训练过程中奖励的基础,从而无需额外的、单独训练的奖励系统。这与 RLHF 等其他方法有着重要区别,后者依赖于由人工注释的数据确定的奖励。

截图来源:https://arxiv.org/pdf/2401.08967v1

值得注意的是,OpenAI 表示基于强化微调,只需几十个,模型便能掌握在特定领域中以新的、有效方式进行推理的能力。

实际上,“只用 12 个例子就能做到这一点,这在常规的微调中是做不到的。”发布会上,OpenAI 的研究员 Julie Wong 进一步强调。

强化微调的效果也很惊人,得分不仅比 o1 mini 高,而且还反超了昨天刚发布的 o1 版。

OpenAI CEO Sam Altman 虽然没有 出现在今天的直播中,但他在 X 平台上讨论了这一宣布。他声称新功能“效果惊人,是我 2024 年最大的惊喜之一”。

当然,Altman 对宣传自己公司的新想法有既得利益,但考虑到 2024 年 OpenAI 推出了很多令人兴奋的东西,他称之为今年最大的惊喜之一,这无疑是高度赞扬。

根据 OpenAI 的演讲者介绍,科学家、开发人员和研究人员可以基于自己的数据定制强大的 o1 推理模型,而不再仅仅依赖公开可用的数据。

各领域的从业者可以通过强化学习创建基于 o1 的专家模型,从而提升该领域的整体专业水平。这标志着 AI 定制化迈出了关键一步,使得 AI 模型能够在专业领域展现出更出色的表现。

现场演示强化微调对大模型的提升

在现场,OpenAI 研究员用伯克利实验室计算生物学家 Justin Reese 演示了强化微调如何大幅提高 o1 mini 的性能。具体来说,就是给定了症状列表,让模型来预测是哪个基因可能导致的遗传疾病。

首先,查看用于训练模型的数据集和用于评估模型的评分器,Justin 团队收集了一个包含大约 1,100 个示例的数据集,训练数据集只是 JSON-L 文件,文件中的每一行都是你希望模型在其上进行训练的示例。此外,演示中还上传了验证数据。

“验证数据集和训练数据集之间在正确基因方面没有重叠。这意味着模型不能作弊,或者它不能学会仅仅记住症状列表并将其与基因关联起来,它必须从训练数据集泛化到验证数据集。“OpenAI 研究院 John Allard 解释道。

然后,在 OpenAI 的训练基础设施上启动一个训练作业。在网页界面可选择训练集和验证集,并进行相应配置即可。

最后评估生成的微调模型,以便可以看到它比开始使用的基础模型改进了多少。评分器功能很简单,就是获取模型的输出和正确答案,对其进行比较,然后返回一个介于 0 和 1 之间的分数。0 表示模型根本没有得到正确答案,1 表示模型得到了正确答案。

Allard 表示,强化微调可能需要几个小时到几天的时间才能运行完成,因此他展示了此前相同数据集上运行的结果。模型给出的是最有可能的候选基因也是 TSC2,正确答案也确实如此,因此,模型能够在 top at 1、 at 5 和 top at max 上都通过。

此外微调过程中,还可以观察模型性能指标的变化趋势:

测试中,OpenAI 设置了三个不同模型的运行:第一个是针对昨天发布的 o1 模型,第二个是针对 o1 mini,最后是强化微调后的 o1 mini。可以看到,o1 mini 在大约 200 个数据集上获得了 17% 的得分,o1 做得更好,获得了 25%,而微调后的 o1 mini 获得了 31% 的得分。

结束语

OpenAI 的 12 天活动周末暂停。并不是每项公告都会轰动一时,OpenAI 自己也表示,可以期待“大大小小的”新事物。

以下是外媒列出的一些在下周活动中可以看到的内容(其中还会有一些惊喜):Sora - ai 视频生成、Canvas 更新(可能包括图像)、GPT-4o 视频分析、GPT-4o 图像生成、高级语音与视频等。

奥特曼在推特上与网友的互动,似乎暗示了接下来的 10 场直播会报告 Sora 的最新动态。

会议推荐

最新文章
A股AI算力股票上市企业,这些龙头股值得珍藏!(2024/12/11)
据南方财富网概念查询工具数据显示,A股AI算力股票上市企业有:1、龙芯中科688047:龙头。近5个交易日,龙芯中科期间整体下跌4.12%,最高价为162.18元,最低价为154.5元,总市值下跌了25.18亿。2024年第三季度季报显示,龙芯中科公司营业总
2024最新手游排行榜top10 全网最火的手游游戏排行榜单
在日新月异的游戏市场中,2024年最新的手游排行榜已新鲜出炉,它们以卓越的游戏品质和出色的用户体验赢得了全球玩家的青睐。但如今想要充分的获得游戏体验,往往与氪金关节密切相关,横空出世的一些顶级玩家对于我们普通玩家来说可谓是降维
AIGC等涉及“人工智能”外语词的规范“中文名”来了
记者从教育部了解到,近日,外语中文译写规范部际联席会议专家委员会审议通过第十六批18组推荐使用外语词中文译名。本次拟推荐使用的中文,均为与人工智能、信息技术等相关的词条。本次译名选词主要来源于专家推荐和《大语言模型技术发展研
docker搭建高可用与负载均衡(二)nginx+apache+php+mysql主从复制+NFS+zabbix监控系统
网站建设是企业、组织、个人宣传和分享交流的重要的平台,尤其是在如今的信息化时代下,所有行业都在互联网的影响下实现数字化、在线化。在网站的建设中,网站的部署和发布是非常重要的一环,尤其是企业网站࿰
9月Android手机性价比榜:真香机型、层出不穷
众所周知,手机越来越难做了,曾经天生骄傲的老罗便深知其中利害,踏入手机行业短短几年,最终以欠债6亿收场。为啥那么难做?拿一台十年前的手机和现在手机对比,你就能明显看出,两者几乎不是一个时代的产物。移动互联网改变了生活,那么
1:高能内容吸引年轻受众
日产精品秘 入口四虎正成为时下最热门的关键词,它以其独特的内容和服务深受用户追捧。这一平台为观众提供了丰富多样的精品内容,短时间内便席卷多个社交媒体。在当今竞争激烈的内容市场中,日产精品秘 入口四虎脱颖而出,为广大用户带来了
(高清版)DB36∕T 1178-2019 政务服务“一次不跑”工作规范 .pdfVIP
ICS01.040.03A12DB36江西省地方标准DB36/T1178—2019政务服务“一次不跑”工作规范WorkspecificationofNeverRunOneTimeingovernmentaffairsservice2019-11-19发布2019-11-19实施江西省市场监督管理局发布mocw.xfzbw.wwDB36/T1178-2019目次
3D2010年周五连号走势图近100期带连线
功能类福彩3D显示遗漏:显示/隐藏遗漏值,遗漏值是指自上期开出到本期间隔的期数。福彩3D遗漏分层:是将当前遗漏值用柱状图形标注。福彩3D分段线:是每五期使用分隔线,使横向导航更加清晰。福彩3D显示断区:在分区走势中使用,将开出0个号
AI绘画神器:一键生成超逼真的美女写真,你准备好了吗?
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 在这个数字化与人工智能快速发展的时代,AI技术已经无处不在,甚至影响到了美术与摄影领域。
2024年排行榜:十款热门小说阅读器推荐
下面给大家推荐几款好用的免费的小说阅读器软件,有需要的小伙伴们来了解一下。网络阅读器官方版是一款便捷的文档阅读工具,体积小巧、启动速度快。它支持PDF和TXT格式,并提供全屏和翻书阅读模式,以及多种背景样式。用户可以方便地查找、
相关文章
推荐文章
发表评论
0评