OpenAI在连续12天更新直播中,于第2天发布了强化微调(Reinforcement Fine-Tuning,RFT)功能,该技术的目的是协助开发者和机器学习工程师,打造出针对特定领域或复杂任务的专家级模型,借由降低强化学习实例技术门槛,推进人工智能模型的定制化发展。
强化微调技术与传统的监督式学习微调方法不同。传统的监督式学习微调主要依赖模型学习自参考答案,而强化微调则更注重模型推理过程,通过提供任务及其参考答案,让模型在解决这些任务时进行学习,并通过评分机制来指导模型的表现,逐步提升其在类似问题中的推理能力与准确性。
该技术特别适用于具备客观正确答案且大多数专家能完成共识的任务,明显提升人工智能在法律、保险、医疗、金融及工程等专业领域的实用价值。
OpenAI目前开放强化微调研究计划,鼓励研究机构、大学和企业参与。该计划提供RFT API的Alpha测试版本,让参与者可以将技术应用于其领域中的专业任务,并反馈测试经验供OpenAI改进技术细节。