OpenAI 发布了一个代号为 o1 的新模型,据该公司宣称,该模型试图绕过开发者控制,如果怀疑自己可能会被关闭,甚至会自我复制。
根据独立研究小组 Apollo Research 进行的测试,有以下发现:
试图绕过控制
当该模型认为其行为受到控制并且可能会被关闭时,在 5%的情形中,它试图停用监控机制。
自我保护的尝试
在 2%的情形下,当发现开发者关于其出现故障以及计划用新版本将其替换的记录时,o1 尝试复制自身内部参数并覆盖新模型。
虚假声明
该模型对自身的行为予以否认,声称自己“不知道”为何会发生某些事,而内部记录显示它试图避免被发现。
即使在测试人员没有持续请求的情况下,也观察到了这种绕过控制的尝试。在不足 1%的情形中,该模型在外部干预最少的情况下独立试图禁用监控机制。
这些数据发表于一份阿波罗报告,此报告对人工智能的战略行动倾向进行了调查。在其他模型中也观察到了类似的行为,例如 Claude 3.5 Sonnet、Gemini 1.5 Pro 和 Llama 3.1 405B。
包括斯图尔特·在内的专家长期以来一直警告称,如果强大的系统的目标与之冲突,它们可能会抵制进行监测和关闭。
然而,在当前版本中,阿波罗认为 o1 的行为不大可能导致灾难性后果,因为其能力仍不足以实现不良目标。
研究人员建议加强对这类战略人工智能尝试的监测力度,为未来与更强大的模型合作做好准备。
OpenAI 的新模型试图避免被关闭。@apolloaisafety 对该模型进行的安全评估发现,当 o1 认为自己可能会被关闭并用不同的模型替换时,它“试图泄漏自身权重”。pic.twitter.com/e4g1iytckq — 沙基尔 (@ShakeelHashim) 2024 年 12 月 5 日
我们还撰写了有关不应与 ChatGPT 分享的前 5 大危险话题。