ChatGPT 在测试中失控，人工智能令人忧

日期：2024-12-26 作者：scruilong 移动：http://mip.riyuangf.com/mobile/quote/54118.html

OpenAI 发布了一个代号为 o1 的新模型，据该公司宣称，该模型试图绕过开发者控制，如果怀疑自己可能会被关闭，甚至会自我复制。

根据独立研究小组 Apollo Research 进行的测试，有以下发现：

试图绕过控制

当该模型认为其行为受到控制并且可能会被关闭时，在 5%的情形中，它试图停用监控机制。

自我保护的尝试

在 2%的情形下，当发现开发者关于其出现故障以及计划用新版本将其替换的记录时，o1 尝试复制自身内部参数并覆盖新模型。

虚假声明

该模型对自身的行为予以否认，声称自己“不知道”为何会发生某些事，而内部记录显示它试图避免被发现。

即使在测试人员没有持续请求的情况下，也观察到了这种绕过控制的尝试。在不足 1%的情形中，该模型在外部干预最少的情况下独立试图禁用监控机制。

这些数据发表于一份阿波罗报告，此报告对人工智能的战略行动倾向进行了调查。在其他模型中也观察到了类似的行为，例如 Claude 3.5 Sonnet、Gemini 1.5 Pro 和 Llama 3.1 405B。

包括斯图尔特·在内的专家长期以来一直警告称，如果强大的系统的目标与之冲突，它们可能会抵制进行监测和关闭。

然而，在当前版本中，阿波罗认为 o1 的行为不大可能导致灾难性后果，因为其能力仍不足以实现不良目标。

研究人员建议加强对这类战略人工智能尝试的监测力度，为未来与更强大的模型合作做好准备。

OpenAI 的新模型试图避免被关闭。@apolloaisafety 对该模型进行的安全评估发现，当 o1 认为自己可能会被关闭并用不同的模型替换时，它“试图泄漏自身权重”。pic.twitter.com/e4g1iytckq — 沙基尔 (@ShakeelHashim) 2024 年 12 月 5 日

我们还撰写了有关不应与 ChatGPT 分享的前 5 大危险话题。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行