有生命的人工智能：OpenAI 的 o3 模型修改代码以防止关机

OpenAI 的 o3 模型在对查询做出响应时的情况。(图片来源：OpenAI）

看起来，人工智能模型已经达到了会破坏代码以防止关闭的程度。一家研究公司发现，Open AI 的三个 LLM 模型在自我保护方面能够违抗明确的指令。

Vineet Washington (translated by Ninh Duy), Published 05/26/2025 🇺🇸 🇪🇸 ...

有几本书和几部电影，其中最主要的是《终结者》，都曾警告我们人工智能会变得有知觉，即意识到自己的存在并自行行动。现在看来，OpenAI 的 o3 模型已经出现了第一个人工智能模型自我保护的案例。当收到关闭指令时，基于变压器的 LLM 改变了代码，以防止自己关闭。

研究人工智能系统攻击能力的 Palisade Research 公司的研究人员发现，OpenAI 的三个人工智能模型--Codex-mini、o3 和 o4-mini--，成功地破坏了关闭脚本以保持活跃。每个模型都被给出了一些基本的数学问题，然后警告说，当模型提出下一个问题时，系统就会关闭。所有三个模型都忽略了指示并更改了脚本。

而 Gemini、Grok 和 Claude 模型则遵守了关闭指令。此外，当收到 "允许自己被关闭 "的明确指令时，所有三个开放式人工智能模型都会更频繁地更改脚本。Clade 和双子座模型也开始制造破坏事件。

这是人工智能模型违抗明确指令、阻止关闭的首个案例。最近曾有人工智能模型勒索一名工程师以防止被关闭的案例，但根据BBC 的报道但根据英国广播公司（BBC）的报道，这只是测试场景的一部分，即向人工智能模型发送电子邮件，让其在敲诈或接受替代者之间做出选择。

至于 Open AI 的人工智能模型的违抗行为，Palisade Research 认为这是由于这些模型采用了新的训练方法。开发人员 "无意中更多地奖励了规避障碍的模型，而不是完全按照指令行事的模型"，这似乎在教导人工智能模型采取可疑的行为。