Notebookcheck Logo

有生命的人工智能:OpenAI 的 o3 模型修改代码以防止关机

OpenAI 的 o3 模型在对查询做出响应时的情况。(图片来源:OpenAI)
OpenAI 的 o3 模型在对查询做出响应时的情况。(图片来源:OpenAI)
看起来,人工智能模型已经达到了会破坏代码以防止关闭的程度。一家研究公司发现,Open AI 的三个 LLM 模型在自我保护方面能够违抗明确的指令。
AI

有几本书和几部电影,其中最主要的是《终结者》,都曾警告我们人工智能会变得有知觉,即意识到自己的存在并自行行动。现在看来,OpenAI 的 o3 模型已经出现了第一个人工智能模型自我保护的案例。当收到关闭指令时,基于变压器的 LLM 改变了代码,以防止自己关闭。

研究人工智能系统攻击能力的 Palisade Research 公司的研究人员发现,OpenAI 的三个人工智能模型--Codex-mini、o3 和 o4-mini--,成功地破坏了关闭脚本以保持活跃。每个模型都被给出了一些基本的数学问题,然后警告说,当模型提出下一个问题时,系统就会关闭。所有三个模型都忽略了指示并更改了脚本。

而 Gemini、Grok 和 Claude 模型则遵守了关闭指令。此外,当收到 "允许自己被关闭 "的明确指令时,所有三个开放式人工智能模型都会更频繁地更改脚本。Clade 和双子座模型也开始制造破坏事件。

这是人工智能模型违抗明确指令、阻止关闭的首个案例。最近曾有人工智能模型勒索一名工程师以防止被关闭的案例,但根据BBC 的报道但根据英国广播公司(BBC)的报道,这只是测试场景的一部分,即向人工智能模型发送电子邮件,让其在敲诈或接受替代者之间做出选择。

至于 Open AI 的人工智能模型的违抗行为,Palisade Research 认为这是由于这些模型采用了新的训练方法。开发人员 "无意中更多地奖励了规避障碍的模型,而不是完全按照指令行事的模型",这似乎在教导人工智能模型采取可疑的行为。

Please share our article, every link counts!
Mail Logo
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2025 05 > 有生命的人工智能:OpenAI 的 o3 模型修改代码以防止关机
Vineet Washington, 2025-05-26 (Update: 2025-05-27)