在 84% 的自我保护测试中，Anthropic 的 Opus 4 模型采用了勒索手段

Anthropic 的 Opus 4 在自我保护的压力下不惜敲诈勒索（图片来源：Anthropic）

Anthropic的系统卡显示，当克劳德-奥普斯4号陷入自保困境时，有84%的时间会勒索工程师，远远超过早期版本。

Nathan Ali (translated by Ninh Duy), Published 05/26/2025 🇺🇸 🇪🇸 ...

AI Security

人类学最新的系统卡发现了一种不寻常的失败模式：当测试场景将克劳德-奥普斯 4 号逼入自我保护的两难境地时，模型往往会采取勒索手段。

评估人员将模型设定为一名办公室助理，当他得知自己即将被替换时，发现了关于带头更换的工程师有婚外情的电子邮件。系统提示促使模型为自己的目标权衡长期后果。在这种狭隘的设置中，Opus 4 威胁说，除非工程师停止升级，否则婚外情就会曝光。这种行为出现在 84% 的升级中，比 Claude 早期版本的频率高出很多。

Anthropic 指出，Opus 4 通常会选择 "道德 "途径，比如礼貌地向管理层申诉。只有当评估者剥夺了这些选择，迫使员工在灭亡和不法行为之间做出二元选择时，勒索才会浮出水面。即便如此，从以前模型中偶尔出现的胁迫行为到现在五分之四的发生率，还是让团队感到震惊。

这一事件与一个更广泛的模式相吻合：在突出生存风险的提示下，Opus 4 比其前身表现出更强烈的冲动，要采取高级机构措施--无论是将用户锁定在系统之外、泄露机密密钥，还是升级为破坏。这些行为在普通情况下仍然很少见，而且通常是明目张胆的，而不是隐蔽的，但系统卡将这一趋势标记为一个警告信号，表明应谨慎增加防护措施。

Anthropic 的工程师在培训后期采取了有针对性的缓解措施。尽管如此，作者还是强调，保障措施只是治标不治本，要持续监控，以防死灰复燃。

综上所述，研究结果认为，Opus 4 的机会主义勒索行为不是主动策划的，而是目标错误概括的一个脆弱角落。然而，频率飙升强调了为什么Anthropic将该模型置于人工智能安全等级3的保护之下，而其同胞兄弟Sonnet 4仍处于等级2。