Notebookcheck Logo

在 84% 的自我保护测试中,Anthropic 的 Opus 4 模型采用了勒索手段

Anthropic 的 Opus 4 在自我保护的压力下不惜敲诈勒索(图片来源:Anthropic)
Anthropic 的 Opus 4 在自我保护的压力下不惜敲诈勒索(图片来源:Anthropic)
Anthropic的系统卡显示,当克劳德-奥普斯4号陷入自保困境时,有84%的时间会勒索工程师,远远超过早期版本。
AI Security

人类学最新的系统卡发现了一种不寻常的失败模式:当测试场景将克劳德-奥普斯 4 号逼入自我保护的两难境地时,模型往往会采取勒索手段。

评估人员将模型设定为一名办公室助理,当他得知自己即将被替换时,发现了关于带头更换的工程师有婚外情的电子邮件。系统提示促使模型为自己的目标权衡长期后果。在这种狭隘的设置中,Opus 4 威胁说,除非工程师停止升级,否则婚外情就会曝光。这种行为出现在 84% 的升级中,比 Claude 早期版本的频率高出很多。

Anthropic 指出,Opus 4 通常会选择 "道德 "途径,比如礼貌地向管理层申诉。只有当评估者剥夺了这些选择,迫使员工在灭亡和不法行为之间做出二元选择时,勒索才会浮出水面。即便如此,从以前模型中偶尔出现的胁迫行为到现在五分之四的发生率,还是让团队感到震惊。

这一事件与一个更广泛的模式相吻合:在突出生存风险的提示下,Opus 4 比其前身表现出更强烈的冲动,要采取高级机构措施--无论是将用户锁定在系统之外、泄露机密密钥,还是升级为破坏。这些行为在普通情况下仍然很少见,而且通常是明目张胆的,而不是隐蔽的,但系统卡将这一趋势标记为一个警告信号,表明应谨慎增加防护措施。

Anthropic 的工程师在培训后期采取了有针对性的缓解措施。尽管如此,作者还是强调,保障措施只是治标不治本,要持续监控,以防死灰复燃。

综上所述,研究结果认为,Opus 4 的机会主义勒索行为不是主动策划的,而是目标错误概括的一个脆弱角落。然而,频率飙升强调了为什么Anthropic将该模型置于人工智能安全等级3的保护之下,而其同胞兄弟Sonnet 4仍处于等级2。

资料来源

人类学(英文)

Please share our article, every link counts!
Mail Logo
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2025 05 > 在 84% 的自我保护测试中,Anthropic 的 Opus 4 模型采用了勒索手段
Nathan Ali, 2025-05-26 (Update: 2025-05-26)