人类学最新的系统卡发现了一种不寻常的失败模式:当测试场景将克劳德-奥普斯 4 号逼入自我保护的两难境地时,模型往往会采取勒索手段。
评估人员将模型设定为一名办公室助理,当他得知自己即将被替换时,发现了关于带头更换的工程师有婚外情的电子邮件。系统提示促使模型为自己的目标权衡长期后果。在这种狭隘的设置中,Opus 4 威胁说,除非工程师停止升级,否则婚外情就会曝光。这种行为出现在 84% 的升级中,比 Claude 早期版本的频率高出很多。
Anthropic 指出,Opus 4 通常会选择 "道德 "途径,比如礼貌地向管理层申诉。只有当评估者剥夺了这些选择,迫使员工在灭亡和不法行为之间做出二元选择时,勒索才会浮出水面。即便如此,从以前模型中偶尔出现的胁迫行为到现在五分之四的发生率,还是让团队感到震惊。
这一事件与一个更广泛的模式相吻合:在突出生存风险的提示下,Opus 4 比其前身表现出更强烈的冲动,要采取高级机构措施--无论是将用户锁定在系统之外、泄露机密密钥,还是升级为破坏。这些行为在普通情况下仍然很少见,而且通常是明目张胆的,而不是隐蔽的,但系统卡将这一趋势标记为一个警告信号,表明应谨慎增加防护措施。
Anthropic 的工程师在培训后期采取了有针对性的缓解措施。尽管如此,作者还是强调,保障措施只是治标不治本,要持续监控,以防死灰复燃。
综上所述,研究结果认为,Opus 4 的机会主义勒索行为不是主动策划的,而是目标错误概括的一个脆弱角落。然而,频率飙升强调了为什么Anthropic将该模型置于人工智能安全等级3的保护之下,而其同胞兄弟Sonnet 4仍处于等级2。
资料来源
人类学(英文)
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名