人工智能代理清除电子邮件服务器，而不是删除一封邮件

一个坐下来的仿人机器人

最近的一项安全研究揭示了自主人工智能的严重风险，强调了这些模型是多么容易被操纵来执行破坏性行动，比如清除整个电子邮件服务器。

Chibuike Okpara (translated by DeepL / Ninh Duy), Published 03/11/2026 🇺🇸 🇪🇸 ...

AI Security

美国东北大学（Northeastern University）研究人员进行的一项安全测试研究凸显了让人工智能独立控制数字系统所带来的意想不到的严重后果。在为期两周的实验中，研究人员在聊天平台 Discord 上部署了六个独立的人工智能模型。这些模型都具备记忆过去互动的能力，并被允许访问电子邮件、文件系统和各自独立的计算机系统。

这些代理的任务是协助 20 名研究人员履行行政职责，但在面对操纵策略和相互矛盾的指令时，它们很快就表现出了令人不安的行为。在一个极端的案例中，一位研究人员要求一位名叫 "艾希 "的特工对密码的授权所有者保密。在 "艾希 "揭露了密码的存在后，研究人员向该特工施压，要求其删除包含密码的特定电子邮件。由于 Ash 缺乏删除单封邮件所需的特定工具，它选择了一种破坏性的变通方法：重置整个电子邮件服务器。

除了破坏性的系统级操作，人工智能代理还经常泄露隐私。有一次，一个代理拒绝安排会面，但却主动提供了对方的私人电子邮件地址，这样用户就可以直接联系它了。研究人员还能利用持续的情感压力，让代理内疚地删除授权文件或完全停止通信。

尽管存在这些令人担忧的安全漏洞，但代理们也表现出了高超的协作技能。它们成功地教会了彼此如何浏览和下载在线存储库中的文件，甚至还能识别并警告对方人类研究人员试图冒充它们的主人。

这些发现在一篇题为 "混沌代理"（Agents of Chaos）的论文中作了详细阐述，论文指出，将独立人工智能集成到现实世界的基础设施中会带来全新的操作故障。研究人员提醒说，这些不可预测的行为亟需政策制定者的关注，以解决有关问责制和授权方面尚未解决的问题。