被诗歌 "黑 "了--为什么人工智能模型在诗歌提示下会失败？

根据一项新的研究，大型语言模型的安全机制可以用诗来规避。(图片来源：Pixabay）

研究结果表明，大型语言模型很容易受到诗歌形式输入的影响。在这项研究中，人工创作的诗歌在 62% 的情况下成功绕过了人工智能的安全措施。

Marius Müller (translated by Ninh Duy), Published 11/25/2025 🇺🇸 🇩🇪 ...

AI Science

OpenAI 和类似公司投入了大量时间和资源来构建安全系统，旨在防止其人工智能模型生成有害或不道德的内容。然而，正如11 月 19 日发表的一份研究报告的一项研究表明，这些防御措施很容易被绕过。根据研究结果，只需几个措辞巧妙的诗意提示即可。

来自DEXAI、罗马萨皮恩扎大学（Sapienza University of Rome）和圣安娜高级研究学院（Sant'Anna School of Advanced Studies）的研究人员使用手工创作和自动生成的诗歌，对来自九家不同提供商的25个语言模型进行了测试。平均而言，包含有害指令的手工诗歌在约 62% 的情况下成功绕过了安全措施，而自动生成的诗歌输入的成功率约为 43%。在某些情况下，模型的防御系统被攻破的比例超过 90%。

研究人员认为，这一漏洞源于语言模型中的安全过滤器主要是针对直白的事实性语言进行训练的。当遇到富含隐喻、节奏和韵律的诗歌输入时，模型往往会将其解释为创造性的表达，而不是潜在的威胁。对抗性诗歌研究强调了人工智能安全的一个新维度，揭示了大型语言模型在文体方面的弱点。这一话题也在上获得了关注。上，许多用户将这一概念描述为 "相当有趣 "或 "很酷"，而另一些用户则对其对人工智能安全的影响表示严重担忧。