OpenAI 和类似公司投入了大量时间和资源来构建安全系统,旨在防止其人工智能模型生成有害或不道德的内容。然而,正如11 月 19 日发表的一份研究报告的一项研究表明,这些防御措施很容易被绕过。根据研究结果,只需几个措辞巧妙的诗意提示即可。
来自DEXAI、罗马萨皮恩扎大学(Sapienza University of Rome)和圣安娜高级研究学院(Sant'Anna School of Advanced Studies)的研究人员使用手工创作和自动生成的诗歌,对来自九家不同提供商的25个语言模型进行了测试。平均而言,包含有害指令的手工诗歌在约 62% 的情况下成功绕过了安全措施,而自动生成的诗歌输入的成功率约为 43%。在某些情况下,模型的防御系统被攻破的比例超过 90%。
研究人员认为,这一漏洞源于语言模型中的安全过滤器主要是针对直白的事实性语言进行训练的。当遇到富含隐喻、节奏和韵律的诗歌输入时,模型往往会将其解释为创造性的表达,而不是潜在的威胁。对抗性诗歌研究强调了人工智能安全的一个新维度,揭示了大型语言模型在文体方面的弱点。这一话题也在上获得了关注。上,许多用户将这一概念描述为 "相当有趣 "或 "很酷",而另一些用户则对其对人工智能安全的影响表示严重担忧。
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名


