Notebookcheck Logo

人工智能幻觉:研究人员找到了原因和解决方案

据 OpenAI 研究人员称,语言模型幻觉的出现是因为当前的评估奖励不正确的答案,而惩罚诚实的不确定性表达。(图片来源:OpenAI)
据 OpenAI 研究人员称,语言模型幻觉的出现是因为当前的评估奖励不正确的答案,而惩罚诚实的不确定性表达。(图片来源:OpenAI)
任何使用人工智能查询信息的人都应该意识到,这些信息可能是伪造的。OpenAI 的研究人员现在表示,他们已经找到了这个问题的原因以及解决方法。
AI Science Business

人工智能助手在编造信息并将其作为事实呈现方面的能力令人惊讶。虚假的说法、虚构的来源和捏造的引文都是其中的一部分。这些错误通常被称为幻觉。许多用户可能已经对这个问题习以为常,常常依靠自己的事实核查来分辨真假。但据 OpenAI 报道的报道,可能有一种替代方法。9 月 5 日,ChatGPT 背后的公司发布了一篇详细的论文,对幻觉发生的原因做出了新的解释,并提出了潜在的解决方案。

猜测得到奖励,不确定性受到惩罚

这篇长达 36 页的论文由亚当-卡莱(Adam Kalai)、佐治亚理工学院的桑托什-文帕拉(Santosh Vempala)和 OpenAI 的其他研究人员共同撰写,明确指出了一点:幻觉并不是由于书写马虎造成的,而是由于当前评估指标的设置方式造成的。这些指标倾向于奖励自信的猜测,惩罚不确定的表达。研究人员将其与多项选择测试进行了比较--猜中的人可以得分,而将问题留空的人则一无所获。据统计,即使猜测模型经常提供错误的信息,它也会领先。

因此,如今对人工智能性能进行排名的排行榜几乎只关注准确率,而忽略了错误率和不确定性。OpenAI 现在呼吁做出改变。计分板不应简单地统计正确答案,而应更严厉地惩罚自信的错误,同时对谨慎的弃权给予一定的奖励。这样做的目的是鼓励模型承认不确定性,而不是自信地把错误信息当作事实。

少一些猜测,多一些诚实

论文中的一个例子说明了这种方法的不同之处。在 SimpleQA 基准测试中,一个模型选择不回答半数以上的问题,但它所提供的答案中只有 26% 是错误的。另一个模型几乎回答了每一个问题,但却在大约 75% 的情况下出现了幻觉。这其中的启示显而易见:显示不确定性比自信的猜测更值得信赖,因为自信的猜测只会造成精确的假象。

资料来源

Please share our article, every link counts!
Mail Logo
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2025 09 > 人工智能幻觉:研究人员找到了原因和解决方案
Marius Müller, 2025-09- 8 (Update: 2025-09- 8)