人工智能助手在编造信息并将其作为事实呈现方面的能力令人惊讶。虚假的说法、虚构的来源和捏造的引文都是其中的一部分。这些错误通常被称为幻觉。许多用户可能已经对这个问题习以为常,常常依靠自己的事实核查来分辨真假。但据 OpenAI 报道的报道,可能有一种替代方法。9 月 5 日,ChatGPT 背后的公司发布了一篇详细的论文,对幻觉发生的原因做出了新的解释,并提出了潜在的解决方案。
猜测得到奖励,不确定性受到惩罚
这篇长达 36 页的论文由亚当-卡莱(Adam Kalai)、佐治亚理工学院的桑托什-文帕拉(Santosh Vempala)和 OpenAI 的其他研究人员共同撰写,明确指出了一点:幻觉并不是由于书写马虎造成的,而是由于当前评估指标的设置方式造成的。这些指标倾向于奖励自信的猜测,惩罚不确定的表达。研究人员将其与多项选择测试进行了比较--猜中的人可以得分,而将问题留空的人则一无所获。据统计,即使猜测模型经常提供错误的信息,它也会领先。
因此,如今对人工智能性能进行排名的排行榜几乎只关注准确率,而忽略了错误率和不确定性。OpenAI 现在呼吁做出改变。计分板不应简单地统计正确答案,而应更严厉地惩罚自信的错误,同时对谨慎的弃权给予一定的奖励。这样做的目的是鼓励模型承认不确定性,而不是自信地把错误信息当作事实。
少一些猜测,多一些诚实
论文中的一个例子说明了这种方法的不同之处。在 SimpleQA 基准测试中,一个模型选择不回答半数以上的问题,但它所提供的答案中只有 26% 是错误的。另一个模型几乎回答了每一个问题,但却在大约 75% 的情况下出现了幻觉。这其中的启示显而易见:显示不确定性比自信的猜测更值得信赖,因为自信的猜测只会造成精确的假象。
资料来源
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名