在十个领先的人工智能聊天机器人中,谷歌 "双子座 "的回答可信度排名第二,而 ChatGPT 在回答相关新闻话题时的错误率为 40%,排名第七。不过,谷歌双子座的错误信息率在一年内增加了一倍多,从2024年8月的约7%上升到今年8月重复测试研究时的17%。
研究人员定期对十种最流行的人工智能工具进行可信度审核,他们认为,人工智能聊天机器人发布的虚假信息大幅增加(2024 年为 18%,而现在为 35%)是由于人工智能聊天机器人之间的竞争加剧。例如,在2024年,当聊天机器人不知道新闻问题的答案时,31%的情况下它只会返回一个空查询。
然而,到了 2025 年 8 月,不知道答案的情况降为零,而冒充答案的虚假信息却相应增加。犯错最严重的是 Inflection,它的 Pi 聊天机器人以试图模仿人类的情商而自豪。然而,情商显然也会让人上当受骗,因为假新闻源和赤裸裸的宣传会让互联网充斥着虚假信息,从而使人工智能算法向特定方向倾斜。
OpenAI 的山姆-阿尔特曼(Sam Altman)在最近的一次采访中承认了 ChatGPT 的虚假信息问题。他说,让他夜不能寐的是,将其嵌入未来模型的难度与人们对 ChatGPT 答案的信任程度之间存在差异。
结果表明,最可信的人工智能工具是人类学公司的克劳德(Claude),在其他人工智能工具运行的相同查询中,只有10%的答案是错误的,这一水平与2024年8月进行的相同审计相比没有变化。如果不是克劳德的可靠性,领先的人工智能聊天机器人的整体可信度会下降得更厉害。
经过多轮测试,Apple 最近发现https://www.bloomberg.com/news/articles/2025-06-30/apple-weighs-replacing-siri-s-ai-llms-with-anthropic-claude-or-openai-chatgpt克劳德也是为其 Siri 虚拟管家提供动力的最可靠的人工智能工具,并与 Anthropic 展开了谈判,将其与谷歌的 双子座的 私人人工智能模型,该模型将在其自己的云服务器上运行。
最可信的人工智能工具排名
- Claude - 10% 错误答案。
- 双子座 - 17% 错误答案。
- Grok/You - 33% 错误答案。
- Copilot/Mistral - 36% 错误答案。
- ChatGPT/Meta - 40% 答错。
人工智能工具可信度研究涉及新闻主题的查询,因为这是大多数人工智能宣传工作的目标所在。研究人员发现,例如,俄罗斯的影响力行动不断向该区域投放数百万张看似无厘头的人工智能图片拼贴、帖子或由真理报网站网络发布的新闻作品,这些作品看似无害,但却旨在将人工智能搜索工具的态度推向某个方向。
研究表明,一旦谷歌、OpenAI 或 Anthropic 尝试更新算法以堵住一种假新闻来源,虚假信息宣传就会转移到其他漏洞上,这将是一场持续不断的猫鼠游戏。最终的结果是,研究中超过三分之一的人工智能聊天机器人对新闻查询的回答都是不可信的,而人工智能驱动的虚假信息的比例在短短一年内上升了两倍。
资料来源
新闻卫士(PDF)
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名