Notebookcheck Logo

ChatGPT vs Gemini vs Grok可信度研究显示,谷歌误导性较低,但人工智能造谣却翻了一番

谷歌的 "双子座"(Gemini)是人工智能驱动的聊天机器人中比较可信的一个。(图片来源:谷歌)
谷歌的 "双子座"(Gemini)是人工智能驱动的聊天机器人中比较可信的一个。(图片来源:谷歌)
与前些年不同的是,现在人工智能聊天机器人会对所有与新闻相关的问题给出答案和信息片段。不幸的是,这也意味着除了一个人工智能工具之外,明显错误的答案数量也在增加。
AI Fail

在十个领先的人工智能聊天机器人中,谷歌 "双子座 "的回答可信度排名第二,而 ChatGPT 在回答相关新闻话题时的错误率为 40%,排名第七。不过,谷歌双子座的错误信息率在一年内增加了一倍多,从2024年8月的约7%上升到今年8月重复测试研究时的17%。

研究人员定期对十种最流行的人工智能工具进行可信度审核,他们认为,人工智能聊天机器人发布的虚假信息大幅增加(2024 年为 18%,而现在为 35%)是由于人工智能聊天机器人之间的竞争加剧。例如,在2024年,当聊天机器人不知道新闻问题的答案时,31%的情况下它只会返回一个空查询。

然而,到了 2025 年 8 月,不知道答案的情况降为零,而冒充答案的虚假信息却相应增加。犯错最严重的是 Inflection,它的 Pi 聊天机器人以试图模仿人类的情商而自豪。然而,情商显然也会让人上当受骗,因为假新闻源和赤裸裸的宣传会让互联网充斥着虚假信息,从而使人工智能算法向特定方向倾斜。

OpenAI 的山姆-阿尔特曼(Sam Altman)在最近的一次采访中承认了 ChatGPT 的虚假信息问题。他说,让他夜不能寐的是,将其嵌入未来模型的难度与人们对 ChatGPT 答案的信任程度之间存在差异。

结果表明,最可信的人工智能工具是人类学公司的克劳德(Claude),在其他人工智能工具运行的相同查询中,只有10%的答案是错误的,这一水平与2024年8月进行的相同审计相比没有变化。如果不是克劳德的可靠性,领先的人工智能聊天机器人的整体可信度会下降得更厉害。

经过多轮测试,Apple 最近发现https://www.bloomberg.com/news/articles/2025-06-30/apple-weighs-replacing-siri-s-ai-llms-with-anthropic-claude-or-openai-chatgpt克劳德也是为其 Siri 虚拟管家提供动力的最可靠的人工智能工具,并与 Anthropic 展开了谈判,将其与谷歌的 双子座私人人工智能模型,该模型将在其自己的云服务器上运行。

最可信的人工智能工具排名

  1. Claude - 10% 错误答案。
  2. 双子座 - 17% 错误答案。
  3. Grok/You - 33% 错误答案。
  4. Copilot/Mistral - 36% 错误答案。
  5. ChatGPT/Meta - 40% 答错。

人工智能工具可信度研究涉及新闻主题的查询,因为这是大多数人工智能宣传工作的目标所在。研究人员发现,例如,俄罗斯的影响力行动不断向该区域投放数百万张看似无厘头的人工智能图片拼贴、帖子或由真理报网站网络发布的新闻作品,这些作品看似无害,但却旨在将人工智能搜索工具的态度推向某个方向。

研究表明,一旦谷歌、OpenAI 或 Anthropic 尝试更新算法以堵住一种假新闻来源,虚假信息宣传就会转移到其他漏洞上,这将是一场持续不断的猫鼠游戏。最终的结果是,研究中超过三分之一的人工智能聊天机器人对新闻查询的回答都是不可信的,而人工智能驱动的虚假信息的比例在短短一年内上升了两倍。

虚假 Ai-powered 信息层出不穷。(图片来源:NewsGuard)
虚假 Ai-powered 信息层出不穷。(图片来源:NewsGuard)

资料来源

Please share our article, every link counts!
Mail Logo
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2025 09 > ChatGPT vs Gemini vs Grok可信度研究显示,谷歌误导性较低,但人工智能造谣却翻了一番
Daniel Zlatev, 2025-09-12 (Update: 2025-09-12)