ChatGPT vs Gemini vs Grok可信度研究显示，谷歌误导性较低，但人工智能造谣却翻了一番

谷歌的 "双子座"（Gemini）是人工智能驱动的聊天机器人中比较可信的一个。(图片来源：谷歌）

与前些年不同的是，现在人工智能聊天机器人会对所有与新闻相关的问题给出答案和信息片段。不幸的是，这也意味着除了一个人工智能工具之外，明显错误的答案数量也在增加。

Daniel Zlatev (translated by Ninh Duy), Published 09/12/2025 🇺🇸 🇪🇸 ...

AI Fail

在十个领先的人工智能聊天机器人中，谷歌 "双子座 "的回答可信度排名第二，而 ChatGPT 在回答相关新闻话题时的错误率为 40%，排名第七。不过，谷歌双子座的错误信息率在一年内增加了一倍多，从2024年8月的约7%上升到今年8月重复测试研究时的17%。

研究人员定期对十种最流行的人工智能工具进行可信度审核，他们认为，人工智能聊天机器人发布的虚假信息大幅增加（2024 年为 18%，而现在为 35%）是由于人工智能聊天机器人之间的竞争加剧。例如，在2024年，当聊天机器人不知道新闻问题的答案时，31%的情况下它只会返回一个空查询。

然而，到了 2025 年 8 月，不知道答案的情况降为零，而冒充答案的虚假信息却相应增加。犯错最严重的是 Inflection，它的 Pi 聊天机器人以试图模仿人类的情商而自豪。然而，情商显然也会让人上当受骗，因为假新闻源和赤裸裸的宣传会让互联网充斥着虚假信息，从而使人工智能算法向特定方向倾斜。

OpenAI 的山姆-阿尔特曼（Sam Altman）在最近的一次采访中承认了 ChatGPT 的虚假信息问题。他说，让他夜不能寐的是，将其嵌入未来模型的难度与人们对 ChatGPT 答案的信任程度之间存在差异。

结果表明，最可信的人工智能工具是人类学公司的克劳德（Claude），在其他人工智能工具运行的相同查询中，只有10%的答案是错误的，这一水平与2024年8月进行的相同审计相比没有变化。如果不是克劳德的可靠性，领先的人工智能聊天机器人的整体可信度会下降得更厉害。

经过多轮测试，Apple 最近发现https://www.bloomberg.com/news/articles/2025-06-30/apple-weighs-replacing-siri-s-ai-llms-with-anthropic-claude-or-openai-chatgpt克劳德也是为其 Siri 虚拟管家提供动力的最可靠的人工智能工具，并与 Anthropic 展开了谈判，将其与谷歌的双子座的私人人工智能模型，该模型将在其自己的云服务器上运行。