Notebookcheck Logo

人工智能之战:Grok 的表现令 Mrwhosetheboss 大吃一惊,ChatGPT 获胜

Gemini、ChatGPT、Grok 和 Perplexity(图片来源:Gemini)
Gemini、ChatGPT、Grok 和 Perplexity(图片来源:Gemini)
在 Mrwhosetheboss 发布在 YouTube 上的一段视频中,他测试了来自不同品牌的四种人工智能模型,并根据它们在每项任务中的表现进行了评分。Mrwhosetheboss 从简单的查询到棘手的问题和研究,将每个模型都逼到了极限。
AI

在视频中,Mrwhosetheboss 测试了 Grok (Grok 3)、Gemini (2.5 Pro)、ChatGPT (GPT-4o) 和 Perplexity (Sonar Pro)。他在整个视频中明确表示,Grok 的性能给他留下了深刻印象。Grok 一开始的表现非常出色,但稍有松懈,随后又反超 ChatGPT 排名第二。平心而论,ChatGPT 和 Gemini 的得分之所以能提高,要归功于它们所缺乏的一项功能--视频生成。

在测试开始时,Mrwhosetheboss 测试了模型解决实际问题的能力:我开的是 2017 年款本田思域,后备箱里能装下多少个 Aerolite 29 英寸硬壳(79x58x31 厘米)行李箱?Grok 的答案最直接,它正确地回答了 "2",ChatGPT 和 Gemini 说理论上可以放 3 个,但实际上只能放 2 个。

在下一个问题中,他对聊天机器人也不客气--他询问了制作蛋糕的建议。在回答问题的同时,他上传了一张显示 5 件物品的图片,其中一件不是用来做蛋糕的,而是一罐干牛肝菌,除了一个模型外,其他所有模型都中了圈套。ChatGPT 认为这是一罐混合香料,Gemini 说这是一罐脆炸洋葱,Perplexity 认为这是速溶咖啡,而 Grok 则正确地认为这是一罐来自 Waitrose 的干蘑菇。这是他上传的图片:

经过修改的 Mrwhosetheboss 上传给人工智能聊天机器人的 5 种配料图片,其中突出显示了一罐蘑菇(图片来源:Mrwhosetheboss;已裁剪)
经过修改的 Mrwhosetheboss 上传给人工智能聊天机器人的 5 种配料图片,其中突出显示了一罐蘑菇(图片来源:Mrwhosetheboss;已裁剪)

接着,他对他们进行了数学、产品推荐、会计、语言翻译、逻辑推理等方面的测试。有一件事对它们来说是普遍的--幻觉--每个模型都在视频中的某些时刻表现出某种程度的幻觉;自信地谈论根本不存在的事情。以下是每个人工智能的最终排名:

  1. ChatGPT (29 分)
  2. Grok(24 分)
  3. 双子座(22 分)
  4. Perplexity (19 分)

人工智能帮助减轻了大多数工作的负担,尤其是在法学硕士出现之后。人工智能》一书(亚马逊当前售价 19.88 美元)就是力图帮助人们利用人工智能的书籍之一。

资料来源

Please share our article, every link counts!
Mail Logo
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2025 07 > 人工智能之战:Grok 的表现令 Mrwhosetheboss 大吃一惊,ChatGPT 获胜
Chibuike Okpara, 2025-07- 4 (Update: 2025-07- 4)