人工智能之战：Grok 的表现令 Mrwhosetheboss 大吃一惊，ChatGPT 获胜

Gemini、ChatGPT、Grok 和 Perplexity（图片来源：Gemini）

在 Mrwhosetheboss 发布在 YouTube 上的一段视频中，他测试了来自不同品牌的四种人工智能模型，并根据它们在每项任务中的表现进行了评分。Mrwhosetheboss 从简单的查询到棘手的问题和研究，将每个模型都逼到了极限。

Chibuike Okpara (translated by Ninh Duy), Published 07/04/2025 🇺🇸 🇩🇪 ...

在视频中，Mrwhosetheboss 测试了 Grok (Grok 3)、Gemini (2.5 Pro)、ChatGPT (GPT-4o) 和 Perplexity (Sonar Pro)。他在整个视频中明确表示，Grok 的性能给他留下了深刻印象。Grok 一开始的表现非常出色，但稍有松懈，随后又反超 ChatGPT 排名第二。平心而论，ChatGPT 和 Gemini 的得分之所以能提高，要归功于它们所缺乏的一项功能--视频生成。

在测试开始时，Mrwhosetheboss 测试了模型解决实际问题的能力：我开的是 2017 年款本田思域，后备箱里能装下多少个 Aerolite 29 英寸硬壳（79x58x31 厘米）行李箱？Grok 的答案最直接，它正确地回答了 "2"，ChatGPT 和 Gemini 说理论上可以放 3 个，但实际上只能放 2 个。

在下一个问题中，他对聊天机器人也不客气--他询问了制作蛋糕的建议。在回答问题的同时，他上传了一张显示 5 件物品的图片，其中一件不是用来做蛋糕的，而是一罐干牛肝菌，除了一个模型外，其他所有模型都中了圈套。ChatGPT 认为这是一罐混合香料，Gemini 说这是一罐脆炸洋葱，Perplexity 认为这是速溶咖啡，而 Grok 则正确地认为这是一罐来自 Waitrose 的干蘑菇。这是他上传的图片：