在视频中,Mrwhosetheboss 测试了 Grok (Grok 3)、Gemini (2.5 Pro)、ChatGPT (GPT-4o) 和 Perplexity (Sonar Pro)。他在整个视频中明确表示,Grok 的性能给他留下了深刻印象。Grok 一开始的表现非常出色,但稍有松懈,随后又反超 ChatGPT 排名第二。平心而论,ChatGPT 和 Gemini 的得分之所以能提高,要归功于它们所缺乏的一项功能--视频生成。
在测试开始时,Mrwhosetheboss 测试了模型解决实际问题的能力:我开的是 2017 年款本田思域,后备箱里能装下多少个 Aerolite 29 英寸硬壳(79x58x31 厘米)行李箱?Grok 的答案最直接,它正确地回答了 "2",ChatGPT 和 Gemini 说理论上可以放 3 个,但实际上只能放 2 个。
在下一个问题中,他对聊天机器人也不客气--他询问了制作蛋糕的建议。在回答问题的同时,他上传了一张显示 5 件物品的图片,其中一件不是用来做蛋糕的,而是一罐干牛肝菌,除了一个模型外,其他所有模型都中了圈套。ChatGPT 认为这是一罐混合香料,Gemini 说这是一罐脆炸洋葱,Perplexity 认为这是速溶咖啡,而 Grok 则正确地认为这是一罐来自 Waitrose 的干蘑菇。这是他上传的图片:
接着,他对他们进行了数学、产品推荐、会计、语言翻译、逻辑推理等方面的测试。有一件事对它们来说是普遍的--幻觉--每个模型都在视频中的某些时刻表现出某种程度的幻觉;自信地谈论根本不存在的事情。以下是每个人工智能的最终排名:
- ChatGPT (29 分)
- Grok(24 分)
- 双子座(22 分)
- Perplexity (19 分)
人工智能帮助减轻了大多数工作的负担,尤其是在法学硕士出现之后。人工智能》一书(亚马逊当前售价 19.88 美元)就是力图帮助人们利用人工智能的书籍之一。
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名