在发布两年多之后,xAI 的 Grok 已成为领先的人工智能语言模型,超过了 OpenAI 的 ChatGPT、谷歌的 Gemini 或 DeepSeek,以及 Meta 和 Anthropic。埃隆-马斯克说,Grok 将于下周进入特斯拉汽车。
根据独立第三方的测试,新发布的 Grok 4 目前已在公共人工智能模型性能排行榜上名列前茅。Grok 3 和 Grok 4 的推理能力提高了 10 倍,其背后的驱动力是 xAI 以惊人的速度建立的人工智能计算集群,在向计划中的 100 万个 GPU 迈进的过程中,计算集群的 GPU 数量翻了一番,达到了 20 万个。
xAI 团队联系了要求苛刻的 ARC-AGI 性能测试的幕后人员,请他们运行自己的人工智能测试套件,结果令人惊讶:
首先是事实:Grok 4 现在是 ARC-AGI 上性能最高的公开可用模型。这甚至超过了在 Kaggle 上提交的专用解决方案。其次,ARC-AGI-2 对当前的人工智能模型来说很难。要想取得好成绩,模型必须从一系列训练实例中学习一种小技能,然后在测试时展示这种技能。之前的最高分是 8%(Opus 4)。低于 10%的分数是很嘈杂的。Grok 4 的得分达到 15.9%,突破了噪音障碍,显示出了非零水平的流体智能。
另一家独立人工智能测试机构人工分析公司(Artificial Analysis)表示,他们
"运行了我们的全套基准测试,Grok 4 的人工分析智能指数达到 73,领先于 70 的 OpenAI o3、70 的 Google Gemini 2.5 Pro、64 的 Anthropic Claude 4 Opus 和 68 的 DeepSeek R1 0528"。
根据埃隆-马斯克在 Grok 4 发布会上的介绍,xAI 的模型现在比所有学科的研究生加起来都要聪明。特斯拉首席执行官典型的天马行空,他声称 Grok 4 将能够发现 "新技术",例如 药物或工程突破。
不过,他也承认,在未来一个月左右的时间里,Grok 的图像识别能力仍然很差,并针对最近的至上主义答案争议表示他说,"当 Grok 出大错时,通常是由于我们做了一些愚蠢的事情,比如一个糟糕的系统提示,或者过于重视有偏见的来源。
马斯克需要给 Grok 4 打气,因为他的 xAI 首次推出了付费的高级层级。它被称为SuperGrok Heavy,起价为300美元/月,包括30美元/月的SuperGrok层级中的内容,该层级提供Grok 4的初始访问权限,以及访问Grok 4 Heavy平台的权限,该平台提供更高的费率限制和新功能的早期访问权限。
Grok 3 将继续免费提供给普通用户使用,而每一位 X Premium+ 用户都可以通过 SuperGrok 层级访问 Grok 4。
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名