开源工具测量人工智能模型的愚蠢程度

人工智能模型对于振动编码来说并不稳定（图片来源：使用 OpenAI 生成）

一种新的开源工具可对多种人工智能模型进行实时监控，包括 OpenAI GPT-5、Claude Opus 4 和 Gemini 2.5 Pro。这是首个此类工具，它可以检测 "人工智能公司何时为节约成本而降低模型能力"。这些基准还可以针对用户自己的 OpenAI、xAI、Anthropic 或谷歌 API 密钥运行。

Codrut Nistor (translated by Ninh Duy), Published 09/18/2025 🇺🇸 🇪🇸 ...

AI Open Source Software Fail

使用人工智能模型完成各种任务，尤其是编码任务的人都注意到，这些软件工具的表现并不一致。在某些情况下，它们根本无法提供任何答案；有时它们会提供错误的代码，而当它们得出预期结果时，它们的速度却比平时慢。这就是人工智能基准工具（网址：AistupidLevel.info的 AistupidLevel.info，提供有关多个人工智能模型性能和准确性的实时信息，包括成本数据。

上述开源工具可在所有大型模型上运行 140 多项编码、调试和优化任务。目前，它可跟踪以下任务：OpenAI GPT、Claude 和 Gemini。Grok 也将很快加入。它的亮点包括

实时价格信息，因为有些看起来便宜的模型需要迭代 10 次才能完成任务，而另一些乍看起来更贵的模型只需迭代 2 次就能完成同样的任务，因此有效成本更低。
使用自己的 API 密钥运行相同测试的能力。
实时人工智能性能监控，包括基于愚蠢和聪明程度的实时模型排名。
基于综合表现的智能推荐。
主动降级通知--例如，Gemini-2.5-Flash 现在比基准值降低了 44%。

目前，智能推荐如下Gemini-2.5-Flash-Lite 代表代码，Claude-3.5-Sonnet-20241022 代表可靠性，Gemini-2.5-Flash-Lite 代表速度。所有内容都在 GitHub 上开源（Repo API Repo 前端)，任何人都可以贡献自己的力量。所有细节和工具本身都可以在第一段提到的官方网站上找到。