Notebookcheck Logo

开源工具测量人工智能模型的愚蠢程度

Vibe 编码员不得不面对人工智能模型性能不一致的问题(图片来源:使用 OpenAI 生成)
人工智能模型并不稳定(图片来源:使用 OpenAI 生成)
一种新的开源工具可对多种人工智能模型进行实时监控,包括 OpenAI GPT-5、Claude Opus 4 和 Gemini 2.5 Pro。这是首个此类工具,它可以检测 "人工智能公司何时为节约成本而降低模型能力"。这些基准还可以针对用户自己的 OpenAI、xAI、Anthropic 或谷歌 API 密钥运行。
AI Open Source Software Fail

使用人工智能模型完成各种任务,尤其是编码任务的人都注意到,这些软件工具的表现并不一致。在某些情况下,它们根本无法提供任何答案;有时它们会提供错误的代码,而当它们得出预期结果时,它们的速度却比平时慢。这就是人工智能基准工具(网址:AistupidLevel.info的 AistupidLevel.info,提供有关多个人工智能模型性能和准确性的实时信息,包括成本数据。

上述开源工具可在所有大型模型上运行 140 多项编码、调试和优化任务。目前,它可跟踪以下任务:OpenAI GPT、Claude 和 Gemini。Grok 也将很快加入。它的亮点包括

  • 实时价格信息,因为有些看起来便宜的模型需要迭代 10 次才能完成任务,而另一些乍看起来更贵的模型只需迭代 2 次就能完成同样的任务,因此有效成本更低。
  • 使用自己的 API 密钥运行相同测试的能力。
  • 实时人工智能性能监控,包括基于愚蠢和聪明程度的实时模型排名。
  • 基于综合表现的智能推荐。
  • 主动降级通知--例如,Gemini-2.5-Flash 现在比基准值降低了 44%。

目前,智能推荐如下Gemini-2.5-Flash-Lite 代表代码,Claude-3.5-Sonnet-20241022 代表可靠性,Gemini-2.5-Flash-Lite 代表速度。所有内容都在 GitHub 上开源(Repo APIRepo 前端),任何人都可以贡献自己的力量。所有细节和工具本身都可以在第一段提到的官方网站上找到。

资料来源

Reddit翻译

Please share our article, every link counts!
Mail Logo
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2025 09 > 开源工具测量人工智能模型的愚蠢程度
Codrut Nistor, 2025-09-18 (Update: 2025-09-18)