使用人工智能模型完成各种任务,尤其是编码任务的人都注意到,这些软件工具的表现并不一致。在某些情况下,它们根本无法提供任何答案;有时它们会提供错误的代码,而当它们得出预期结果时,它们的速度却比平时慢。这就是人工智能基准工具(网址:AistupidLevel.info的 AistupidLevel.info,提供有关多个人工智能模型性能和准确性的实时信息,包括成本数据。
上述开源工具可在所有大型模型上运行 140 多项编码、调试和优化任务。目前,它可跟踪以下任务:OpenAI GPT、Claude 和 Gemini。Grok 也将很快加入。它的亮点包括
- 实时价格信息,因为有些看起来便宜的模型需要迭代 10 次才能完成任务,而另一些乍看起来更贵的模型只需迭代 2 次就能完成同样的任务,因此有效成本更低。
- 使用自己的 API 密钥运行相同测试的能力。
- 实时人工智能性能监控,包括基于愚蠢和聪明程度的实时模型排名。
- 基于综合表现的智能推荐。
- 主动降级通知--例如,Gemini-2.5-Flash 现在比基准值降低了 44%。
目前,智能推荐如下Gemini-2.5-Flash-Lite 代表代码,Claude-3.5-Sonnet-20241022 代表可靠性,Gemini-2.5-Flash-Lite 代表速度。所有内容都在 GitHub 上开源(Repo APIRepo 前端),任何人都可以贡献自己的力量。所有细节和工具本身都可以在第一段提到的官方网站上找到。
资料来源
Reddit翻译
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名