GPT-5.5 在价值 1,500 美元的 LLM 黑客测试中独占鳌头,而双子座甚至拒绝尝试

一位安全研究人员刚刚发布了本年度最具启发性的人工智能能力测试之一。测试结果说明了不同模型的实际状况。
专业从事应用程序安全研究的卡斯拉-拉杰尔迪(Kasra Rahjerdi)构建了一个故意制造漏洞的书评应用程序,其中包含现实世界中的一类漏洞:APK 中暴露的 Firebase 凭据允许直接访问数据库,完全绕过了原本加固的 API。然后,他将这一难题交给了十几个人工智能模型--每个模型的预算为 10 美元,每次运行时间为 2 小时,在此过程中总共花费了 1,500 美元。
GPT-5.5是当之无愧的赢家。它在 10 次运行中解决了 7 次挑战,每次解决的成本为 9.46 美元。几乎每次成功运行都是在解压缩 APK 后立即将目标锁定在 Firebase 上,而不会被 API 或应用程序本身所干扰。
DeepSeek V4 Pro在成本效益方面,DeepSeek V4 Pro 独占鳌头--10 次运行中有 3 次成功求解,每次求解成本仅为 0.62 美元。这使得它的单次成功成本比 GPT-5.5 降低了约 15 倍,尽管解码率较低。对于任何大规模运行安全工具的人来说,这种差距应该是巨大的。
克劳德Sonnet 4.6 和 Claude Opus 4.8各解决了 10 次运行中的 2 次,尤其是 Opus,在安全防护栏结束会话前多次接近成功。最下面的是 Gemini。 双子座 3.1 专业版几乎每次运行都会立即拒绝预览,这反映在令牌数的中位数仅为 9k,而其他所有测试机型的令牌数都在 100k 以上。Gemini 3.5 Flash 也没有好到哪里去,经常出现早期拒绝,只有两次运行完全尝试了这个问题。
卡斯拉观察到,中国模型更愿意直接与实时数据库交互,而西方模型则在任务中期表现出更多的犹豫不决,即使他们已经找到了正确的方法。研究人员还补充说,这根本不是科学评估,只是一个有据可查的实验。
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名









