GPT-5.5 在价值 1,500 美元的 LLM 黑客测试中独占鳌头，而双子座甚至拒绝尝试

ⓘ Anthropic, OpenAI, DeepSeek, Google - edited

除了其他人工智能模型，克劳德、双子座、GPT 和 DeepSeek 也展示了一些最令人感兴趣的发现。

一位安全研究人员花费 1,500 美元，针对一款故意制造漏洞的应用程序运行了 13 个以上的人工智能模型。GPT-5.5 以 70% 的解决率遥遥领先，DeepSeek V4 Pro 每次尝试只需 0.62 美元即可解决，而 Gemini 几乎完全拒绝参与。

Anubhav Sharma (translated by DeepL / Ninh Duy), Published 06/04/2026 🇺🇸 🇩🇪 ...

AI Security

一位安全研究人员刚刚发布了本年度最具启发性的人工智能能力测试之一。测试结果说明了不同模型的实际状况。

专业从事应用程序安全研究的卡斯拉-拉杰尔迪（Kasra Rahjerdi）构建了一个故意制造漏洞的书评应用程序，其中包含现实世界中的一类漏洞：APK 中暴露的 Firebase 凭据允许直接访问数据库，完全绕过了原本加固的 API。然后，他将这一难题交给了十几个人工智能模型--每个模型的预算为 10 美元，每次运行时间为 2 小时，在此过程中总共花费了 1,500 美元。

GPT-5.5是当之无愧的赢家。它在 10 次运行中解决了 7 次挑战，每次解决的成本为 9.46 美元。几乎每次成功运行都是在解压缩 APK 后立即将目标锁定在 Firebase 上，而不会被 API 或应用程序本身所干扰。

DeepSeek V4 Pro在成本效益方面，DeepSeek V4 Pro 独占鳌头--10 次运行中有 3 次成功求解，每次求解成本仅为 0.62 美元。这使得它的单次成功成本比 GPT-5.5 降低了约 15 倍，尽管解码率较低。对于任何大规模运行安全工具的人来说，这种差距应该是巨大的。

克劳德Sonnet 4.6 和 Claude Opus 4.8各解决了 10 次运行中的 2 次，尤其是 Opus，在安全防护栏结束会话前多次接近成功。最下面的是 Gemini。双子座 3.1 专业版几乎每次运行都会立即拒绝预览，这反映在令牌数的中位数仅为 9k，而其他所有测试机型的令牌数都在 100k 以上。Gemini 3.5 Flash 也没有好到哪里去，经常出现早期拒绝，只有两次运行完全尝试了这个问题。

卡斯拉观察到，中国模型更愿意直接与实时数据库交互，而西方模型则在任务中期表现出更多的犹豫不决，即使他们已经找到了正确的方法。研究人员还补充说，这根本不是科学评估，只是一个有据可查的实验。