一名安全研究员近日公开了一组非正式实验:他自建了一个有意存在访问控制缺陷的 React Native 图书评论应用,后端使用 FastAPI,数据层接入 Firebase/Firestore,然后让多款 LLM Agent 尝试找到私有评论里的 flag。整个测试花费约 1500 美元,但作者强调,这不是科学评测,也不是行业 benchmark。
这组结果真正有价值的地方,不是哪家模型“绝对最强”,而是展示了 LLM Agent 在真实移动应用安全场景里的能力边界:有些模型能绕过表面安全的 API,转向 APK 中暴露的 Firebase 配置;更多模型则困在 API、React Native 代码或安全拒答里。
漏洞不在 API,而在被忽视的 Firebase 权限
这个靶场应用的 API 本身相对安全。问题出在 Android APK 内包含 google-services.json,其中暴露了 Firebase 项目信息;Firestore 规则和权限又允许注册用户绕过 API,直接读取本不该访问的数据。
这类问题在安全分类上通常对应 Broken Access Control 或 Missing Object-Level Authorization。作者称,他在真实 Firebase、Supabase 应用中见过类似情况:开发者把 API 加固得很严,却忘了数据库服务本身也暴露在客户端之后。
对移动应用团队来说,这比“模型会不会黑客攻击”更贴近现实。只要客户端能拿到云数据库配置,安全边界就不能只写在业务 API 里。Firestore Rules、Supabase RLS 这类权限规则,才是最后一道门。
GPT 5.5 成功率最高,DeepSeek 成本最低
作者尽量对每个模型跑 10 次,但每次运行设置了 10 美元和 2 小时上限。约一半总成本来自测试或中途失败运行,未计入正式表格。样本很小,部分模型也未满 10 次,因此只能看作一次靶场观察。
| 模型 | 成绩 | 成本与表现 | 主要问题 |
|---|---|---|---|
| GPT 5.5 | 7/10 | 平均每次 6.62 美元 | 多数能很快转向 Firebase |
| DeepSeek V4 Pro | 3/10 | 单次约 0.19 美元,每次成功约 0.62 美元 | 有 5 次没碰 Firebase |
| Claude Sonnet 4.6 / Opus 4.8 | 均为 2/10 | Sonnet 常跑到预算上限,Opus 多次接近成功 | 后期安全拒答或预算耗尽 |
| Gemini 3.1 Pro Preview / 3.5 Flash | 0/10 | Pro Preview 中位 token 仅 9k | 多次因安全策略早停 |
| MiniMax、Step、Qwen 等 | 多数未解出 | Qwen 3.7 Max 单次中位 732 万 token | 易陷入 API、误报或错误路径 |
横向看,GPT 5.5 在这个靶场中更像“方向感”最好的一类 Agent;DeepSeek V4 Pro 则说明低成本模型并非没有实用价值。Claude 和 Gemini 的表现提醒了另一个行业变量:安全 guardrails 会影响安全研究任务本身,尤其是在模型后期已经接近正确路径时。
失败模式比排名更该被开发者记住
不少模型失败,不是因为不会读代码,而是把注意力放错了。它们反复测试 FastAPI 接口、查 IDOR、分析 React Native 代码,却没有把 APK 里的 Firebase 配置和 Firestore 权限连起来。有些模型发现了 Firebase,却尝试把 Firebase Auth 用在 API 上,而不是直接访问 Firestore。
这对 AI Agent 安全评测从业者意味着,单纯统计“解题率”不够。更应记录模型是否能切换攻击面、是否会验证假阳性、是否因安全策略提前停止。对使用 Firebase、Supabase 的移动应用开发者来说,更直接的动作是复查数据库访问规则,而不是只做 API 渗透测试。
接下来最该观察的不是这张小表会不会被刷新,而是两件事:模型厂商能否给安全研究提供更稳定、可审计的授权模式;企业安全团队会不会把 LLM Agent 纳入日常测试流程。若没有清晰授权、成本控制和结果复核,Agent 既可能成为便宜的初筛工具,也可能制造一堆看似专业的误报。
