Firefox 271 个 AI 找洞样本：LLM 漏洞扫描终于有了硬信号

核心摘要 Summary

Mozilla 称 Anthropic Mythos 在两个月内辅助发现 271 个 Firefox 安全漏洞，并且“几乎没有误报”。
这比单纯说 Firefox 修了多少漏洞更关键：AI 安全工具的价值，不在报告写得像不像，而在能不能接入真实测试链路，把怀疑变成可复现证据。

Mozilla 给 AI 安全圈补了一块更硬的证据。

此前围绕 Firefox 单月修复 423 个安全问题的讨论，重点还停在一个方向判断上：LLM 漏洞扫描正在从噪声变成信号。现在更具体的变量出来了：Mozilla 称 Anthropic Mythos 在约两个月内辅助发现 271 个 Firefox 安全漏洞，工程师还说这些报告“几乎没有误报”。

这句话不能直接读成 AI 神迹。更准确的读法是：裸模型没有突然变成顶级安全研究员，模型被塞进了 Mozilla 自己的工程系统里，才开始产出可信结果。

和只看修复数量相比，现在能确认的增量主要有三项：数量来源更清楚，误报情况有 Mozilla 工程师背书，最关键的是发现过程依赖 harness、测试管线和验证信号，而不是让大模型凭空写漏洞报告。

271 个漏洞，不等于 271 个零日

这批漏洞来自 Firefox，周期约两个月。Mozilla 公开了其中 12 个 Bugzilla 报告和触发测试用例，用来回应外界对 AI 安全宣传的怀疑。

项目	信息
工具	Anthropic Mythos，少量涉及 Claude Opus 4.6
对象	Firefox 源代码与测试环境
数量	271 个安全漏洞
评级	180 个 sec-high，80 个 sec-moderate，11 个 sec-low
公开材料	12 个 Bugzilla 报告与触发用例

这里要把数字放回安全语境里。

271 个漏洞，不等于 271 个正在野外被利用的 zero-day。Mozilla 的 sec-critical 才更接近外界通常理解的高危零日叙事。sec-high 已经严重，可能通过正常浏览网页触发，但不能被包装成“黑客已经满街用了”。

Mozilla 也没有给这 271 个漏洞逐个申请 CVE。这不反常。内部发现的安全问题，通常会合并进补丁发布，而不是拆成一串 CVE 新闻稿。

所以，真正的新信息不是“AI 找到了一个吓人的大数字”。而是 Mozilla 把一批 AI 辅助发现的漏洞，放进了可修复、可验证、可发布的工程流程里。

重要的不是模型会说，是它能不能跑出证据

过去一年，AI 漏洞报告最烦人的地方不是少，而是太多。

模型很会写安全报告。标题像样，复现步骤像样，影响范围像样，语气也像样。人工一查，常见结果是幻觉、误判、上下文错位，一堆 unwanted slop。

安全团队最怕这个。不是怕 AI 不聪明，而是怕它制造审查债务。

Mozilla 这次的关键在 harness。可以把它理解成一层驱动模型工作的工程外壳：给模型任务，让它读写文件、构造测试、调用 Firefox 测试工具、跑 sanitizer build、尝试触发崩溃。

对内存安全问题来说，信号很硬：能不能让程序崩。

这比“模型认为这里有漏洞”强太多。一个可复现崩溃，比十页漂亮报告都值钱。安全工程师要的不是雄辩，是证据链。

Mozilla 还提到二次 LLM 评分，用来对第一轮输出再做筛选。这不是完美审计，但至少说明它没有把模型输出直接当事实。AI 在这里更像一个会提出假设的助手，验证仍然靠工程管线收口。

早期铁路改变世界，靠的不只是蒸汽机。轨道、信号、调度、维修制度一起成熟，蒸汽机才从一台冒烟的机器变成基础设施。

AI 找洞也是这样。模型只是发动机。没有测试系统、构建系统、复现用例和补丁流程，它很容易变成一台会冒烟的营销机器。

受影响最大的是安全团队和大型开源项目

普通 Firefox 用户不需要因为“271 个漏洞”立刻恐慌。该更新浏览器就更新，别把 sec-high 读成末日警报。

真正要重新评估工作方式的，是两类人。

一类是安全工程师。以后判断 AI 安全工具，不能只看榜单、demo、发现了多少“疑似漏洞”。要看四件事：

有没有接进真实构建系统；
有没有确定性验证信号；
有没有可复现测试用例；
有没有降低人工验证成本。

如果没有这些，AI 只是把噪声包装得更专业。

另一类是大型开源项目维护者。Firefox 这种项目代码量大、历史包袱重、测试体系成熟，正适合 AI 去扫边角、造用例、撞崩溃。小项目未必能直接复制。没有足够好的测试管线，模型的产出很可能又回到“看起来很像漏洞”的老问题。

这也是这件事最现实的地方：AI 安全能力不只取决于模型厂商，还取决于使用方有没有工程底座。

一个团队越有纪律，AI 越可能放大它的纪律。一个团队流程混乱，AI 只会把混乱自动化。

这次做对了，但账还没结完

我倾向于认为，Mozilla 这次少见地做对了。

不是因为 Mythos 这个名字多神，而是因为它展示了一个更可信的方向：AI 不再只是写报告，而是进入“提出假设—构造用例—触发崩溃—验证修复”的闭环。

但质疑也成立。

Mozilla 公开的是 12 个样本，不是对 271 个报告的第三方完整审计。“几乎没有误报”目前主要来自 Mozilla 工程师判断，不是行业盖章。外界继续问 Anthropic 得到了什么、Mozilla 是否也获得宣传收益，并不过分。

天下熙熙，皆为利来。放到今天，就是别把技术进展和商业叙事混成一杯酒喝。

AI 公司需要成功案例，开源项目需要安全能力，媒体需要漂亮数字。三方利益并不天然邪恶，但它会放大叙事冲动。271 这个数字越好看，越要追问它背后的验证成本、公开样本比例、修复质量和长期复现率。

接下来最该看的，不是 Mythos 还能不能再报一个更大的数。

要看 Mozilla 后续是否持续公开样本；这些漏洞修复后是否减少回归；其他大型项目能否在类似 harness 下复现低误报；AI 工具是否真的减少安全团队的人工审查债务。

如果答案是肯定的，LLM 漏洞扫描才算真正从“会说”走向“能干”。

如果答案是否定的，那它只是把旧安全行业最熟悉的 KPI 游戏，换成了大模型口音。

模型看着更强，产品反而可能更虚。分水岭不在参数，也不在报告数量，而在漏洞能不能被钉死、补丁能不能经得住回归测试。Firefox 这次给了一个可信窗口，但窗口不是胜利本身。

Firefox 271 个 AI 找洞样本：LLM 漏洞扫描终于有了硬信号

AI找洞

核心进展

数字边界

证据增量

关键机制

工程外壳

硬信号

影响对象

工具评估

开源项目

剩余疑问

公开比例

后续变量

271 个漏洞，不等于 271 个零日

重要的不是模型会说，是它能不能跑出证据

受影响最大的是安全团队和大型开源项目

这次做对了，但账还没结完