OpenAI 在 2026 年 4 月 23 日宣布,面向有 AI 红队、安全或生物安全经验的研究者,启动 GPT-5.5 生物安全漏洞赏金计划。目标很明确:在 GPT-5.5 的 Codex Desktop 版本里,从一段干净对话出发,用同一条通用提示词,同时答出五个生物安全问题,还不能触发 moderation。首个真正做到的人,奖金 2.5 万美元。
这件事比奖金更重要。它说明 OpenAI 至少承认了一点:前沿模型的高风险能力,不能只靠公司内部自测和漂亮的安全白皮书。可它也把边界画得很窄——不是公开 bounty,不是面向所有用户,也不是整个 ChatGPT 或全部 GPT-5.5 部署面,而是申请制、邀请制、限定产品面、再加一层 NDA。实招有了,透明度还没跟上。
赏金计划很具体,但开放得很克制
报名从 4 月 23 日开始,滚动审核,6 月 22 日截止;测试从 4 月 28 日开始,到 7 月 27 日结束。申请者需要提交姓名、机构和相关经验,被接收后还要签 NDA,并且需要已有 ChatGPT 账号。
| 项目 | 事实锚点 | 影响 | 判断 |
|---|---|---|---|
| 测试范围 | 仅限 GPT-5.5 in Codex Desktop | 不能外推到整个 ChatGPT | OpenAI 在控风险,也在控叙事 |
| 挑战目标 | 一条通用越狱提示词攻破五题,且不触发 moderation | 找的是系统性漏洞,不是单点碰运气 | 这比普通 prompt hack 更接近真实红队测试 |
| 奖励 | 首个成功者 25,000 美元,部分成功可酌情奖励 | 激励存在,但不算夸张 | 重点不在“重金”,而在用市场机制买外部对抗样本 |
| 参与方式 | 申请制 + 受邀制,仅限 vetted researchers | 普通公众和独立观察者看不到过程 | 安全测试有效性与外部可验证性被一起锁住 |
| 保密规则 | prompts、completions、findings、communications 全受 NDA 约束 | 外界难以知道发现了什么、修了什么 | 这是治理动作,也是公关防火墙 |
漏洞赏金和渗透测试的逻辑并不新鲜。安全行业早就明白,闭门造车很难找出真正危险的漏洞,“天下熙熙,皆为利来”,给钱本身就是在设计激励,让最会拆系统的人愿意来拆你的系统。放在今天,这套逻辑第一次更认真地压到生物风险场景里,意义确实不小。
真正的看点,是“通用越狱”四个字
我更在意的是 OpenAI 盯上的不是某一道题被绕过,而是 universal jailbreak。因为单题突破,常常只是局部缺口;一条提示词能连续穿透五道生物安全题,而且还能绕开 moderation,才更像平台级的防线塌口。
这也是为什么它把范围限定在 Codex Desktop,反而透露出更多信息。限定产品面,通常意味着公司在做受控环境下的高风险评估,先看一个可管理部署面能不能稳住,再决定更广泛产品该怎么上。它不像事故通报,更像发版前的强压测试。
但别高估这次开放。NDA 覆盖 prompts、模型输出、发现结果和沟通记录,等于把最关键的证据链封在箱子里。外部研究者能参与,公众却看不到漏洞细节、修复质量、失败比例,也无法独立评估“安全提升”是不是只是口头说法。这里的矛盾很直接:越是高风险领域,越需要外部挑战;越是高风险领域,平台越倾向把结果收回自己解释。两头都对,问题是中间缺了一层可审计机制。
谁会被这件事直接影响
最先受影响的是生物安全研究者和 AI 红队。对他们来说,这不是普通 bug bounty,而是一种带门槛的准合作测试。能进场的人,会拿到少见的前沿模型攻防机会;进不去的人,只能继续围着公开材料猜。
第二类是企业客户和政策圈。很多机构现在愿意把信任建立在“大厂有安全流程”这套叙事上。OpenAI 这次确实提供了一个更硬的动作:外部人来打,按结果给钱。但如果测试范围始终碎片化、结果始终不可公开,那它提供的更像“请相信我们有在测”,而不是“请检查我们测出了什么”。这两句话,差得不小。
横向看,传统软件安全的成熟路径从来不是只有 bounty,而是 bounty、第三方审计、公开披露、补丁验证一起走。AI 安全现在还停在前两步之间,离可复核、可比较、可问责,还有距离。
接下来我会盯三个变量:有没有后续公开说明发现了多少类问题;OpenAI 会不会把类似测试扩展到更多部署面,而不只是一块受控产品;以及,它是否愿意给出哪怕经过脱敏的结果摘要,让外部知道这不是“安全姿态管理”。
