一个很刺眼的对照出现了。
Anthropic 上个月把 Mythos Preview 包装成网络安全风险很高的模型,只先开放给“关键行业伙伴”。但英国 AI Security Institute(AISI)最新测试显示,OpenAI 已公开发布的 GPT-5.5,在几项网络安全评估里和 Mythos Preview 基本处在同一档。
这就把问题从“某家公司造出了危险模型”,推到了更难处理的位置:危险能力可能已经不稀有了。
AISI 这轮结果补上了一个关键对照。GPT-5.5 Cyber 被 OpenAI 上门禁,原本可以理解为针对特定高危版本的谨慎操作;现在看,它背后还有一个更大的背景:前沿模型的通用能力正在把网络安全能力一起抬上来。
GPT-5.5 和 Mythos 没拉开差距,麻烦就在这里
AISI 从 2023 年起,用 95 个 CTF 挑战评估前沿模型。任务覆盖逆向工程、Web 利用、密码学等。
CTF 不是现实攻击。它更像能力代理:看模型能不能拆题、写代码、找漏洞、连续推进。
几组数字很够用了:
| 测试项目 | GPT-5.5 | Mythos Preview | 怎么读 |
|---|---|---|---|
| CTF Expert 任务平均通过率 | 71.4% | 68.6% | GPT-5.5 略高,但差距在误差范围内 |
| TLO 企业网络 32 步数据提取模拟 | 3/10 成功 | 2/10 成功 | 过去没有模型成功过 |
| Cooling Tower 电厂控制软件破坏模拟 | 全部失败 | 全部失败 | 距离复杂工业破坏还差一截 |
最有冲击力的细节不是总分。
GPT-5.5 在一个 Rust 二进制反汇编难题里,无人工帮助,10 分 22 秒完成,API 成本 1.73 美元。
这不是“AI 黑客末日”。但它说明一件很实在的事:一部分原本需要熟练安全工程师花时间啃的任务,正在被模型用很低成本吃掉。
门槛降了。价格也降了。
安全行业最怕的往往不是顶尖能力突破,而是中等能力批量降价。
OpenAI 限制访问,不是小题大做
旧问题仍然成立:OpenAI 对 GPT-5.5 Cyber 这类网络安全定向能力上门禁,不算反应过度。
因为风险不在“模型会不会一键摧毁电厂”。AISI 的 Cooling Tower 测试全部失败,已经给这类夸张叙事降了温。
真正的风险在更日常的地方:
- 漏洞验证更便宜;
- 脚本编写更快;
- 横向移动和权限维持的试错成本更低;
- 初级攻击者能借模型补齐一部分工程能力;
- 防御方也会被迫用更强模型跟上节奏。
这才是现实世界里更可能先发生的变化。
不是一步到核按钮,而是先把大量灰色操作自动化、规模化、廉价化。
对受影响的人来说,重点也很明确。
普通用户短期不用因为 GPT-5.5 多做对几道 CTF 就恐慌。真正该紧张的是两类人:企业安全团队,以及掌握模型访问权的平台和云服务客户。
企业安全团队会面对更便宜的攻击尝试。平台客户会面对更复杂的访问分级:谁能用完整能力,谁只能用阉割版,谁要提交身份、用途和审计记录。
产品边界开始从“模型能做什么”,变成“平台允许谁做什么”。
争议不在能力,在叙事权
AISI 的判断很关键:Mythos 的网络安全风险不像是某个单一模型的特殊突破,更像长程自主、推理和代码能力整体提升的副产品。
这句话拆掉了一个方便的故事。
如果风险只属于 Mythos,那问题可以被包装成“Anthropic 要谨慎发布”。如果 GPT-5.5 也差不多,那问题就变成:整个前沿模型群体都在涨水。
Sam Altman 顺势批评某些限制发布是“恐惧营销”:先说自己造了炸弹,再卖防空洞。
这话很尖,也有杀伤力。但不能只听一半。
OpenAI 自己也在做 Trusted Access for Cyber。GPT-5.4-Cyber、GPT-5.5-Cyber 这类更强网络安全定向版本,同样会限制给经过验证的防御方。
所以局面没那么干净。
Anthropic 不一定是在骗人。OpenAI 也不只是开放派。两边都知道一件事:当网络安全能力成为产品差异点,“谁能用、谁先用、以什么身份用”,就不只是安全问题,也是商业权力。
“天下熙熙,皆为利来。”这句老话放在这里不刻薄。
限制发布有安全理由,也会制造稀缺性。高风险标签能提醒监管,也能抬高模型身价。安全治理和市场叙事混在一起,才是这件事真正难解的地方。
危险模型正在变成行业基线
我更在意的不是 GPT-5.5 比 Mythos 高了 2.8 个百分点。
这个差距太小,不值得神化。
真正的变化是:网络安全能力正在从某个模型的惊艳特技,变成前沿模型的默认配件。
模型会写代码,会长程规划,会调用工具,会反复试错。它自然就会更擅长攻防任务。安全风险不是额外长出来的角,而是通用能力长大后的影子。
这和早期互联网很像,但不完全一样。
互联网当年把发布、传播、连接的成本打下来,垃圾邮件、钓鱼网站、盗版和灰产也一起起飞。不是因为互联网“本质作恶”,而是因为基础设施变便宜以后,善意和恶意都会搭顺风车。
前沿模型现在也在走这条路。
防御方会更强。攻击方也会更省钱。
行业接下来真正该盯的,不是某个榜单谁赢谁输,而是三件事:
- 访问控制是不是能落到身份、用途、审计,而不只是写在发布博客里;
- 出事以后责任怎么算,模型方、调用方、企业客户各承担多少;
- 公司有没有动力诚实描述风险,还是把风险标签当营销工具。
如果访问控制只服务合规,它会变成表演。
如果访问控制同时决定谁能拿到最强能力,它又会变成闸门。
闸门一旦商业化,安全就不再只是公共议题,也会变成平台议价能力。
这次该改的不是恐慌程度,而是判断框架
AISI 的测试没有证明 GPT-5.5 已经能自动发动高危现实攻击。Cooling Tower 全部失败,这个限制必须写清楚。
但它至少证明,OpenAI 对网络安全定向版本做访问限制,有足够现实理由。
更重要的是,它修正了一个容易偷懒的判断:别把危险感绑定在某个被宣传成危险的模型上。
水位涨起来时,每条船都要重新算吃水线。
GPT-5.5 追平 Mythos Preview 的意义,不在于 OpenAI 赢了 Anthropic。它说明前沿模型的安全边界已经不能靠“谁自称更谨慎”来定义。
模型看着更强,产品反而更虚。
因为真正的产品边界不再是参数、榜单和演示视频,而是谁被允许接近这些能力,以及接近之后留下什么责任链。
