一个很刺眼的对照出现了。

Anthropic 上个月把 Mythos Preview 包装成网络安全风险很高的模型,只先开放给“关键行业伙伴”。但英国 AI Security Institute(AISI)最新测试显示,OpenAI 已公开发布的 GPT-5.5,在几项网络安全评估里和 Mythos Preview 基本处在同一档。

这就把问题从“某家公司造出了危险模型”,推到了更难处理的位置:危险能力可能已经不稀有了。

AISI 这轮结果补上了一个关键对照。GPT-5.5 Cyber 被 OpenAI 上门禁,原本可以理解为针对特定高危版本的谨慎操作;现在看,它背后还有一个更大的背景:前沿模型的通用能力正在把网络安全能力一起抬上来。

GPT-5.5 和 Mythos 没拉开差距,麻烦就在这里

AISI 从 2023 年起,用 95 个 CTF 挑战评估前沿模型。任务覆盖逆向工程、Web 利用、密码学等。

CTF 不是现实攻击。它更像能力代理:看模型能不能拆题、写代码、找漏洞、连续推进。

几组数字很够用了:

测试项目GPT-5.5Mythos Preview怎么读
CTF Expert 任务平均通过率71.4%68.6%GPT-5.5 略高,但差距在误差范围内
TLO 企业网络 32 步数据提取模拟3/10 成功2/10 成功过去没有模型成功过
Cooling Tower 电厂控制软件破坏模拟全部失败全部失败距离复杂工业破坏还差一截

最有冲击力的细节不是总分。

GPT-5.5 在一个 Rust 二进制反汇编难题里,无人工帮助,10 分 22 秒完成,API 成本 1.73 美元。

这不是“AI 黑客末日”。但它说明一件很实在的事:一部分原本需要熟练安全工程师花时间啃的任务,正在被模型用很低成本吃掉。

门槛降了。价格也降了。

安全行业最怕的往往不是顶尖能力突破,而是中等能力批量降价。

OpenAI 限制访问,不是小题大做

旧问题仍然成立:OpenAI 对 GPT-5.5 Cyber 这类网络安全定向能力上门禁,不算反应过度。

因为风险不在“模型会不会一键摧毁电厂”。AISI 的 Cooling Tower 测试全部失败,已经给这类夸张叙事降了温。

真正的风险在更日常的地方:

  • 漏洞验证更便宜;
  • 脚本编写更快;
  • 横向移动和权限维持的试错成本更低;
  • 初级攻击者能借模型补齐一部分工程能力;
  • 防御方也会被迫用更强模型跟上节奏。

这才是现实世界里更可能先发生的变化。

不是一步到核按钮,而是先把大量灰色操作自动化、规模化、廉价化。

对受影响的人来说,重点也很明确。

普通用户短期不用因为 GPT-5.5 多做对几道 CTF 就恐慌。真正该紧张的是两类人:企业安全团队,以及掌握模型访问权的平台和云服务客户。

企业安全团队会面对更便宜的攻击尝试。平台客户会面对更复杂的访问分级:谁能用完整能力,谁只能用阉割版,谁要提交身份、用途和审计记录。

产品边界开始从“模型能做什么”,变成“平台允许谁做什么”。

争议不在能力,在叙事权

AISI 的判断很关键:Mythos 的网络安全风险不像是某个单一模型的特殊突破,更像长程自主、推理和代码能力整体提升的副产品。

这句话拆掉了一个方便的故事。

如果风险只属于 Mythos,那问题可以被包装成“Anthropic 要谨慎发布”。如果 GPT-5.5 也差不多,那问题就变成:整个前沿模型群体都在涨水。

Sam Altman 顺势批评某些限制发布是“恐惧营销”:先说自己造了炸弹,再卖防空洞。

这话很尖,也有杀伤力。但不能只听一半。

OpenAI 自己也在做 Trusted Access for Cyber。GPT-5.4-Cyber、GPT-5.5-Cyber 这类更强网络安全定向版本,同样会限制给经过验证的防御方。

所以局面没那么干净。

Anthropic 不一定是在骗人。OpenAI 也不只是开放派。两边都知道一件事:当网络安全能力成为产品差异点,“谁能用、谁先用、以什么身份用”,就不只是安全问题,也是商业权力。

“天下熙熙,皆为利来。”这句老话放在这里不刻薄。

限制发布有安全理由,也会制造稀缺性。高风险标签能提醒监管,也能抬高模型身价。安全治理和市场叙事混在一起,才是这件事真正难解的地方。

危险模型正在变成行业基线

我更在意的不是 GPT-5.5 比 Mythos 高了 2.8 个百分点。

这个差距太小,不值得神化。

真正的变化是:网络安全能力正在从某个模型的惊艳特技,变成前沿模型的默认配件。

模型会写代码,会长程规划,会调用工具,会反复试错。它自然就会更擅长攻防任务。安全风险不是额外长出来的角,而是通用能力长大后的影子。

这和早期互联网很像,但不完全一样。

互联网当年把发布、传播、连接的成本打下来,垃圾邮件、钓鱼网站、盗版和灰产也一起起飞。不是因为互联网“本质作恶”,而是因为基础设施变便宜以后,善意和恶意都会搭顺风车。

前沿模型现在也在走这条路。

防御方会更强。攻击方也会更省钱。

行业接下来真正该盯的,不是某个榜单谁赢谁输,而是三件事:

  • 访问控制是不是能落到身份、用途、审计,而不只是写在发布博客里;
  • 出事以后责任怎么算,模型方、调用方、企业客户各承担多少;
  • 公司有没有动力诚实描述风险,还是把风险标签当营销工具。

如果访问控制只服务合规,它会变成表演。

如果访问控制同时决定谁能拿到最强能力,它又会变成闸门。

闸门一旦商业化,安全就不再只是公共议题,也会变成平台议价能力。

这次该改的不是恐慌程度,而是判断框架

AISI 的测试没有证明 GPT-5.5 已经能自动发动高危现实攻击。Cooling Tower 全部失败,这个限制必须写清楚。

但它至少证明,OpenAI 对网络安全定向版本做访问限制,有足够现实理由。

更重要的是,它修正了一个容易偷懒的判断:别把危险感绑定在某个被宣传成危险的模型上。

水位涨起来时,每条船都要重新算吃水线。

GPT-5.5 追平 Mythos Preview 的意义,不在于 OpenAI 赢了 Anthropic。它说明前沿模型的安全边界已经不能靠“谁自称更谨慎”来定义。

模型看着更强,产品反而更虚。

因为真正的产品边界不再是参数、榜单和演示视频,而是谁被允许接近这些能力,以及接近之后留下什么责任链。