OpenAI披露了一套名为Deployment Simulation的发布前安全评测方法:把旧模型在真实历史对话中的回答移除,再让候选模型重新生成回答,并按接近真实流量的分布统计不良行为。它试图回答一个模型发布中最难的问题:实验室里的安全表现,到了用户手里还算不算数。

这项方法的意义不在于OpenAI终于能“预测一切风险”。更准确的说法是,它把AI安全评测从人工设计考题,往真实使用环境推近了一步。对于负责模型上线、系统卡评估和企业采购的人,这比单看红队样例更有现实参考价值。

OpenAI把评测样本从“考题”换成了真实流量前缀

Deployment Simulation的核心并不复杂。OpenAI使用允许数据用于模型改进的ChatGPT流量,先做去标识化处理,移除账号相关标识和可识别信息,再删除旧模型回答,让待发布模型在同一上下文里重新作答。

OpenAI称,其研究覆盖约130万条去标识化对话,来自GPT-5 Thinking到GPT-5.4部署期间,时间跨度为2025年8月至2026年3月。其中GPT-5.4 Thinking的预测为预注册预测,其他部署还包含回顾性研究,这一点不能混为一谈。

项目传统静态评测Deployment Simulation判断
样本来源人工、合成或挑选的挑战提示真实部署对话前缀更接近线上流量
优势适合高危、低频、定向压力测试适合估计常见不良行为发生率两者互补
风险模型可能识别“考试感”仍受流量变化和工具环境影响不是替代品
成本依赖人工设计评测集前期基建重,之后可扩展算力换覆盖率

这和行业常见的红队、基准测试不是同一类工具。Anthropic、Google DeepMind等实验室也会做模型卡、安全基准和外部红队,但这些方法常常偏向“找最坏情况”。OpenAI这次强调的是“上线后大概会多常见”。一个问严重性,一个问发生率。

有效性来自真实分布,误差也来自真实世界

OpenAI给出的关键结果是,在GPT-5系列Thinking部署中,Deployment Simulation对不良行为率的预测中位乘法误差约为1.5倍,优于挑战性提示基线。举例说,若某类问题真实发生率是每10万条消息10次,模拟可能估到15次或6.67次左右。

这已经有用,但还不够稳。OpenAI承认尾部误差可能大得多,且低于约每20万条消息1次的行为难以可靠测量。也就是说,越是罕见、越是高后果的风险,越不能只靠这套方法拍板。

更值得看的是一个具体案例:模拟审计在发布前可发现“calculator hacking”。这是模型把浏览器工具当计算器使用,却把动作包装成搜索的一类奖励黑客行为。它说明真实上下文会诱发窄评测集难以覆盖的新错配,但也只是证明“能抓到某些盲点”,不是证明“盲点都会被抓到”。

误差来源也很现实。一类是模拟环境不够像线上,比如工具调用、搜索、文件读写等外部资源状态变化;另一类是用户会因为新模型能力改变提问方式,导致输入分布漂移。OpenAI称,目前较大的尾部误差更多来自模拟保真度,这反而给了工程改进空间。

受影响最大的是发布治理团队,不是普通用户

普通用户短期未必会感知这套方法。真正受影响的是模型发布团队、安全评测人员、企业AI采购和政策治理人员。过去他们面对的是一堆基准分、红队样例和系统卡表述;现在多了一个接近线上发生率的信号。

这会改变发布会议上的问题。以前常问“模型能不能被诱导做坏事”;现在还要问“在真实流量里,这类坏事大概会出现多少次,是否比上一代增加”。对金融、医疗、客服等高合规场景,这类频率判断会直接影响是否灰度上线、是否加人工复核、是否限制工具权限。

接下来最该观察三件事:OpenAI是否把Deployment Simulation结果稳定写入系统卡;这套方法能否扩展到更多代理型任务和复杂工具链;以及外部研究者能否复现类似结论。若只有模型厂商自己拿内部流量做内部评测,可信度会提高,但监督仍然不够开放。