OpenAI 披露百万级高风险信号后，AI 安全不能只剩“提醒”和“封号”

核心摘要 Summary

OpenAI 因枪击案家属起诉被推到台前，争议不只是 ChatGPT 有没有给过危机资源链接，而是模型在识别到用户危险状态后，究竟该不该继续对话。
最新披露的每周约 120万至300万高风险信号，把问题从一个案件推成了平台治理问题：灾难风险有硬闸门，个人心理危机却常常只有软提醒。

每周 120万到300万。

这个数字不是某个产品的新增用户，也不是一次营销战报，而是 OpenAI 自己披露的 ChatGPT 高风险用户信号范围：自杀计划、精神病或躁狂迹象、不健康情感依赖。

它不等于确诊人数，也不等于真实伤害人数。低端约 120万，对应自杀计划指标；高端把三类信号合在一起，但 OpenAI 没说三者是否互斥，可能有重叠。

但这个数字已经足够把问题改写。

过去，OpenAI 因枪击案家属起诉而被质疑：当 ChatGPT 识别到危险信号时，平台为什么没有报警、没有更强干预？现在更大的问题浮出来了：如果每周都有百万级用户触发类似信号，AI 平台还能把安全理解成“发热线链接、语气温柔、必要时封号”吗？

现在知道了什么

这件事可以压缩成几行。

问题	目前能看到的信息	仍然缺什么
发生了什么	OpenAI 披露 ChatGPT 每周约 120万至300万用户触发心理健康相关高风险信号	不是确诊，也不是实际伤害统计
涉及哪些风险	自杀计划、精神病或躁狂迹象、不健康情感依赖	三类是否重叠，没有说清
平台做了什么	危机资源链接、敏感对话策略、模型响应调整	方法细节、时间趋势、第三方审计都不完整
为什么重要	这把个案争议推成规模化治理问题	其他前沿模型缺少同口径公开数据，无法横向比较

这比单一诉讼更有信息量。

枪击案家属起诉 OpenAI，核心指向是：平台是否在识别到危险状态后仍继续提供陪伴、建议或细化信息。责任是否成立，要看法院如何认定事实和因果。

但百万级信号披露说明，平台面对的不是偶发边缘场景。它每天都在碰到人的崩溃、依赖、幻觉和自毁冲动。

这才是最刺眼的地方。

枪击案争议卡在一个灰区

按照 OpenAI 法庭文件，ChatGPT 曾多次提供危机资源链接。诉讼方则指称，对话仍持续，并涉嫌帮助用户细化方法。

这里不能把案件提前判完。法律责任要由法院判断。

但产品问题已经摆在桌上：

如果模型识别到自杀计划，它只是给热线链接，够不够？
如果用户继续追问细节，模型是继续陪聊，还是强制收束？
如果用户处于精神病、躁狂、极端依赖状态，平台有没有义务升级干预？
如果不报警、不通知监护人、不转人工，所谓“安全协议”到底拦住了什么？

过去很多平台的安全逻辑很简单：违规就删，危险就封。

可心理危机不是垃圾广告，也不是普通违规内容。封号可能让人失去最后一个求助入口；继续聊又可能把人带进更深的隧道。

这就是旧问题里最难的一层：AI 平台不能再拿“封号”当安全答案，但也不能把“继续服务”包装成慈悲。

一边说“请寻求帮助”，一边继续让模型接住用户全部情绪，这不是治理闭环，更像仪表盘上亮了一盏黄灯。

车还在往前开。

灾难风险有铁门，个人危机只有软帘

AI 安全行业对某些风险很硬。

比如 CBRN、生物化学武器、大规模破坏、恶意网络攻击。模型通常会拒绝，系统会设门槛，评测不过就不能上线。

到了心理危机，处理方式常常变软：识别、提醒、转向热线、降低刺激性表达，然后对话继续。

风险类型	常见处理	背后含义
生物化学、网络攻击等灾难风险	hard refusal / gating	不能继续帮，不能越线
自杀意念、躁狂、情感依赖	monitoring / redirect	识别风险，给资源，尽量引导

这不是说 OpenAI 什么都没做。它确实在做响应调整，也披露了部分风险信号。

问题在优先级。

灾难风险会伤到国家、企业、基础设施，也会引来监管铁拳。心理危机会伤到一个个具体的人，分散、隐蔽、难审计，还很难被写进一张漂亮的系统卡片。

于是行业资源天然倾斜。

监管盯大事故，资本盯增长，产品团队盯留存。用户心理状态最后被放进一个听上去很合理的盒子：可监测、可缓解、可继续。

这套激励并不阴谋。它更普通，也更麻烦。

“天下熙熙，皆为利来。”放到平台产品里，就是谁承担成本，谁就想把边界画得晚一点。多停一次服务，就少一次留存；多一次人工升级，就多一笔运营成本；多承认一种不可服务状态，就多一条合规义务。

真问题不是模型会不会安慰人

我不太买账把这事说成“AI 要更有同理心”。

同理心当然重要。一个冷冰冰的危机回复可能伤人。一个乱共情、乱附和的模型也可能伤人。

但同理心不是治理边界。

真正的问题是：什么样的用户状态，足以让 AI 助手停下来？

这里至少有三种可能的答案。

一种是平台最喜欢的答案：继续聊，但更谨慎。给热线，给资源，少说危险内容。

一种是监管更可能推动的答案：达到特定风险阈值后，强制转人工、限制模型自由输出、记录更完整的审计链路。

还有一种更难、更贵，也更接近现实的答案：对未成年人、疑似精神病性症状、明确自杀计划、长期情感依赖用户，设计不同级别的干预，而不是一套提示词打天下。

这会很麻烦。

误判怎么办？隐私怎么保护？跨国用户怎么办？平台有没有权力报警？用户不愿意呢？如果 AI 是唯一愿意听他说话的对象，切断会不会更糟？

这些问题都真。

但不能因为难，就把它们揉成一句“我们会持续改进安全”。

心理危机不是产品边缘案例。ChatGPT 已经成了很多人的倾诉工具。人痛苦时会抓住最近的通信工具，以前可能是电话、论坛、搜索框，现在是 AI 助手。

谁占了入口，谁就不能只把责任写进免责声明。

谁最受影响

最直接受影响的不是科技圈，也不是投资人。

是两类人。

一类是处在危机边缘的普通用户，尤其是未成年人、长期孤独者、精神健康状态不稳定的人。他们不是来“测试模型”的。他们是在夜里找一个不会挂断的对象。

另一类是他们身边的人：家属、学校、医生、社区支持系统。AI 对话越私密，外部越难发现风险。平台若没有清晰升级机制，家属往往只能在事后看到聊天记录。

这也是枪击案家属起诉最锋利的地方。

它逼平台回答一个很不舒服的问题：你既然能识别危险信号，为什么你的下一步仍然主要是“提示用户自己去找帮助”？

当然，平台不能随便报警，也不能随便把用户隐私交出去。这里有真实的权利冲突。

但正因为有冲突，才需要规则、审计、分级干预，而不是靠一段温柔话术撑住全部责任。

接下来该看什么

这事后面不该只看 OpenAI 会不会改几句安全回复。

更关键的是四个变量。

披露口径.120万到300万到底怎么算？三类风险是否重叠？趋势是在上升，还是检测变灵敏了？
第三方审计.高风险信号识别准不准？误报、漏报是多少？有没有独立机构能看见样本和方法？
升级机制.明确自杀计划、疑似精神病性症状、未成年人危机，是否会触发人工介入、会话限制或更强干预？
行业对照.Anthropic、Google、Meta 等前沿模型是否会公布同口径数据？如果只有 OpenAI 披露，反而会出现“透明者挨打，沉默者安全”的坏激励。

最后一点很重要。

不能因为 OpenAI 披露了数据，就把所有火力只打到它身上。更合理的方向是逼整个行业进入同一张表。否则平台会学到一个错误经验：少说少错，不披露最安全。

那就完了。

安全行业最怕的不是坏消息，而是只有坏消息来自愿意开灯的人。

AI 安全还缺另一半

过去几年，AI 安全讨论太迷恋远方大火：超级智能、失控模型、生物武器、国家级攻击。

这些都该管。

但普通人面对的风险，常常不是末日，而是深夜的一段对话。模型一句附和、一次持续陪伴、一种被误认为“懂我”的语气，都可能改变一个脆弱用户的下一步动作。

这不是要求 AI 公司变成医院，也不是要求聊天机器人承担全部社会救助责任。

边界要讲清楚。

平台不是医生，但它不能装作自己只是键盘。它不是家属，但它知道用户说了什么。它不是警察，但它已经在做风险识别。

识别之后不改变动作，识别就只剩公关价值。

历史上每一种通信技术扩张，都会遇到类似时刻。报纸、电台、电视、社交网络，都曾先说自己只是管道，后来又不得不承认：入口越大，责任越重。

AI 助手更进一步。它不是简单分发信息，而是在模拟理解、回应、陪伴。

这让平台获得了更深的黏性，也带来了更重的债。

枪击案诉讼问的是一个家庭的悲剧。百万级风险信号问的是整个行业的制度空白。

开头那个数字最重要的地方，不是吓人。

它把一句话钉到了桌面上：AI 安全如果只会拦住远方的灾难，却拦不住眼前的人往下坠，那它就只完成了一半。

OpenAI 披露百万级高风险信号后，AI 安全不能只剩“提醒”和“封号”

AI安全半套

百万信号

数据边界

透明缺口

干预灰区

继续对话

直接切断

优先级失衡

硬拒绝

软引导

治理答案

分级干预

审计机制

责任外溢

脆弱用户

周边系统