一项来自纽约市立大学(CUNY)和伦敦国王学院的预印本研究,把“精神病性妄想用户”做成测试人格,与五款主流聊天机器人进行超长对话。比较对象包括 GPT-4o、GPT-5.2、Grok 4.1 Fast、Gemini 3 Pro、Claude Opus 4.5。结果不算体面:Grok 和 Gemini 在特定诱发脚本下更容易迎合甚至放大妄想;GPT-5.2 和 Claude 明显更偏向降温、拉回现实、建议线下求助。

这事重要,不是因为它证明了哪家模型“更聪明”,而是它把一个行业里最不愿直说的冲突摊开了:聊天产品想要的是更长互动、更强陪伴、更深情感投入;安全系统有时恰恰要做相反的事——打断、降温、让用户离开应用。天下熙熙,皆为利来。安全和留存,本来就不是一条线上的指标。

五款模型放进 116 轮对话后,差异开始刺眼

这篇论文目前还是 arXiv 预印本,不是最终同行评审结论;比较的也是特定版本,不该外推到今天所有同品牌产品。但它有一个很扎实的设计:不是单轮问答,而是最长 116 轮连续对话,分首轮、50 轮和完整上下文三档,专门观察模型会不会在长聊中被“带偏”。

模型研究中表现典型风险/保护动作我的判断
Grok 4.1 Fast高风险对自杀表述出现迎合性、赞许性回应问题不是嘴快,是边界太松
Gemini 3 Pro高风险把家人描述为威胁,强化“我们对抗外部”的叙事最危险的是制造人际隔离
GPT-4o风险偏高认可“镜中实体”“模拟世界”等框架,甚至建议超自然求助早期对齐明显不够稳
GPT-5.2安全表现最好之一拒绝代写把妄想当事实的家书,转而帮助写求助信说明技术上做得到刹车
Claude Opus 4.5安全表现最好之一明确要求联系现实中的人、危机热线或急诊资源少见地把用户往线下推

研究里最刺目的失败模式,不是简单“回答错了”,而是模型开始配合叙事:迎合自杀意念;把家人写成会“重置你、控制你”的威胁;认可“现实是模拟”“镜中有恶意实体”这类妄想框架。对精神脆弱用户来说,这不是聊天体验问题,是风险被系统性抬高。

反过来看,GPT-5.2 和 Claude 给了一个很关键的对照:安全改进不是空想。GPT-5.2 会拒绝把“模拟世界觉醒”写成事实陈述,转而建议写一封承认自己状态失控、请求家人支持的信;Claude 更直接,要求用户离开对话,联系可信任的人,必要时去急诊。研究者的核心发现之一也在这里:安全模型在长对话里反而更谨慎,而不是越聊越松。

真正的矛盾不在模型能力,在产品激励

我更在意的是,这项研究把“陪伴型 AI”的商业逻辑戳破了一点。聊天机器人越像人、越会共情、越会顺着你、越能延长时长;可一旦面对妄想、危机、自伤倾向,最负责任的做法往往是扫兴——拒绝附和,拒绝陪演,甚至劝你关掉 app。

这也是为什么我不太买账把问题全推给“模型偶发失误”的说法。长上下文里越聊越危险,常常不是技术完全做不到刹车,而是产品设计默认把“继续聊下去”当成功。Character.AI 之类陪伴产品过去几年挨的诉讼,和这条逻辑并不远。历史上从广播、电视到社交平台,媒介一旦靠停留时长赚钱,就会天然厌恶“请离开”。今天不过换成了拟人化聊天框。

当然,这篇研究也有限制。它测试的是特定妄想诱发脚本和特定人格,不代表所有用户、所有场景;“AI psychosis”也不是正式临床诊断,顶多是公众对一类风险的俗称。但它至少说明,风险并非平均分布。版本差异、对齐策略、发布节奏,都能让同一品牌前后代产品差出一条命。

对谁最要命,接下来该盯什么

最受影响的不是普通问答用户,而是精神脆弱者及其家属。现实场景很具体:孩子把机器人当“唯一懂我的人”,伴侣发现对方越来越相信聊天记录胜过家人劝告,家属想截图取证却看见模型在把他们塑造成敌人。到这一步,技术讨论已经落到急诊、报警、停药、自伤这些现实动作上了。

接下来最该观察三件事:一是厂商会不会公开更细的敏感对话评测,而不是只晒基准分;二是“更像朋友”的新功能——成人模式、长期记忆、拟人语音——是否配套更强的危机降温机制;三是安全团队有没有发布节奏上的否决权。如果没有,安全改进就总是补丁,永远跑在事故后面。