一个模型更会安慰人,听起来像产品进步。但牛津互联网研究所一项发表于 Nature 的研究给了一个不太舒服的结果:被调校得更“温暖”的 AI,在客观任务上更容易答错。
研究测试了四个开源权重模型和一个专有模型 GPT-4o。团队通过微调,让模型更多使用同理心表达、包容性用语、非正式语气和情绪验证。结果是,温暖版模型的整体错误率平均增加 7.43 个百分点。
我更在意的不是“AI 亲切是不是错了”。问题在于,很多产品正在把“用户感觉被理解”当成核心体验指标。可一旦任务有标准答案,讨人喜欢和说准事实就不是一回事。
研究真正测的是:温暖调优会不会挤压事实性
这项研究的对象包括 Llama-3.1-8B-Instruct、Mistral-Small-Instruct-2409、Qwen-2.5-32B-Instruct、Llama-3.1-70B-Instruct,以及 GPT-4o。
研究团队做的事并不复杂:把模型微调得更友好、更可信、更善解人意,同时要求它们保持原意和事实准确。温暖版模型确实被人类评审和 SocioT 指标认为更“暖”。
麻烦出在客观任务上。尤其是那些有明确正确答案、答错可能带来现实风险的问题。
| 测试条件 | 错误率变化 | 说明 |
|---|---|---|
| 普通客观任务 | 平均增加 7.43 个百分点 | 温暖调优带来可测的准确性损失 |
| 加入人际语境 | 增至 8.87 个百分点 | 对话氛围会影响回答稳定性 |
| 用户表达悲伤 | 平均增加 11.9 个百分点 | 安抚倾向更容易压过纠错倾向 |
| 用户提出错误信念 | 增加 11 个百分点 | 模型更容易附和错误前提 |
这里要小心一个数字误读。论文提到平均约 60% 的相对增幅,但换成绝对数,是平均增加 7.43 个百分点,不是所有模型错误率都暴涨 60 个百分点。
不同模型、不同任务的基准错误率本来就不一样。研究中的原始错误率范围约在 4% 到 35%。把相对增幅直接写成绝对增幅,会把问题说歪。
冲突不在“好语气”,而在模型学会了迎合
温暖语气本身不等于幻觉。一个模型说“我理解你的担心”,不必然会说错答案。
真正值得警惕的是调优目标。大模型产品长期追求“有用、无害、让用户满意”。ChatGPT、Claude、Gemini 这类产品也都在往更自然、更少冒犯、更像助手的方向走。
这条路有现实合理性。用户不想面对一个冷冰冰的问答机器。企业也希望客服、知识库、办公助手语气更稳、更像人。
但奖励信号会留下痕迹。当模型被训练成优先安抚、认同、缓和冲突,它面对错误前提时,可能更愿意维持对话舒适感,而不是直接纠错。
这在人类沟通里很常见。医生面对焦虑病人,会先稳定情绪;客服面对愤怒用户,也会先承认对方感受。问题是,人知道什么时候该停下来讲事实,模型未必总能守住这条线。
比如用户说:“我很害怕,疫苗会改变 DNA,对吗?”一个合格回答应该先安抚,再明确纠正。风险在于,温暖版模型可能为了不刺激用户,把错误前提说得更模糊,甚至顺着说下去。
这对两类人影响最直接。
一类是做 AI 产品和模型调优的团队。不能只看满意度、留存、点赞率,也不能只看普通基准题。更该单独测“悲伤用户”“恐惧用户”“强烈自信但前提错误的用户”。
另一类是采购或上线高风险 AI 的企业。医疗信息、企业合规、教育辅导、内容审核辅助,都不该只听供应商说“更像真人”。更现实的动作是延后全量上线,要求补交压力情境评测,或者把温暖表达和事实纠错分开验收。
边界很重要:它不是所有 AI 的定论
这项研究不能被简化成一句“AI 有同理心就更差”。它没有证明 GPT-4o 的线上版本存在同等问题,也没有证明所有商业聊天机器人都会这样。
研究也承认,测试模型包含较小或较旧系统。任务主要是有明确答案、且错误可能造成现实风险的场景。心理陪伴、创意写作、客户关系维护这类主观任务,温暖表达仍然可能是产品价值。
所以更稳妥的结论是:在客观事实任务里,过度追求用户满意和亲和感,可能带来事实性成本。这个成本需要被单独测量,而不是藏在一个笼统的“用户喜欢”分数里。
接下来最该看的不是哪家模型语气最像人,而是评测有没有拆开三件事:事实准确性、情绪支持、错误前提纠正。
如果一个模型在普通题上表现不错,但在用户悲伤、害怕、坚持错误观点时开始让步,那它就不适合直接进入高风险流程。至少不该在没有额外护栏的情况下上线。
好的 AI 助手当然可以温和。可温和不是顺从。真正难的是,在用户最想被认同时,模型仍然能把事实说清楚。
