Lenz Research 做了一个很刺眼的测试:1000 条真实用户提交的事实核查请求,交给 5 个前沿大模型打标签。

结果不是“谁赢了”。真正扎人的数字是:67% 的 claims 上,至少有一个模型和多数意见不一致,或者根本没有多数意见。

这不能读成 67% 错误率。研究没有外部真值标签,多数意见也不是 ground truth。它说明的是另一件事:到了真实事实判断场景,前沿大模型并不像排行榜上那样可以互相替换。

分歧集中在中间标签,不在两端

这次测试的模型是 GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro + Search、Sonar Pro。

标签只有四个:True / Mostly True / Misleading / False。

样本来自 Lenz 平台近期真实用户提交,并经过 atomic_claim 规范化。也就是把原始说法改写成中性、可验证的单一命题。Lenz 自己的 verdict 没参与评分。

指标结果该怎么读
任一分歧67%至少一个模型没跟多数走,或无多数
至少两个模型偏离45%分歧不是偶发噪音
无多数13%五个模型可能拆成 2-2-1、2-1-1-1
Krippendorff’s α0.639有一致性,但不够当同一把尺
跨 2 桶以上分歧34%已经不是措辞差异,而是 verdict 冲突

最关键的不是 67%。是分歧出现的位置。

模型在 True 和 False 两端更容易一致。到了 Mostly True 和 Misleading,中间地带几乎散开。

328 个五模型全一致样本里,Mostly True 是 0 个,Misleading 只有 4 个。多数全一致样本落在 True 或 False。

这很符合事实核查的真实难点。彻底真、彻底假,反而容易处理。难的是“基本属实但少了条件”“事实没错但表达误导”“数据是真的但结论跳了半步”。

人类编辑室会在这里吵。模型也在这里裂。

排行榜分数,不能替代事实裁判能力

我更在意的不是哪个模型更强,而是这 5 个前沿模型能不能在真实事实判断里稳定扮演裁判。

目前看,不能直接当。

很多团队把大模型接进内容审核、搜索摘要、客服问答、合规初筛。理由很现实:模型强,便宜,快,还能批量跑。

但事实核查不是选择题肌肉秀。它考的是证据、语境和标签边界。

True / False 是硬门槛。Mostly True / Misleading 是治理问题。

一个政治说法少了时间范围,一个健康建议偷换了适用人群,一个金融判断省略了风险条件。模型如果把这些都压成两端答案,会显得干脆。干脆不等于可靠。

检索也不是万能药。

Gemini 3 Pro 和 Gemini 3 Pro + Search 的两两一致率最高,75%。这不奇怪,它们共享底座。但这不能推出“加搜索就更可靠”。

搜索能补证据,不会自动补判断标准。证据摆在面前,模型仍要决定:哪些上下文关键,哪些省略构成误导,哪些说法只能给 Mostly True,不能给 True。

这里可以拿报业做一个短对照。早期报业扩张时,速度、版面、发行量都在进步,但最贵的仍是编辑判断。不是编辑有多神秘,而是事实从来不只是一枚钉子,还要看它钉在哪里。

今天的大模型也一样。技术放大了处理规模,治理成本不会凭空消失。天下熙熙,皆为利来;平台最想省的,往往正是最难省的那一环。

真正受影响的,是把模型接进流程的人

普通用户要记住一件事:同一个 claim,换个模型,可能得到不同 verdict。不要把“模型说了”当成“事实落槌”。

更需要调整动作的是产品和技术团队,尤其是做内容审核、搜索问答、合规初筛的人。

如果正在采购或迁移事实核查能力,不该只看单模型 demo。至少要加三类测试:

场景不该只看更该补测
内容审核单模型结论是否快灰区标签一致性、申诉后复核、人工介入阈值
搜索问答答案是否像结论证据链、时间锚点、不确定性表达
合规初筛多数投票结果少数意见触发机制、标签边界说明、审计记录

最现实的动作很简单:高风险场景先别急着全自动化。

采购可以延后到灰区测试完成。团队迁移不要只看排行榜和供应商样例。已经上线的系统,要把 Mostly True / Misleading 单独拉出来复盘,而不是混在总体准确率里看。

总体指标会掩盖问题。灰区指标才会暴露系统脾气。

这项研究也有边界。

样本来自 Lenz 平台,不代表所有事实核查场景。claims 经过规范化,不是用户原文。研究测的是标签一致性,不等于真实正确率。多数意见可能错,少数模型也可能对。

这些限制很重要。它们防止我们把研究读过头。

但限制没有削弱主结论:即便输入被整理成中性命题,即便只给四个标签,即便请来前沿模型,灰区事实判断仍会系统性碎裂。

接下来最该观察的不是“谁的总分更高”。而是三件事:

  • 灰区标签能不能稳定复现;
  • 检索增强能不能提升判断一致性,而不只是提升引用数量;
  • 产品流程有没有把少数意见、不确定性和人工复核留出来。

模型看着更强,流程反而更不能偷懒。排行榜测的是擂台,事实核查发生在泥地里。