Lenz Research 做了一个很刺眼的测试:1000 条真实用户提交的事实核查请求,交给 5 个前沿大模型打标签。
结果不是“谁赢了”。真正扎人的数字是:67% 的 claims 上,至少有一个模型和多数意见不一致,或者根本没有多数意见。
这不能读成 67% 错误率。研究没有外部真值标签,多数意见也不是 ground truth。它说明的是另一件事:到了真实事实判断场景,前沿大模型并不像排行榜上那样可以互相替换。
分歧集中在中间标签,不在两端
这次测试的模型是 GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro + Search、Sonar Pro。
标签只有四个:True / Mostly True / Misleading / False。
样本来自 Lenz 平台近期真实用户提交,并经过 atomic_claim 规范化。也就是把原始说法改写成中性、可验证的单一命题。Lenz 自己的 verdict 没参与评分。
| 指标 | 结果 | 该怎么读 |
|---|---|---|
| 任一分歧 | 67% | 至少一个模型没跟多数走,或无多数 |
| 至少两个模型偏离 | 45% | 分歧不是偶发噪音 |
| 无多数 | 13% | 五个模型可能拆成 2-2-1、2-1-1-1 |
| Krippendorff’s α | 0.639 | 有一致性,但不够当同一把尺 |
| 跨 2 桶以上分歧 | 34% | 已经不是措辞差异,而是 verdict 冲突 |
最关键的不是 67%。是分歧出现的位置。
模型在 True 和 False 两端更容易一致。到了 Mostly True 和 Misleading,中间地带几乎散开。
328 个五模型全一致样本里,Mostly True 是 0 个,Misleading 只有 4 个。多数全一致样本落在 True 或 False。
这很符合事实核查的真实难点。彻底真、彻底假,反而容易处理。难的是“基本属实但少了条件”“事实没错但表达误导”“数据是真的但结论跳了半步”。
人类编辑室会在这里吵。模型也在这里裂。
排行榜分数,不能替代事实裁判能力
我更在意的不是哪个模型更强,而是这 5 个前沿模型能不能在真实事实判断里稳定扮演裁判。
目前看,不能直接当。
很多团队把大模型接进内容审核、搜索摘要、客服问答、合规初筛。理由很现实:模型强,便宜,快,还能批量跑。
但事实核查不是选择题肌肉秀。它考的是证据、语境和标签边界。
True / False 是硬门槛。Mostly True / Misleading 是治理问题。
一个政治说法少了时间范围,一个健康建议偷换了适用人群,一个金融判断省略了风险条件。模型如果把这些都压成两端答案,会显得干脆。干脆不等于可靠。
检索也不是万能药。
Gemini 3 Pro 和 Gemini 3 Pro + Search 的两两一致率最高,75%。这不奇怪,它们共享底座。但这不能推出“加搜索就更可靠”。
搜索能补证据,不会自动补判断标准。证据摆在面前,模型仍要决定:哪些上下文关键,哪些省略构成误导,哪些说法只能给 Mostly True,不能给 True。
这里可以拿报业做一个短对照。早期报业扩张时,速度、版面、发行量都在进步,但最贵的仍是编辑判断。不是编辑有多神秘,而是事实从来不只是一枚钉子,还要看它钉在哪里。
今天的大模型也一样。技术放大了处理规模,治理成本不会凭空消失。天下熙熙,皆为利来;平台最想省的,往往正是最难省的那一环。
真正受影响的,是把模型接进流程的人
普通用户要记住一件事:同一个 claim,换个模型,可能得到不同 verdict。不要把“模型说了”当成“事实落槌”。
更需要调整动作的是产品和技术团队,尤其是做内容审核、搜索问答、合规初筛的人。
如果正在采购或迁移事实核查能力,不该只看单模型 demo。至少要加三类测试:
| 场景 | 不该只看 | 更该补测 |
|---|---|---|
| 内容审核 | 单模型结论是否快 | 灰区标签一致性、申诉后复核、人工介入阈值 |
| 搜索问答 | 答案是否像结论 | 证据链、时间锚点、不确定性表达 |
| 合规初筛 | 多数投票结果 | 少数意见触发机制、标签边界说明、审计记录 |
最现实的动作很简单:高风险场景先别急着全自动化。
采购可以延后到灰区测试完成。团队迁移不要只看排行榜和供应商样例。已经上线的系统,要把 Mostly True / Misleading 单独拉出来复盘,而不是混在总体准确率里看。
总体指标会掩盖问题。灰区指标才会暴露系统脾气。
这项研究也有边界。
样本来自 Lenz 平台,不代表所有事实核查场景。claims 经过规范化,不是用户原文。研究测的是标签一致性,不等于真实正确率。多数意见可能错,少数模型也可能对。
这些限制很重要。它们防止我们把研究读过头。
但限制没有削弱主结论:即便输入被整理成中性命题,即便只给四个标签,即便请来前沿模型,灰区事实判断仍会系统性碎裂。
接下来最该观察的不是“谁的总分更高”。而是三件事:
- 灰区标签能不能稳定复现;
- 检索增强能不能提升判断一致性,而不只是提升引用数量;
- 产品流程有没有把少数意见、不确定性和人工复核留出来。
模型看着更强,流程反而更不能偷懒。排行榜测的是擂台,事实核查发生在泥地里。
