5 个前沿大模型做事实核查：67% 出现分歧，最不稳的是灰区判断

核心摘要 Summary

Lenz Research 用 1000 条真实用户事实核查请求测试 5 个前沿大模型，67% 的 claims 至少有一个模型与多数意见不一致，34% 出现跨两个以上标签的实质分歧。
这个数字不是错误率，因为研究没有外部真值标签；它更像一个提醒：前沿模型还不能被当成可互换的事实裁判。
最该谨慎的是内容审核、搜索问答和合规初筛团队，尤其不要把多数投票包装成真值。

Lenz Research 做了一个很刺眼的测试：1000 条真实用户提交的事实核查请求，交给 5 个前沿大模型打标签。

结果不是“谁赢了”。真正扎人的数字是：67% 的 claims 上，至少有一个模型和多数意见不一致，或者根本没有多数意见。

这不能读成 67% 错误率。研究没有外部真值标签，多数意见也不是 ground truth。它说明的是另一件事：到了真实事实判断场景，前沿大模型并不像排行榜上那样可以互相替换。

分歧集中在中间标签，不在两端

这次测试的模型是 GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro + Search、Sonar Pro。

标签只有四个：True / Mostly True / Misleading / False。

样本来自 Lenz 平台近期真实用户提交，并经过 atomic_claim 规范化。也就是把原始说法改写成中性、可验证的单一命题。Lenz 自己的 verdict 没参与评分。

指标	结果	该怎么读
任一分歧	67%	至少一个模型没跟多数走，或无多数
至少两个模型偏离	45%	分歧不是偶发噪音
无多数	13%	五个模型可能拆成 2-2-1、2-1-1-1
Krippendorff’s α	0.639	有一致性，但不够当同一把尺
跨 2 桶以上分歧	34%	已经不是措辞差异，而是 verdict 冲突

最关键的不是 67%。是分歧出现的位置。

模型在 True 和 False 两端更容易一致。到了 Mostly True 和 Misleading，中间地带几乎散开。

328 个五模型全一致样本里，Mostly True 是 0 个，Misleading 只有 4 个。多数全一致样本落在 True 或 False。

这很符合事实核查的真实难点。彻底真、彻底假，反而容易处理。难的是“基本属实但少了条件”“事实没错但表达误导”“数据是真的但结论跳了半步”。

人类编辑室会在这里吵。模型也在这里裂。

排行榜分数，不能替代事实裁判能力

我更在意的不是哪个模型更强，而是这 5 个前沿模型能不能在真实事实判断里稳定扮演裁判。

目前看，不能直接当。

很多团队把大模型接进内容审核、搜索摘要、客服问答、合规初筛。理由很现实：模型强，便宜，快，还能批量跑。

但事实核查不是选择题肌肉秀。它考的是证据、语境和标签边界。

True / False 是硬门槛。Mostly True / Misleading 是治理问题。

一个政治说法少了时间范围，一个健康建议偷换了适用人群，一个金融判断省略了风险条件。模型如果把这些都压成两端答案，会显得干脆。干脆不等于可靠。

检索也不是万能药。

Gemini 3 Pro 和 Gemini 3 Pro + Search 的两两一致率最高，75%。这不奇怪，它们共享底座。但这不能推出“加搜索就更可靠”。

搜索能补证据，不会自动补判断标准。证据摆在面前，模型仍要决定：哪些上下文关键，哪些省略构成误导，哪些说法只能给 Mostly True，不能给 True。

这里可以拿报业做一个短对照。早期报业扩张时，速度、版面、发行量都在进步，但最贵的仍是编辑判断。不是编辑有多神秘，而是事实从来不只是一枚钉子，还要看它钉在哪里。

今天的大模型也一样。技术放大了处理规模，治理成本不会凭空消失。天下熙熙，皆为利来；平台最想省的，往往正是最难省的那一环。

真正受影响的，是把模型接进流程的人

普通用户要记住一件事：同一个 claim，换个模型，可能得到不同 verdict。不要把“模型说了”当成“事实落槌”。

更需要调整动作的是产品和技术团队，尤其是做内容审核、搜索问答、合规初筛的人。

如果正在采购或迁移事实核查能力，不该只看单模型 demo。至少要加三类测试：

场景	不该只看	更该补测
内容审核	单模型结论是否快	灰区标签一致性、申诉后复核、人工介入阈值
搜索问答	答案是否像结论	证据链、时间锚点、不确定性表达
合规初筛	多数投票结果	少数意见触发机制、标签边界说明、审计记录

最现实的动作很简单：高风险场景先别急着全自动化。

采购可以延后到灰区测试完成。团队迁移不要只看排行榜和供应商样例。已经上线的系统，要把 Mostly True / Misleading 单独拉出来复盘，而不是混在总体准确率里看。

总体指标会掩盖问题。灰区指标才会暴露系统脾气。

这项研究也有边界。

样本来自 Lenz 平台，不代表所有事实核查场景。claims 经过规范化，不是用户原文。研究测的是标签一致性，不等于真实正确率。多数意见可能错，少数模型也可能对。

这些限制很重要。它们防止我们把研究读过头。

但限制没有削弱主结论：即便输入被整理成中性命题，即便只给四个标签，即便请来前沿模型，灰区事实判断仍会系统性碎裂。

接下来最该观察的不是“谁的总分更高”。而是三件事：

灰区标签能不能稳定复现；
检索增强能不能提升判断一致性，而不只是提升引用数量；
产品流程有没有把少数意见、不确定性和人工复核留出来。

模型看着更强，流程反而更不能偷懒。排行榜测的是擂台，事实核查发生在泥地里。

5 个前沿大模型做事实核查：67% 出现分歧，最不稳的是灰区判断

模型核查

测试结果

非错误率

实质冲突

灰区失稳

两端稳定

边界模糊

裁判风险

搜索有限

多数投票

流程影响

重点场景

复核机制

分歧集中在中间标签，不在两端

排行榜分数，不能替代事实裁判能力

真正受影响的，是把模型接进流程的人