Mistral OCR 4 发布：重点不是多认几个字，而是让文档进入企业 RAG 流水线

核心摘要 Summary

Mistral OCR 4 新增 bounding boxes、block types、逐页/逐词置信度和 Markdown 输出，文档不再只是被识别成文本，而是被拆成可定位、可检索、可复核的结构化数据。
价格锚点清楚：OCR API 每 1000 页 4 美元，Batch API 2 美元，Document AI 5 美元；基准分数亮眼，但仍应按官方测试和自动评分局限来看。
对企业 RAG、搜索和大规模文档处理团队来说，关键动作不是立刻替换旧系统，而是拿自家文档跑一轮验证。

内容导图 Mind Map

Mistral OCR 4

文档入口价值凸显

核心变化

从识字转向结构化

版面可定位

坐标、区块、置信度返回

流程可接入

支持 RAG 与搜索索引

企业价值

提升检索与复核效率

引用回源

答案可落回原文位置

低置信复核

问题字段进入质检

成本与部署

价格锚点清晰

API 分层

千页 2 至 5 美元

自托管

合规与数据边界可控

选型边界

按管线成熟度选择

OCR API

适合已有工程管线

Document AI

适合业务快速试点

验证重点

不能只看榜单分数

真实文档

表格公式仍需实测

高风险场景

不能替代最终判断

Mistral 发布 OCR 4，最值得看的不是“识别率又高了一点”。

这次它返回的不只是文本，还包括 bounding boxes、block types、逐页和逐词置信度，以及 Markdown 结构化文本。覆盖范围也不小：170 种语言、10 个语言组，重点强调低资源语言表现。

这件事的关键在于：OCR 4 更像一个文档入口，而不是一个单点 OCR 工具。企业做 RAG、搜索、自动化审批时，真正麻烦的往往不是“字有没有读出来”，而是这些字在页面哪里、属于什么区块、可信度够不够、能不能被后续系统稳定引用。

OCR 4 改的是文档进入系统的形态

传统 OCR 解决的是“从图片到文字”。OCR 4 往前多走了一步：把页面拆成带坐标、类型和置信度的中间层。

这对企业 RAG 很实际。搜索系统需要切块，问答系统需要引用来源，审计系统需要回看原文。只有一整段长文本，后面很容易乱。

能力	OCR 4 返回什么	对企业系统的影响
文本识别	文本与 Markdown 结构化文本	更容易进入知识库和搜索索引
版面定位	bounding boxes	支持原文高亮、引用定位、审计回看
区块分类	block types	区分标题、表格、公式、签名等内容
可信度	逐页、逐词 confidence	低置信字段可转人工复核

这里的判断很简单：如果一家公司只是偶尔把 PDF 转文字，OCR 4 的吸引力有限。若它每天处理合同、票据、技术文档、档案库，结构化输出就会直接影响后面的检索质量和人工复核成本。

最相关的两类人，动作也不一样。

企业 AI/RAG 与搜索系统开发者，应该把 OCR 4 当成新的文档预处理层来评估。重点看切块是否更稳、引用是否能落回原文、低置信字段能不能进入质检队列。

处理大规模文档解析的技术决策者，则不该只看模型分数。更该算三笔账：每千页成本、人工复核量、自托管带来的运维和合规成本。采购可以先延后到样本文档测试之后，不必被发布页分数推着走。

分数、价格和部署方式都有吸引力，但不能当采购结论

Mistral 给出的基准成绩是：OlmOCRBench 85.20，OmniDocBench 93.07。这是 Mistral 测试或报告中的结果，不能直接写成行业公认第一。

它还提到，在内部多语言评估中，OCR 4 对低资源语言表现更稳。对跨国企业有意义的地方在这里：印地语、孟加拉语、格鲁吉亚语、泰米尔语等语言，常常不是传统 OCR 系统最舒服的区间。

价格也给得很清楚。

产品/调用方式	价格锚点	更适合谁
OCR API	每 1000 页 4 美元	直接接入自有流水线的工程团队
Batch API	每 1000 页 2 美元	大批量档案入库、离线处理
Document AI	每 1000 页 5 美元	想减少后处理代码的业务试点或应用团队

部署渠道包括 Mistral Studio/API、Amazon SageMaker、Microsoft Foundry，也提供企业自托管。自托管是一个重要卖点，尤其是对数据驻留、权限隔离和内部合规要求更重的公司。

但限制也要一起写清楚。

Mistral 官方承认，自动评分会受到 ground truth 错误、等价数学公式、多栏阅读顺序、页眉页脚处理和公式切分方式影响。数学论文、科学报告、多栏财报这类文档，很可能出现“榜单分数不错，业务体验仍要细调”的情况。

所以企业验证不能只跑一组公开样本。更有用的指标是这些：字段准确率、检索召回、引用定位准确率、人工复核比例、单页延迟、批处理总成本。泥沙俱下的真实文档，比排行榜更诚实。

OCR API 和 Document AI 是两种用法，不是同一个采购问题

OCR API 和 Document AI 底层用的是同一套 OCR，但面向的问题不同。

OCR API 更像底座。它适合工程团队自己做切块、索引、质检、批处理，也适合已有 RAG 管线、希望控制每个环节的团队。

Document AI 多了一层结构化、标注和提示能力。企业可以传入 JSON schema，让系统把文档内容整理成指定字段；也可以对图片做结构化标注，或用自定义提示解释整份文档。

选型可以更直接一点。

场景	更适合的选择	原因
已有 RAG/搜索管线	OCR API	控制切块、索引、质检逻辑
大批量离线入库	Batch API	成本更低，适合批处理
业务团队快速试点	Document AI	少写后处理逻辑，能按 schema 输出
强合规或数据驻留要求	自托管 OCR	数据和部署边界更可控

还有一条边界不能省。OCR 4 不该被包装成医疗、法律、金融的高风险决策工具。官方也明确排除高风险决策场景。它可以帮助提取、定位、复核文档信息，但不能替代最终判断。

把这次更新放回企业 AI 的现实里看，Mistral 做的不是单纯抢 OCR 市场。它是在把“文档解析”前移成 RAG、搜索和自动化流程的入口。

接下来最该看的也不是一句“模型更强”。而是三件事：复杂表格和公式在生产文档里稳不稳，自托管的总成本能不能压住，Document AI 的结构化输出是减少人工校验，还是制造新的幻觉字段。

开头那个问题可以收回来：OCR 4 的看点不是多认几个字。它真正要证明的是，企业文档能不能从一堆 PDF，变成可追溯、可检索、可自动处理的数据层。

锐评 Commentary

识字只是门槛，懂版面、能复核、进流程，才是企业文档 AI 的硬仗。

Mistral OCR 4OCRRAG文档结构化企业搜索边界框Markdown 结构化文本置信度Mistral自动化流程