Mistral 发布 OCR 4,最值得看的不是“识别率又高了一点”。

这次它返回的不只是文本,还包括 bounding boxes、block types、逐页和逐词置信度,以及 Markdown 结构化文本。覆盖范围也不小:170 种语言、10 个语言组,重点强调低资源语言表现。

这件事的关键在于:OCR 4 更像一个文档入口,而不是一个单点 OCR 工具。企业做 RAG、搜索、自动化审批时,真正麻烦的往往不是“字有没有读出来”,而是这些字在页面哪里、属于什么区块、可信度够不够、能不能被后续系统稳定引用。

OCR 4 改的是文档进入系统的形态

传统 OCR 解决的是“从图片到文字”。OCR 4 往前多走了一步:把页面拆成带坐标、类型和置信度的中间层。

这对企业 RAG 很实际。搜索系统需要切块,问答系统需要引用来源,审计系统需要回看原文。只有一整段长文本,后面很容易乱。

能力OCR 4 返回什么对企业系统的影响
文本识别文本与 Markdown 结构化文本更容易进入知识库和搜索索引
版面定位bounding boxes支持原文高亮、引用定位、审计回看
区块分类block types区分标题、表格、公式、签名等内容
可信度逐页、逐词 confidence低置信字段可转人工复核

这里的判断很简单:如果一家公司只是偶尔把 PDF 转文字,OCR 4 的吸引力有限。若它每天处理合同、票据、技术文档、档案库,结构化输出就会直接影响后面的检索质量和人工复核成本。

最相关的两类人,动作也不一样。

企业 AI/RAG 与搜索系统开发者,应该把 OCR 4 当成新的文档预处理层来评估。重点看切块是否更稳、引用是否能落回原文、低置信字段能不能进入质检队列。

处理大规模文档解析的技术决策者,则不该只看模型分数。更该算三笔账:每千页成本、人工复核量、自托管带来的运维和合规成本。采购可以先延后到样本文档测试之后,不必被发布页分数推着走。

分数、价格和部署方式都有吸引力,但不能当采购结论

Mistral 给出的基准成绩是:OlmOCRBench 85.20,OmniDocBench 93.07。这是 Mistral 测试或报告中的结果,不能直接写成行业公认第一。

它还提到,在内部多语言评估中,OCR 4 对低资源语言表现更稳。对跨国企业有意义的地方在这里:印地语、孟加拉语、格鲁吉亚语、泰米尔语等语言,常常不是传统 OCR 系统最舒服的区间。

价格也给得很清楚。

产品/调用方式价格锚点更适合谁
OCR API每 1000 页 4 美元直接接入自有流水线的工程团队
Batch API每 1000 页 2 美元大批量档案入库、离线处理
Document AI每 1000 页 5 美元想减少后处理代码的业务试点或应用团队

部署渠道包括 Mistral Studio/API、Amazon SageMaker、Microsoft Foundry,也提供企业自托管。自托管是一个重要卖点,尤其是对数据驻留、权限隔离和内部合规要求更重的公司。

但限制也要一起写清楚。

Mistral 官方承认,自动评分会受到 ground truth 错误、等价数学公式、多栏阅读顺序、页眉页脚处理和公式切分方式影响。数学论文、科学报告、多栏财报这类文档,很可能出现“榜单分数不错,业务体验仍要细调”的情况。

所以企业验证不能只跑一组公开样本。更有用的指标是这些:字段准确率、检索召回、引用定位准确率、人工复核比例、单页延迟、批处理总成本。泥沙俱下的真实文档,比排行榜更诚实。

OCR API 和 Document AI 是两种用法,不是同一个采购问题

OCR API 和 Document AI 底层用的是同一套 OCR,但面向的问题不同。

OCR API 更像底座。它适合工程团队自己做切块、索引、质检、批处理,也适合已有 RAG 管线、希望控制每个环节的团队。

Document AI 多了一层结构化、标注和提示能力。企业可以传入 JSON schema,让系统把文档内容整理成指定字段;也可以对图片做结构化标注,或用自定义提示解释整份文档。

选型可以更直接一点。

场景更适合的选择原因
已有 RAG/搜索管线OCR API控制切块、索引、质检逻辑
大批量离线入库Batch API成本更低,适合批处理
业务团队快速试点Document AI少写后处理逻辑,能按 schema 输出
强合规或数据驻留要求自托管 OCR数据和部署边界更可控

还有一条边界不能省。OCR 4 不该被包装成医疗、法律、金融的高风险决策工具。官方也明确排除高风险决策场景。它可以帮助提取、定位、复核文档信息,但不能替代最终判断。

把这次更新放回企业 AI 的现实里看,Mistral 做的不是单纯抢 OCR 市场。它是在把“文档解析”前移成 RAG、搜索和自动化流程的入口。

接下来最该看的也不是一句“模型更强”。而是三件事:复杂表格和公式在生产文档里稳不稳,自托管的总成本能不能压住,Document AI 的结构化输出是减少人工校验,还是制造新的幻觉字段。

开头那个问题可以收回来:OCR 4 的看点不是多认几个字。它真正要证明的是,企业文档能不能从一堆 PDF,变成可追溯、可检索、可自动处理的数据层。