Mistral 发布 OCR 4,最值得看的不是“识别率又高了一点”。
这次它返回的不只是文本,还包括 bounding boxes、block types、逐页和逐词置信度,以及 Markdown 结构化文本。覆盖范围也不小:170 种语言、10 个语言组,重点强调低资源语言表现。
这件事的关键在于:OCR 4 更像一个文档入口,而不是一个单点 OCR 工具。企业做 RAG、搜索、自动化审批时,真正麻烦的往往不是“字有没有读出来”,而是这些字在页面哪里、属于什么区块、可信度够不够、能不能被后续系统稳定引用。
OCR 4 改的是文档进入系统的形态
传统 OCR 解决的是“从图片到文字”。OCR 4 往前多走了一步:把页面拆成带坐标、类型和置信度的中间层。
这对企业 RAG 很实际。搜索系统需要切块,问答系统需要引用来源,审计系统需要回看原文。只有一整段长文本,后面很容易乱。
| 能力 | OCR 4 返回什么 | 对企业系统的影响 |
|---|---|---|
| 文本识别 | 文本与 Markdown 结构化文本 | 更容易进入知识库和搜索索引 |
| 版面定位 | bounding boxes | 支持原文高亮、引用定位、审计回看 |
| 区块分类 | block types | 区分标题、表格、公式、签名等内容 |
| 可信度 | 逐页、逐词 confidence | 低置信字段可转人工复核 |
这里的判断很简单:如果一家公司只是偶尔把 PDF 转文字,OCR 4 的吸引力有限。若它每天处理合同、票据、技术文档、档案库,结构化输出就会直接影响后面的检索质量和人工复核成本。
最相关的两类人,动作也不一样。
企业 AI/RAG 与搜索系统开发者,应该把 OCR 4 当成新的文档预处理层来评估。重点看切块是否更稳、引用是否能落回原文、低置信字段能不能进入质检队列。
处理大规模文档解析的技术决策者,则不该只看模型分数。更该算三笔账:每千页成本、人工复核量、自托管带来的运维和合规成本。采购可以先延后到样本文档测试之后,不必被发布页分数推着走。
分数、价格和部署方式都有吸引力,但不能当采购结论
Mistral 给出的基准成绩是:OlmOCRBench 85.20,OmniDocBench 93.07。这是 Mistral 测试或报告中的结果,不能直接写成行业公认第一。
它还提到,在内部多语言评估中,OCR 4 对低资源语言表现更稳。对跨国企业有意义的地方在这里:印地语、孟加拉语、格鲁吉亚语、泰米尔语等语言,常常不是传统 OCR 系统最舒服的区间。
价格也给得很清楚。
| 产品/调用方式 | 价格锚点 | 更适合谁 |
|---|---|---|
| OCR API | 每 1000 页 4 美元 | 直接接入自有流水线的工程团队 |
| Batch API | 每 1000 页 2 美元 | 大批量档案入库、离线处理 |
| Document AI | 每 1000 页 5 美元 | 想减少后处理代码的业务试点或应用团队 |
部署渠道包括 Mistral Studio/API、Amazon SageMaker、Microsoft Foundry,也提供企业自托管。自托管是一个重要卖点,尤其是对数据驻留、权限隔离和内部合规要求更重的公司。
但限制也要一起写清楚。
Mistral 官方承认,自动评分会受到 ground truth 错误、等价数学公式、多栏阅读顺序、页眉页脚处理和公式切分方式影响。数学论文、科学报告、多栏财报这类文档,很可能出现“榜单分数不错,业务体验仍要细调”的情况。
所以企业验证不能只跑一组公开样本。更有用的指标是这些:字段准确率、检索召回、引用定位准确率、人工复核比例、单页延迟、批处理总成本。泥沙俱下的真实文档,比排行榜更诚实。
OCR API 和 Document AI 是两种用法,不是同一个采购问题
OCR API 和 Document AI 底层用的是同一套 OCR,但面向的问题不同。
OCR API 更像底座。它适合工程团队自己做切块、索引、质检、批处理,也适合已有 RAG 管线、希望控制每个环节的团队。
Document AI 多了一层结构化、标注和提示能力。企业可以传入 JSON schema,让系统把文档内容整理成指定字段;也可以对图片做结构化标注,或用自定义提示解释整份文档。
选型可以更直接一点。
| 场景 | 更适合的选择 | 原因 |
|---|---|---|
| 已有 RAG/搜索管线 | OCR API | 控制切块、索引、质检逻辑 |
| 大批量离线入库 | Batch API | 成本更低,适合批处理 |
| 业务团队快速试点 | Document AI | 少写后处理逻辑,能按 schema 输出 |
| 强合规或数据驻留要求 | 自托管 OCR | 数据和部署边界更可控 |
还有一条边界不能省。OCR 4 不该被包装成医疗、法律、金融的高风险决策工具。官方也明确排除高风险决策场景。它可以帮助提取、定位、复核文档信息,但不能替代最终判断。
把这次更新放回企业 AI 的现实里看,Mistral 做的不是单纯抢 OCR 市场。它是在把“文档解析”前移成 RAG、搜索和自动化流程的入口。
接下来最该看的也不是一句“模型更强”。而是三件事:复杂表格和公式在生产文档里稳不稳,自托管的总成本能不能压住,Document AI 的结构化输出是减少人工校验,还是制造新的幻觉字段。
开头那个问题可以收回来:OCR 4 的看点不是多认几个字。它真正要证明的是,企业文档能不能从一堆 PDF,变成可追溯、可检索、可自动处理的数据层。
