Grok 4.3 发布：100 万上下文很香，可靠性这笔账更硬

核心摘要 Summary

Grok 4.3 不再只是文档里的参数：第三方评测给了 53 分，价格明显下调，任务型指标也在涨。
但更关键的新信息是，非幻觉指标下滑，说明它的性价比改善还不能直接换成生产可用性。
对企业和开发者来说，真正要重算的不是模型单价，而是长上下文、缓存、工具调用和人工复核的总成本。

Grok 4.3 最诱人的数字，还是 100 万上下文。

但发布后的新评测把事情往前推了一步：它不是只有“长”和“便宜”。Artificial Analysis 给出的 Intelligence Index 是 53，比 Grok 4.20 高 4 分；API 输入价格约降 40%，输出价格约降 60%。

问题也跟着来了。准确率相关指标有提升，非幻觉指标却下降 8 分。

这就很尴尬：模型看着更能干，交给它独立干活反而要更小心。

早先能看到的只是文档里的上下文、价格和参数。现在补上的信息更要命：Grok 4.3 的核心矛盾不是“贵不贵”，而是“便宜之后摔不摔”。

Grok 4.3 发生了什么：分数涨了，单价降了，风险也露出来了

把信息压短看，大概是这几条：

项目	新变化	对谁重要	我的判断
Intelligence Index	Grok 4.3 得分 53，较 Grok 4.20 +4	关注模型横向选型的团队	能力进步明确，但还不是闭眼上生产
API 价格	输入约降 40%，输出约降 60%	高调用量应用、agent 开发者	门槛下降，但总成本还要看缓存和失败重试
GDPval-AA	提升 321 Elo 至 1500	企业任务评测、办公流自动化	说明 xAI 在真实任务上补了课
τ²-Bench Telecom	达到 98%	客服、工单、流程型 agent	指令执行更像样，但要看真实工具链表现
非幻觉指标	下降 8 分	客服、代码审查、数据分析	这是生产环境里最扎手的部分

Grok 4.3 的更新不是一句“更强了”能讲完。

它更像一个价格战样本：模型厂商开始把高规格上下文和更低调用单价打包卖给开发者。但企业真正买单时，账本不会只看 token 标价。

长上下文会放大一切。

上下文越长，缓存策略越重要；任务越长，工具调用越容易出错；agent 跑得越久，幻觉、误判、重复执行、权限越界的成本越高。

200K 之后，账就不是线性增长了。100 万上下文更像一条高速公路。路修好了，不代表车队调度、事故救援和收费系统也跟上了。

为什么重要：大模型选型不能再只看排行榜

Grok 4.3 的麻烦在于，它把一个行业现实摆在台面上：排行榜正在变得不够用。

分数能告诉你模型在标准题上跑得多快。生产系统要回答的是另一组问题：

长任务跑到第 30 步会不会忘事；
工具调用失败后能不能恢复；
缓存命中率够不够稳定；
幻觉出了事故，谁来复核；
高并发下延迟和吞吐会不会变脸；
审计日志能不能解释模型到底做过什么。

这才是企业技术负责人真正关心的表格。

对普通聊天用户来说，Grok 4.3 的非幻觉指标下降，可能只是“回答偶尔飘”。对客服、代码审查、数据分析、合规流程来说，它不是小毛病，是人工复核成本。

价低者未必便宜。

如果一个模型输出便宜 60%，但多出 20% 的人工检查、更多重试、更差的工具调用稳定性，财务表上未必好看。天下熙熙，皆为利来；模型厂商降价是为了抢工作负载，企业要算的是事故成本。

我不太买账的，是把 1M context 当成万能卖点。

长上下文当然有用。代码库检索、合同分析、多文档问答、agent 任务记忆都需要它。但它不是免死金牌。上下文窗口越大，越考验模型是否知道哪些信息该记、哪些该丢、哪些该重新查。

粗暴塞满 100 万 token，很多时候只是把“找不到答案”升级成“在一堆噪音里自信地编答案”。

DeepSeek V4 Pro 这条线，说明竞争已经换了打法

新一轮对照里，Grok 4.3 不是孤立事件。

Kimi K2.6、MiMo V2.5 Pro、DeepSeek V4 Pro 这类开源权重模型，在 Intelligence Index 上已经进入 52–54 区间。按这组评测口径，它们低于 Gemini 3.1 Pro Preview、Claude Opus 4.7 的 57，也低于 GPT-5.5 的 60，但差距不再像过去那样夸张。

DeepSeek V4 Pro 值得看，不是因为又多了一个榜单分数。

它给的是一套更贴近 agent 的系统设计：1M context、CSA/HCA attention、KV cache 降至 10%、长上下文推理 FLOPs 约降 4 倍。

这些词听着硬，其实落点很朴素：长任务要便宜一点，记忆要省一点，延迟要可控一点。

agent 真正烧钱的地方，不是单次问答。它会反复读上下文、调用工具、写状态、等外部系统、失败后重试。每一步都在吃 token、吃缓存、吃工程耐心。

所以 DeepSeek V4 Pro 的意义在于，它让开源权重模型开始从“便宜替代品”往“可控基础设施”移动。

还不能说它已经替代 Claude Code、Codex 这类成熟闭源产品。成熟产品的价值不只在模型，还在 IDE 集成、权限设计、任务恢复、体验打磨和生态默认值。

但采购和平台团队已经有理由多做一轮压测。

如果你需要私有化部署、可控权重、低成本长上下文，开源权重模型不再只是预算不足时的备胎。它开始变成谈判桌上的筹码。

真正受影响的是企业平台团队和 agent 开发者

这件事对两类人最直接。

一类是企业里的平台团队。你们现在最该做的不是立刻换模型，而是重做评测表。

旧表格里常见的是价格、上下文长度、基准分、响应速度。新表格必须加上这些列：

幻觉率和非幻觉指标；
长上下文下的实际成本；
KV cache 与缓存命中策略；
工具调用成功率；
任务暂停、恢复、重试能力；
人工审批和审计成本；
高并发下的服务稳定性。

没有这些，所谓模型选型就是看广告牌买发动机。

另一类是 agent 开发者。

Codex、Claude Code、Devin、LangGraph、Cloudflare Dynamic Workflows 这些产品和框架，都在补同一批能力：持久执行、暂停恢复、检索记忆、浏览器使用、子代理、权限隔离、人工介入。

这说明行业已经从“谁的模型更会答题”，进入“谁能把模型关进流程里干活”。

这句话不漂亮，但很关键。

模型越强，越需要笼子。权限、状态、审计、回滚，就是笼子。

铁路刚出现时，真正改变世界的不只是火车头，还有时刻表、信号系统、站台调度和事故责任。AI agent 也一样。单个模型能力再强，没有运行时治理，进企业系统就是半成品。

Grok 4.3 的价值在这里也清楚了：它给市场压低了价格，也给企业出了新题。便宜模型会让更多长任务变得可尝试，但可靠性短板会把一部分成本转移给工程团队和审核团队。

接下来只看三件事。

Grok 4.3 的低价能不能在高并发下保持服务质量。

DeepSeek V4 Pro 这类开源权重模型，能不能在真实 coding agent 和长任务里稳定跑完，而不是只在短评测里好看。

企业级 agent 平台能不能把权限、状态、人工审批做成默认能力，而不是让每个团队重造一遍轮子。

回到开头那个 100 万上下文。

它依然诱人。但现在更清楚了：窗口越大，越不能只看窗口。模型厂商卖的是能力曲线，企业买的是事故概率。中间差的那一段，才是真账。

Grok 4.3 发布：100 万上下文很香，可靠性这笔账更硬

Grok 4.3

能力涨价降

1M 上下文

价格下调

可靠性短板

生产风险

长链放大

成本重算

缓存与重试

人工复核

竞争换挡

DeepSeek 线

闭源优势

选型升级

平台团队

Agent 开发

Grok 4.3 发生了什么：分数涨了，单价降了，风险也露出来了

为什么重要：大模型选型不能再只看排行榜

DeepSeek V4 Pro 这条线，说明竞争已经换了打法

真正受影响的是企业平台团队和 agent 开发者