Grok 4.3 最诱人的数字,还是 100 万上下文。

但发布后的新评测把事情往前推了一步:它不是只有“长”和“便宜”。Artificial Analysis 给出的 Intelligence Index 是 53,比 Grok 4.20 高 4 分;API 输入价格约降 40%,输出价格约降 60%。

问题也跟着来了。准确率相关指标有提升,非幻觉指标却下降 8 分。

这就很尴尬:模型看着更能干,交给它独立干活反而要更小心。

早先能看到的只是文档里的上下文、价格和参数。现在补上的信息更要命:Grok 4.3 的核心矛盾不是“贵不贵”,而是“便宜之后摔不摔”。

Grok 4.3 发生了什么:分数涨了,单价降了,风险也露出来了

把信息压短看,大概是这几条:

项目新变化对谁重要我的判断
Intelligence IndexGrok 4.3 得分 53,较 Grok 4.20 +4关注模型横向选型的团队能力进步明确,但还不是闭眼上生产
API 价格输入约降 40%,输出约降 60%高调用量应用、agent 开发者门槛下降,但总成本还要看缓存和失败重试
GDPval-AA提升 321 Elo 至 1500企业任务评测、办公流自动化说明 xAI 在真实任务上补了课
τ²-Bench Telecom达到 98%客服、工单、流程型 agent指令执行更像样,但要看真实工具链表现
非幻觉指标下降 8 分客服、代码审查、数据分析这是生产环境里最扎手的部分

Grok 4.3 的更新不是一句“更强了”能讲完。

它更像一个价格战样本:模型厂商开始把高规格上下文和更低调用单价打包卖给开发者。但企业真正买单时,账本不会只看 token 标价。

长上下文会放大一切。

上下文越长,缓存策略越重要;任务越长,工具调用越容易出错;agent 跑得越久,幻觉、误判、重复执行、权限越界的成本越高。

200K 之后,账就不是线性增长了。100 万上下文更像一条高速公路。路修好了,不代表车队调度、事故救援和收费系统也跟上了。

为什么重要:大模型选型不能再只看排行榜

Grok 4.3 的麻烦在于,它把一个行业现实摆在台面上:排行榜正在变得不够用。

分数能告诉你模型在标准题上跑得多快。生产系统要回答的是另一组问题:

  • 长任务跑到第 30 步会不会忘事;
  • 工具调用失败后能不能恢复;
  • 缓存命中率够不够稳定;
  • 幻觉出了事故,谁来复核;
  • 高并发下延迟和吞吐会不会变脸;
  • 审计日志能不能解释模型到底做过什么。

这才是企业技术负责人真正关心的表格。

对普通聊天用户来说,Grok 4.3 的非幻觉指标下降,可能只是“回答偶尔飘”。对客服、代码审查、数据分析、合规流程来说,它不是小毛病,是人工复核成本。

价低者未必便宜。

如果一个模型输出便宜 60%,但多出 20% 的人工检查、更多重试、更差的工具调用稳定性,财务表上未必好看。天下熙熙,皆为利来;模型厂商降价是为了抢工作负载,企业要算的是事故成本。

我不太买账的,是把 1M context 当成万能卖点。

长上下文当然有用。代码库检索、合同分析、多文档问答、agent 任务记忆都需要它。但它不是免死金牌。上下文窗口越大,越考验模型是否知道哪些信息该记、哪些该丢、哪些该重新查。

粗暴塞满 100 万 token,很多时候只是把“找不到答案”升级成“在一堆噪音里自信地编答案”。

DeepSeek V4 Pro 这条线,说明竞争已经换了打法

新一轮对照里,Grok 4.3 不是孤立事件。

Kimi K2.6、MiMo V2.5 Pro、DeepSeek V4 Pro 这类开源权重模型,在 Intelligence Index 上已经进入 52–54 区间。按这组评测口径,它们低于 Gemini 3.1 Pro Preview、Claude Opus 4.7 的 57,也低于 GPT-5.5 的 60,但差距不再像过去那样夸张。

DeepSeek V4 Pro 值得看,不是因为又多了一个榜单分数。

它给的是一套更贴近 agent 的系统设计:1M context、CSA/HCA attention、KV cache 降至 10%、长上下文推理 FLOPs 约降 4 倍。

这些词听着硬,其实落点很朴素:长任务要便宜一点,记忆要省一点,延迟要可控一点。

agent 真正烧钱的地方,不是单次问答。它会反复读上下文、调用工具、写状态、等外部系统、失败后重试。每一步都在吃 token、吃缓存、吃工程耐心。

所以 DeepSeek V4 Pro 的意义在于,它让开源权重模型开始从“便宜替代品”往“可控基础设施”移动。

还不能说它已经替代 Claude Code、Codex 这类成熟闭源产品。成熟产品的价值不只在模型,还在 IDE 集成、权限设计、任务恢复、体验打磨和生态默认值。

但采购和平台团队已经有理由多做一轮压测。

如果你需要私有化部署、可控权重、低成本长上下文,开源权重模型不再只是预算不足时的备胎。它开始变成谈判桌上的筹码。

真正受影响的是企业平台团队和 agent 开发者

这件事对两类人最直接。

一类是企业里的平台团队。你们现在最该做的不是立刻换模型,而是重做评测表。

旧表格里常见的是价格、上下文长度、基准分、响应速度。新表格必须加上这些列:

  • 幻觉率和非幻觉指标;
  • 长上下文下的实际成本;
  • KV cache 与缓存命中策略;
  • 工具调用成功率;
  • 任务暂停、恢复、重试能力;
  • 人工审批和审计成本;
  • 高并发下的服务稳定性。

没有这些,所谓模型选型就是看广告牌买发动机。

另一类是 agent 开发者。

Codex、Claude Code、Devin、LangGraph、Cloudflare Dynamic Workflows 这些产品和框架,都在补同一批能力:持久执行、暂停恢复、检索记忆、浏览器使用、子代理、权限隔离、人工介入。

这说明行业已经从“谁的模型更会答题”,进入“谁能把模型关进流程里干活”。

这句话不漂亮,但很关键。

模型越强,越需要笼子。权限、状态、审计、回滚,就是笼子。

铁路刚出现时,真正改变世界的不只是火车头,还有时刻表、信号系统、站台调度和事故责任。AI agent 也一样。单个模型能力再强,没有运行时治理,进企业系统就是半成品。

Grok 4.3 的价值在这里也清楚了:它给市场压低了价格,也给企业出了新题。便宜模型会让更多长任务变得可尝试,但可靠性短板会把一部分成本转移给工程团队和审核团队。

接下来只看三件事。

Grok 4.3 的低价能不能在高并发下保持服务质量。

DeepSeek V4 Pro 这类开源权重模型,能不能在真实 coding agent 和长任务里稳定跑完,而不是只在短评测里好看。

企业级 agent 平台能不能把权限、状态、人工审批做成默认能力,而不是让每个团队重造一遍轮子。

回到开头那个 100 万上下文。

它依然诱人。但现在更清楚了:窗口越大,越不能只看窗口。模型厂商卖的是能力曲线,企业买的是事故概率。中间差的那一段,才是真账。