AI 编程换战场：模型还在台前，入口已经往后挪

核心摘要 Summary

OpenAI、VS Code、Cursor、LangChain 同一天给出相近信号：编码智能体正在从“会写代码”走向“有上下文、有运行时、有评测、有部署入口”。
真正的分水岭不再只看模型榜单，而是看谁能控制 harness、工具编排和工作流入口。
对技术团队来说，接下来要少问一点“哪个模型最强”，多问“上下文、评测、部署和成本被谁锁住”。

一个安静日子里，AI 编程工具集体往后退了一步。

不是退场，而是从屏幕里的补全、聊天、改代码，退到更底层的位置：上下文、运行时、评测、部署入口。台前还是模型，真正开始抢的，是开发流程的控制权。

OpenAI 把 Codex 往研究、表格、决策跟踪等知识工作扩；VS Code 补语义索引、跨仓搜索和 agent 评测；Cursor 放出 SDK；LangChain 继续把 harness、eval、deploy 做成工程体系。

这几件事分开看都不炸。连起来看，味道很重：AI 编程不再只是“谁更会写代码”，而是“谁能让智能体稳定干活”。

发生了什么：几家公司都在补智能体底座

这一天的更新，主线很清楚。模型能力还重要，但各家都在把能力落到更可控的工作流里。

项目	这次变化	我会怎么读	限制条件
OpenAI Codex	扩到研究、表格、决策跟踪等知识工作；给符合条件的 Business/Enterprise 客户提供到 6 月底的 0 美元 Codex-only seats	OpenAI 在测试更宽的工作入口，不只是写代码	不是永久免费，也不是面向所有用户；也不能说 Codex 已经变成完整办公平台
Responses API	WebSocket mode 让 agentic workflows 最高快 40%	收益来自保持状态、减少重复工具调用，是 agent-loop 系统工程	不能简单归因于模型本身变强
VS Code	增加语义索引、跨仓搜索、chat session insights、prompt/agent evaluation	IDE 在补智能体底座，避免只当模型调用壳	落地效果取决于真实项目里的索引、权限和评测质量
Cursor SDK	开放 runtime、harness、models，可用于 CI/CD、自动化、产品内嵌 agents	Cursor 在释放从 AI IDE 走向可编程智能体基础设施的信号	还不能直接说商业模式已经全面转向 usage-based
Agentic Harness Engineering	Terminal-Bench 2 pass@1 从 69.7% 到 77.0%；SWE-bench Verified token 使用减少 12%	harness 已经能被优化、度量、迁移	这是基准测试收益，真实团队还要看任务类型和集成成本
LangChain Deep Agents	引入 Harness Profiles，做模型相关的 harness 调优和部署	LangChain 继续押注 agent 工程层	价值取决于团队是否真的需要跨模型、跨环境部署

这里最该盯的词不是 AI，也不是 coding。

是 harness。

它听起来像黑话，其实很朴素：模型拿什么上下文，怎么调用工具，怎么保留状态，失败后怎么重试，怎么评测，怎么少烧 token。

以前大家盯“哪个模型更强”。现在越来越多信号说明，同一个模型，外面的脚手架不同，生产表现会差一截。

对开发者来说，这会改变日常工具选择。不是哪个聊天框回答更漂亮，而是谁能理解你的仓库、你的测试、你的分支、你的 CI。

对团队负责人来说，采购节奏也该变。可以先延后大规模锁定某一家 IDE 席位，优先做小范围验证：上下文命中率、跨仓能力、自动测试成功率、token 成本、权限边界。

别急着被演示视频带走。真正贵的不是订阅费，是迁移后的流程依赖。

为什么重要：入口从编辑器移到工作流

Cursor SDK 是一个很好的观察点。

如果 Cursor 只是一个更好用的 AI IDE，它卖的是座席，是编辑器里的体验。SDK 把 runtime、harness、models 暴露出来，性质就变了。

它开始进入 CI/CD、内部自动化、产品内嵌 agents。也就是说，Cursor 不只想待在开发者屏幕里，还想变成别人工作流里的可编程层。

这一步还不能夸大。SDK 不是商业模式改判书，也不是 usage-based 已经全面接管。但它把方向露出来了：AI IDE 厂商不满足于卖编辑器，它们想卖运行时。

VS Code 的动作更像守城。

语义索引、跨仓搜索、会话洞察、prompt/agent evaluation，这些功能不花哨，却很关键。因为 coding agent 真正难的不是补一段函数，而是在一个乱项目里知道三件事：我在哪里，我能改什么，我改完怎么证明没坏。

这就是开发工具权力的迁移。

过去权力在编辑器、插件市场、代码托管。现在开始往上下文、运行时、评测和部署口迁移。

历史上类似的事不少。电力刚进工厂时，人们先盯发电机；真正改变效率的，是电网、标准接口、车间布局和管理制度。今天不完全一样，但结构相似：单点能力很耀眼，系统组织能力才决定产出。

“天下熙熙，皆为利来。”落到 AI 编程，就是谁能把模型调用变成可控工作流，谁就更接近收费入口。

OpenAI 的 Codex-only seats 也可以放进这个框架看。

符合条件的 Business/Enterprise 客户，到 6 月底可以用 0 美元 seat fee 试 Codex-only seats。这不是慈善，也不是价格战结论。它更像降低组织试用门槛，让 Codex 进入企业流程。

一旦进入流程，后面比较的就不只是模型回答质量。还包括权限、审计、上下文隔离、协作记录、工具调用成本。

企业采购者要看的也不是“免费”两个字。要看免费期结束后，座席、用量、集成和迁移成本怎么结算。

我的判断：下一轮胜负看四个变量

我不太买账“模型一强，工具层就没意义”的说法。

模型当然重要。没有足够强的模型，harness 只是漂亮脚手架。但当基础模型能力接近时，差距会转到更脏、更慢、更难展示的地方。

四个变量最关键。

变量	该看什么	对团队的现实影响
上下文	能否稳定理解仓库、跨仓依赖、历史会话和团队约定	决定 agent 是帮忙，还是制造返工
工具编排	能否少走弯路、少重复调用、保持状态	直接影响速度、token 成本和失败率
评测	能否对 prompt、agent 行为和结果做可重复验证	决定能不能进 CI/CD，而不是停在个人玩具
部署入口	能否进入 IDE、CI/CD、自动化和产品内嵌场景	决定供应商会不会变成流程锁定点

这也是我更在意 Agentic Harness Engineering 的原因。

Terminal-Bench 2 pass@1 从 69.7% 到 77.0%，SWE-bench Verified token 使用减少 12%。这些数字不该被吹成“智能体问题解决了”，但它们说明一件实在的事：harness 本身已经是可优化对象。

模型榜单告诉你上限。harness 告诉你能不能把上限搬进生产。

接下来最该观察两件事。

第一，WebSocket mode 这类 agent-loop 工程优化，能不能在真实企业任务里持续带来速度和成本收益。最高 40% 很亮，但亮点要落到不同任务、不同工具链、不同权限环境里验证。

第二，Cursor SDK、VS Code agent 底座、OpenAI Codex 这几条线，会不会把开发团队的默认工作流锁进各自生态。谁掌握上下文索引、评测记录和部署接口，谁就不只是工具供应商。

对小团队，我的建议很简单：先别把核心流程全押给一家。可以用，但要保留可迁移性。prompt、评测集、自动化脚本、CI/CD 接口，尽量别做成只能在单一平台里活。

对中大型团队，更要把 agent 当工程系统采购，不要当个人效率工具采购。采购表里应该有权限、审计、上下文隔离、失败回滚、成本上限，而不是只写“支持某某模型”。

模型看着更强，产品可能反而更虚。没有 harness 的 agent，像没有轨道的火车，能轰鸣，难准点。

这一天安静，恰好说明战场下沉了。

下一轮 AI 编程竞争，不在演示视频里谁更惊艳，而在提交、测试、回滚、部署这些脏活里，谁更像基础设施。

AI 编程换战场：模型还在台前，入口已经往后挪

战场下沉

底座补强

多方同向

harness关键

入口迁移

Cursor扩层

VS Code守城

胜负变量

四项能力

工程收益

采购风险

企业验证

保留迁移

发生了什么：几家公司都在补智能体底座

为什么重要：入口从编辑器移到工作流

我的判断：下一轮胜负看四个变量