一个安静日子里,AI 编程工具集体往后退了一步。
不是退场,而是从屏幕里的补全、聊天、改代码,退到更底层的位置:上下文、运行时、评测、部署入口。台前还是模型,真正开始抢的,是开发流程的控制权。
OpenAI 把 Codex 往研究、表格、决策跟踪等知识工作扩;VS Code 补语义索引、跨仓搜索和 agent 评测;Cursor 放出 SDK;LangChain 继续把 harness、eval、deploy 做成工程体系。
这几件事分开看都不炸。连起来看,味道很重:AI 编程不再只是“谁更会写代码”,而是“谁能让智能体稳定干活”。
发生了什么:几家公司都在补智能体底座
这一天的更新,主线很清楚。模型能力还重要,但各家都在把能力落到更可控的工作流里。
| 项目 | 这次变化 | 我会怎么读 | 限制条件 |
|---|---|---|---|
| OpenAI Codex | 扩到研究、表格、决策跟踪等知识工作;给符合条件的 Business/Enterprise 客户提供到 6 月底的 0 美元 Codex-only seats | OpenAI 在测试更宽的工作入口,不只是写代码 | 不是永久免费,也不是面向所有用户;也不能说 Codex 已经变成完整办公平台 |
| Responses API | WebSocket mode 让 agentic workflows 最高快 40% | 收益来自保持状态、减少重复工具调用,是 agent-loop 系统工程 | 不能简单归因于模型本身变强 |
| VS Code | 增加语义索引、跨仓搜索、chat session insights、prompt/agent evaluation | IDE 在补智能体底座,避免只当模型调用壳 | 落地效果取决于真实项目里的索引、权限和评测质量 |
| Cursor SDK | 开放 runtime、harness、models,可用于 CI/CD、自动化、产品内嵌 agents | Cursor 在释放从 AI IDE 走向可编程智能体基础设施的信号 | 还不能直接说商业模式已经全面转向 usage-based |
| Agentic Harness Engineering | Terminal-Bench 2 pass@1 从 69.7% 到 77.0%;SWE-bench Verified token 使用减少 12% | harness 已经能被优化、度量、迁移 | 这是基准测试收益,真实团队还要看任务类型和集成成本 |
| LangChain Deep Agents | 引入 Harness Profiles,做模型相关的 harness 调优和部署 | LangChain 继续押注 agent 工程层 | 价值取决于团队是否真的需要跨模型、跨环境部署 |
这里最该盯的词不是 AI,也不是 coding。
是 harness。
它听起来像黑话,其实很朴素:模型拿什么上下文,怎么调用工具,怎么保留状态,失败后怎么重试,怎么评测,怎么少烧 token。
以前大家盯“哪个模型更强”。现在越来越多信号说明,同一个模型,外面的脚手架不同,生产表现会差一截。
对开发者来说,这会改变日常工具选择。不是哪个聊天框回答更漂亮,而是谁能理解你的仓库、你的测试、你的分支、你的 CI。
对团队负责人来说,采购节奏也该变。可以先延后大规模锁定某一家 IDE 席位,优先做小范围验证:上下文命中率、跨仓能力、自动测试成功率、token 成本、权限边界。
别急着被演示视频带走。真正贵的不是订阅费,是迁移后的流程依赖。
为什么重要:入口从编辑器移到工作流
Cursor SDK 是一个很好的观察点。
如果 Cursor 只是一个更好用的 AI IDE,它卖的是座席,是编辑器里的体验。SDK 把 runtime、harness、models 暴露出来,性质就变了。
它开始进入 CI/CD、内部自动化、产品内嵌 agents。也就是说,Cursor 不只想待在开发者屏幕里,还想变成别人工作流里的可编程层。
这一步还不能夸大。SDK 不是商业模式改判书,也不是 usage-based 已经全面接管。但它把方向露出来了:AI IDE 厂商不满足于卖编辑器,它们想卖运行时。
VS Code 的动作更像守城。
语义索引、跨仓搜索、会话洞察、prompt/agent evaluation,这些功能不花哨,却很关键。因为 coding agent 真正难的不是补一段函数,而是在一个乱项目里知道三件事:我在哪里,我能改什么,我改完怎么证明没坏。
这就是开发工具权力的迁移。
过去权力在编辑器、插件市场、代码托管。现在开始往上下文、运行时、评测和部署口迁移。
历史上类似的事不少。电力刚进工厂时,人们先盯发电机;真正改变效率的,是电网、标准接口、车间布局和管理制度。今天不完全一样,但结构相似:单点能力很耀眼,系统组织能力才决定产出。
“天下熙熙,皆为利来。”落到 AI 编程,就是谁能把模型调用变成可控工作流,谁就更接近收费入口。
OpenAI 的 Codex-only seats 也可以放进这个框架看。
符合条件的 Business/Enterprise 客户,到 6 月底可以用 0 美元 seat fee 试 Codex-only seats。这不是慈善,也不是价格战结论。它更像降低组织试用门槛,让 Codex 进入企业流程。
一旦进入流程,后面比较的就不只是模型回答质量。还包括权限、审计、上下文隔离、协作记录、工具调用成本。
企业采购者要看的也不是“免费”两个字。要看免费期结束后,座席、用量、集成和迁移成本怎么结算。
我的判断:下一轮胜负看四个变量
我不太买账“模型一强,工具层就没意义”的说法。
模型当然重要。没有足够强的模型,harness 只是漂亮脚手架。但当基础模型能力接近时,差距会转到更脏、更慢、更难展示的地方。
四个变量最关键。
| 变量 | 该看什么 | 对团队的现实影响 |
|---|---|---|
| 上下文 | 能否稳定理解仓库、跨仓依赖、历史会话和团队约定 | 决定 agent 是帮忙,还是制造返工 |
| 工具编排 | 能否少走弯路、少重复调用、保持状态 | 直接影响速度、token 成本和失败率 |
| 评测 | 能否对 prompt、agent 行为和结果做可重复验证 | 决定能不能进 CI/CD,而不是停在个人玩具 |
| 部署入口 | 能否进入 IDE、CI/CD、自动化和产品内嵌场景 | 决定供应商会不会变成流程锁定点 |
这也是我更在意 Agentic Harness Engineering 的原因。
Terminal-Bench 2 pass@1 从 69.7% 到 77.0%,SWE-bench Verified token 使用减少 12%。这些数字不该被吹成“智能体问题解决了”,但它们说明一件实在的事:harness 本身已经是可优化对象。
模型榜单告诉你上限。harness 告诉你能不能把上限搬进生产。
接下来最该观察两件事。
第一,WebSocket mode 这类 agent-loop 工程优化,能不能在真实企业任务里持续带来速度和成本收益。最高 40% 很亮,但亮点要落到不同任务、不同工具链、不同权限环境里验证。
第二,Cursor SDK、VS Code agent 底座、OpenAI Codex 这几条线,会不会把开发团队的默认工作流锁进各自生态。谁掌握上下文索引、评测记录和部署接口,谁就不只是工具供应商。
对小团队,我的建议很简单:先别把核心流程全押给一家。可以用,但要保留可迁移性。prompt、评测集、自动化脚本、CI/CD 接口,尽量别做成只能在单一平台里活。
对中大型团队,更要把 agent 当工程系统采购,不要当个人效率工具采购。采购表里应该有权限、审计、上下文隔离、失败回滚、成本上限,而不是只写“支持某某模型”。
模型看着更强,产品可能反而更虚。没有 harness 的 agent,像没有轨道的火车,能轰鸣,难准点。
这一天安静,恰好说明战场下沉了。
下一轮 AI 编程竞争,不在演示视频里谁更惊艳,而在提交、测试、回滚、部署这些脏活里,谁更像基础设施。
