一家公司给员工配了 Copilot、ChatGPT Enterprise、Claude、Cursor,看起来已经进了 AI 时代。

但管理层很快会撞上一个更刺耳的问题:大家确实在用,账单也确实在涨,公司到底学到了什么?

Robert Glaser 这篇文章抓住的,就是企业 AI 落地后的“混乱中段”。AI 不再是少数人的试点。它已经钻进代码审查、故障排查、原型开发、客服自动化、销售文档和合规流程。

问题不在员工不用。问题在个人提速没有自动变成组织学习。

AI 进了工位,组织还停在采购表里

很多企业现在的 AI 落地,表面很热闹。

买许可证,做培训,建冠军网络,搞 PoC,开分享会。管理层能看到席位激活、prompt 数、使用率、几个适合上汇报材料的案例。

这些不是没用。但它们太像采购项目,不像学习系统。

真正有价值的实践,常常藏在更小的工作回路里。比如一次代码 review 里,AI 帮工程师更早发现边界条件。一次故障排查里,模型把排查路径缩短了。一次产品原型里,坏想法提前死掉了。

这些东西很难写进月度 PPT,却最接近组织能力。

场景表面容易看的指标真正该追的变化
代码开发Copilot 使用率哪类 review 更快发现问题
故障排查生成了多少分析根因定位是否更准
产品原型做了多少 demo坏想法是否更早被证伪
客服支持自动回复数量高频问题是否进入流程改造

Ethan Mollick 提过一个有用框架:Leadership / Lab / Crowd。

领导给方向和许可。群众发现真实用例。实验室把经验转成共享能力。

企业现在卡住的,往往就是中间那段。Crowd 每天都在试,Lab 没有接住。等经验被整理成“最佳实践”,最有价值的摩擦已经被洗掉了:失败的 prompt、缺失的上下文、模型跑偏的瞬间、人类介入的判断。

这些才是学习。

“天下熙熙,皆为利来。”放到企业 AI 里,就是大家都想要效率,但很少有人愿意为学习路径付账。因为买工具快,改组织慢。

旧流程消化不了新速度

Glaser 的关键判断是:AI 改变的不是单个任务,而是工作循环。

过去软件流程重,是因为迭代贵。开会、排期、估算、验收、交接,本质上都是为了少浪费昂贵的人力循环。

现在 agentic engineering 把“从意图到原型到验证”的速度往前推。约束也跟着变了。不再只是实现能力,而是意图是否清楚、验证是否及时、判断是否可靠、反馈是否能回流。

可很多公司还在用旧流程接新速度。

两周 sprint、层层汇报、月度分享会、中心化最佳实践库,都不是废物。但它们慢。工作循环已经在小时级变化,组织吸收经验还停在月度节奏。

结果很荒诞:模型看着更强,产品反而更虚;员工跑得更快,公司学得更慢。

我更在意的不是 token 花了多少,而是这些 token 换来了什么学习。Glaser 提出的区分很重要:别只看 token-to-output,要看 token-to-learning。

也就是少问“AI 生成了多少东西”。多问这些问题:

  • 哪些循环更快闭合?
  • 哪些决策更好?
  • 哪些模式被复用?
  • 哪些想法更早被证伪?
  • 哪里只是制造了更多产出?

这对企业技术管理者很直接。

如果你在管 AI 预算,不该只急着扩大许可证。先把 3 到 5 个高频工作循环挑出来:代码 review、线上故障、需求澄清、客服分流、内部知识检索。给每个循环定义“更快闭合”和“更少返工”的证据,再决定要不要加购工具。

如果你在带产品或工程团队,也别急着办全员 prompt 培训。更该让团队记录有效工作流:输入是什么,AI 做了什么,人怎么验证,哪里返工,最后能不能复用。记录不需要很重,但必须贴近真实任务。

限制也要说清。不是所有工作都适合被细粒度采集。涉及隐私、合规、客户数据和员工评价的部分,必须设边界。没有边界的“学习系统”,很容易滑向监控系统。

该建反馈路径,不是盯人仪表盘

Glaser 把企业需要的能力拆成三块:Agent Operations、Loop Intelligence、Agent Capabilities。

这三个词不用神化。它们更像一套管理框架,不是成熟行业标准。

能力解决什么单独存在的风险
Agent Operations工具、权限、审计、数据边界变成官僚管控
Loop Intelligence看哪些 AI 工作循环真的产生学习变成空洞分析
Agent Capabilities把有效能力分发到真实场景变成工具蔓延

三者必须打通。

只有 Operations,没有学习,AI 治理会变成审批机器。只有 Loop Intelligence,没有能力分发,看板会越做越漂亮,团队照样各玩各的。只有 Capabilities,没有边界和反馈,工具会越铺越乱。

最危险的一步,是把 AI 落地做成员工监控。

一旦公司开始按“谁用 AI 更多”打分,员工会立刻学会表演合规。该开的工具会开。该填的案例会填。真正有效、但还不稳定的实验,反而会被藏起来。

原因很现实。员工知道,一旦某个工作流被看见,它可能马上变成新的产能基线。

公司最后拿到的是最糟糕的组合:可见的使用,不可见的学习。

所以反馈系统要看工作循环,不是看人。它应该关心任务意图、模型输出、验证过程、人类判断、返工原因、复用模式,而不是给员工贴一个“AI 使用积极分子”的标签。

接下来最该观察的变量也很明确。

别只看席位有没有增加。看企业有没有把 AI 反馈接进日常工程和产品流程。看代码 review、故障复盘、需求评审、客服知识库这些地方,有没有出现可复用的新模式。看管理层问的是“花了多少 token”,还是“哪些判断变好了”。

如果问题仍然停在“我们有没有买”“员工有没有用”,那这家公司还在 AI 落地的门口转圈。

企业 AI 的分水岭已经摆在这里。买工具只是入场券,培训只是热身。真正拉开差距的,是谁能把一线零散经验变成组织记忆,再把组织记忆喂回工具、流程和能力层。

否则,AI 越普及,公司越忙。输出越来越多,学习却越来越少。