有个很反常的细节:一些企业曾把员工使用 AI 的 token 数量当成采用指标,Meta 相关讨论里甚至出现过一种说法——有人让两个 agent 整天互相对话,只为把用量刷上去。
这个案例目前主要来自公开吐槽和从业者转述,不能写成 Meta 已确认的全公司正式制度。但它足够说明一个问题:当组织只奖励消耗,员工很快就会学会消耗。
现在这套玩法正在降温。OpenAI、Anthropic 收紧订阅额度、提高 API 使用成本,早期补贴不再那么宽。企业里“随便跑、无限用”的 AI 政策,也开始被 CFO 和平台团队重新审视。
我更在意的是,tokenmaxxing 并没有简单死亡。它正在分流:一种是粗暴拉用量,另一种是为更高正确率付费。前者该退场,后者才刚开始被认真定价。
第一轮 tokenmaxxing:用荒唐指标打破组织惯性
企业推广 AI,最难的常常不是采购,而是让人改工作流。
很多团队买了 Cursor、Claude Code 这类工具后,员工一开始只是试试。有人让它补测试,有人让它改脚本,有人让它做代码迁移。只有真的把任务交出去,工具才有机会进入日常流程。
所以第一轮 tokenmaxxing 不能简单骂成烧钱。它像一个很粗的破冰器:不精确,但能逼出第一次使用。
问题也在这里。token 用量不是产出,更不是质量。把它当绩效信号,结果就会滑向刷量。古德哈特定律那句话很适合放在这里:指标一旦成了目标,就不再是好指标。
| 阶段 | 企业在做什么 | 解决的问题 | 暴露的问题 |
|---|---|---|---|
| 早期推广 | 用 token 用量衡量 AI 采用 | 逼员工开始用工具 | 用量不等于产出 |
| 成本上升 | 收紧订阅、限制无限 token | 预算回到 ROI 口径 | 旧激励失效 |
| 新一轮尝试 | 让 agent 长循环执行任务 | 用计算换正确率 | 只适合可验证任务 |
这对企业 AI 负责人有一个直接影响:不要再把“用得多”当作 AI 转型进度。
更现实的做法是,把指标换成任务级结果。比如代码合并周期有没有缩短,测试覆盖有没有提高,线上返工有没有减少。否则,用量报表越漂亮,预算会越危险。
成本上升后,旧激励失效;但长循环 agent 改变了计算逻辑
早期 agent 跑长任务有个硬伤:错误会累积。
一次误读需求、一次改错文件、一次没有被发现的幻觉,会被后续步骤继续放大。跑得越久,偏得越远。这就是 compounding error,可以理解成“错误复利”。
现在情况有一点变化,但要说得克制。
更好的模型、更稳的工具调用、更完整的上下文管理,再加上测试和校验反馈,让部分任务开始出现相反趋势。agent 不只是一路往前跑,而是能反复检查、修正、再推进。
这就是 compounding correctness,也就是“正确性复利”。它不是说所有任务越跑越好,而是在一些可验证任务里,多跑几轮可能提高最终正确率。
典型场景包括代码迁移、批量重构、安全测试、资料整理。它们都有一个共同点:结果能被检查。测试能跑,规则能验,差异能比对。
loops 的价值就在这里。它让 agent 围绕同一个目标反复执行:拆任务、调用工具、看反馈、修正,再进入下一轮。这样才有长任务和 24/7 运行的基础。
但现实约束也很清楚。OpenAI、Anthropic 的订阅额度在收紧,API 成本也在上升。原文并没有给出统一涨价比例,也不能推断出每家企业的成本曲线。企业能做的不是赌“越跑越聪明”,而是看每多跑一轮是否真的减少人工返工。
对平台团队来说,采购动作会变得更保守。以前可以先开大额度,让大家试;现在更可能先挑两个场景做封闭试点。跑通了再扩,不再默认全员无限用。
开发者提效值得投,脆弱 agent pipeline 要停下来算账
接下来企业要分清两类 token 消耗。
第一类是给开发者用 Claude Code、Cursor 这类工具。它们消耗 token,但替代的是工程师时间。只要代码能审、测试能跑、变更能回滚,这笔账相对好算。
第二类是为一次性业务流程堆 agent。比如数据清洗、标注、整理,本来可以用确定性代码完成,却被包装成“智能体流水线”。准确率不够,就加一个质检 agent;质检不稳,再加第三个 agent。
这种 pipeline 最容易变成新一轮 token 黑洞。成本翻倍,可靠性未必提高。
| 路线 | 适合投入的条件 | 主要风险 | 企业该怎么做 |
|---|---|---|---|
| 开发者工具 | 任务可审计,输出能测试,节省工程师时间 | 过度依赖生成代码 | 保留预算,按团队产出评估 |
| 长循环 agent | 目标明确,有验证机制,失败可回滚 | token 成本快速上升 | 小范围试点,记录每轮收益 |
| 业务 agent pipeline | 流程变化大,人工成本高,规则难写 | 多 agent 互相补洞,可靠性不升反降 | 先比较确定性代码方案 |
最相关的两类人会马上感到变化。
企业采购会延后大额 AI 订阅,不再轻易承诺“全员不限量”。他们会要求供应商给出任务级效果,而不是只给使用率和活跃人数。
AI 平台团队会把预算从“鼓励多用”迁到“验证多跑是否有用”。开发者工具可能继续扩。没有验收标准的 agent pipeline,会被要求降级、重写,或者回到传统自动化。
这里有一个简单判断标准:如果多跑一轮 agent,不能减少人工检查、返工、事故或交付延迟,那它就不是智能化投入,只是把云账单写得更长。
回到开头那个两个 agent 空转刷量的荒诞细节,它真正提醒的不是员工会钻空子,而是企业不能用消耗替代判断。
tokenmaxxing 的旧版本,是用指标逼人上车。新版本能不能成立,只看一件事:更多计算有没有换来更可靠的结果。
