Aphyr 对“AI 员工”的批评,原本指向一个很直接的风险:公司太早相信自动化叙事,把人裁掉,再把尚不稳定的大模型塞进业务流程。风险并不只来自科幻式的“AI 失控”,更来自组织管理里的急躁:把模型当同事、当客服、当分析师、当程序员,却没有配套的审核、责任和纠错机制。

他在《The Future of Everything Is Lies, I Guess: New Jobs》里把这个判断往前推了一步。相比单纯批评“AI 员工”这个包装,新文章补强的是职业分工这一层:当企业真的开始用大模型替代或压缩岗位,消失的未必是劳动本身,而是原来那套清楚的岗位边界。人会被重新塞进机器流程的缝隙里,去做模型不会做、不稳定做、出错后必须有人负责的活。

这让问题变得更具体。AI 带来的冲击,不只是“会不会抢工作”,而是“谁被裁掉,谁被留下来查错,谁被迫签字,谁在后台训练下一代替代工具”。

新增的关键判断:AI 不只替代岗位,也制造兜底岗位

Aphyr 在文中列出了一组带讽刺意味的新职业:提示“咒术师”、流程工程师、统计工程师、模型训练师、“肉盾”和“占卜师”。这些名字像段子,但对应的都是大模型落地后的真实麻烦:输出不稳定、幻觉难查、训练数据变脏、事故责任不清、审计成本上升。

这补上了“AI 员工”叙事里常被省略的一块成本。企业宣传里,AI 员工通常被描述成低成本、全天候、可扩展的生产力。可一旦进入法律、金融、医疗、媒体、客服和内部运营,模型生成内容只是第一步。更重的工作在后面:核对来源、检查逻辑、判断合规、记录过程、解释错误。

所以,Aphyr 的新文章并没有推翻他此前对自动化的警惕,反而把它落到了组织结构上。早裁人不是唯一风险。更隐蔽的风险是,公司以为自己省掉了人力,实际只是把专业劳动从“前端生产”挪到了“后端补救”。

生成越便宜,验证越贵。这是大模型商业化里很难绕开的账。

“提示咒术师”走红,说明模型还不是稳定工具

Aphyr 写到的“咒术师”,指的是那些擅长和大模型打交道的人。他们研究怎么写提示词,怎么安排上下文,怎么把复杂任务拆开,怎么让模型少跑偏。

这个说法刺耳,但并不离谱。过去两年,“提示工程”之所以被企业认真对待,原因很简单:大模型不像传统软件那样稳定。相同目标,换一种措辞、换一段上下文、换一种输出格式,结果都可能变。很多团队不是在调用一个可靠工具,而是在驯服一个概率系统。

这对企业客户影响最大。想把 AI 接进真实业务,不能只买模型接口,还要有人设计工作流:哪些任务交给模型,哪些必须人工复核,哪些结果不能自动外发,哪些错误要被记录下来。所谓 AI 员工如果没有这些配套,更像一个能高速产出待审稿件的实习生,而不是独立员工。

这也解释了为什么“会用 AI”的价值正在分化。会写几个提示词,价值有限;能把模型嵌进流程、降低返工率、让错误可追踪,才是企业愿意付钱的能力。

真正稀缺的不是生成,而是验收、审计和追责

Aphyr 提到的“流程工程师”和“统计工程师”,指向同一个现实:模型输出不能靠信任验收,必须靠机制验收。

以律师事务所为例,如果用大模型起草法律文件,法院不会接受“AI 编错了”作为理由。文件里的案例、条文、事实和论证,都要有人检查。更成熟的做法甚至可能是设计专门的审核流程,测试审核者能否发现已知错误和模型幻觉。这听起来繁琐,但在高风险行业里并不奇怪。航空、制药、核工业早就不靠“系统大概没问题”过日子。

统计工程师处理的则是另一类问题:模型在哪些条件下更容易失灵。一个模型平均准确率不错,不代表它在少数语言、边缘群体、特殊场景里同样可靠。选项顺序、输入语言、上下文措辞、用户身份,都可能改变输出。

这对两类人最直接。

  • 对企业管理者来说,AI 采购不能只看演示效果。要问清楚错误率怎么测、失败场景在哪里、人工复核要多少人、事故记录能不能追溯。
  • 对知识工作者来说,岗位价值会从“产出第一稿”转向“判断第一稿能不能用”。律师、医生、分析师、编辑、合规人员未必立刻被替代,但他们会更常被要求替模型结果把关。

这也是“AI 员工”叙事最危险的地方。它把模型包装成一个可管理的劳动者,却回避了一个基本事实:劳动者犯错可以培训、处分、追责;模型犯错,最后仍要人来收拾。

数据被污染后,专家变成模型的高价原料

Aphyr 还补充了一个容易被忽视的变量:互联网数据正在被 AI 内容反向污染。

过去,AI 公司可以把公开网页当作训练资源。现在,大量由模型生成的低质文本、拼接内容、虚假页面和内容农场正在涌入网络。模型再训练时,很可能吃到别的模型吐出的二手材料。更麻烦的是,恶意投喂也会出现:有人故意制造假知识,让未来模型把它当成事实。

Aphyr 引用的例子很典型:研究人员用少量虚假文章,就能让 Gemini、ChatGPT 和 Copilot 回答一种并不存在的疾病。即使材料里已经标明内容是编造的,模型仍可能吸收错误信息。

这解释了为什么模型训练师、标注员、领域专家和评估人员会变得更重要。高质量模型不只拼算力,也拼干净数据和专业反馈。Scale AI、Mercor 这类公司扩张,背后正是这种需求:把医生、律师、程序员、研究者等专业知识拆成任务,喂给模型,用来校正输出。

这里的讽刺在于,一部分专业人士正在训练可能压低自己议价能力的系统。短期看,这是新收入来源;长期看,它可能改变专业劳动的定价方式。专家时间会更贵,但中低端知识产出可能更快贬值。

CEO 不容易被 AI 替代,因为责任不能自动化

Aphyr 最尖锐的说法,是“肉盾”和“占卜师”。前者负责承担后果,后者负责解释事故。

为什么 CEO、董事会成员、法务负责人不太担心被大模型直接替代?因为这些岗位的核心不只是写邮件、做总结、开会拍板,还包括在出事时承担法律和社会责任。自动驾驶事故不会由模型参数出庭。媒体刊发 AI 编造内容,道歉的也不会是接口文档。平台误封用户,最后仍要有人类经理和合规团队解释。

这说明“AI 员工”的边界很硬:模型可以参与决策,但不能承担责任。企业如果用 AI 做客服、审核、招聘、信贷、医疗建议,就必须保留能解释和追责的人。否则,所谓降本只是把风险推迟到事故发生那一刻。

“占卜师”对应的则是模型审计和事故调查。为什么模型给出歧视性结果?为什么某次输出编造来源?为什么审核系统误判图片或文本?这些问题不能长期用“黑箱”搪塞。监管机构、法院、客户和公众都会要求企业说清楚输入、流程、模型版本、人工干预和责任链条。

接下来最该观察的,不是企业又宣布了多少“AI 员工”,而是它有没有补上三件东西:

  • 是否建立可记录、可回放、可审计的模型使用流程;
  • 是否保留足够的人工复核和专业验收岗位;
  • 是否明确出错后的责任人,而不是把责任推给“算法”。

如果这些都没有,AI 员工越多,组织风险可能越集中。

新就业不是轻松好消息,而是劳动被重新定价

Aphyr 的判断并不等于“AI 会创造很多新工作,所以不用担心”。新岗位会出现,但它们的质量差异很大。

高端岗位会集中在系统设计、风险控制、流程整合、模型评估和事故调查上。这类人能把模型放进可控流程里,能算清楚错误成本,也能在出事后还原原因。

中间层岗位会围绕训练、审核、校验、标注和解释展开。它们需要专业能力,但压力也会更高,因为人要为机器输出兜底。

底层则可能是更零散的平台化微任务:给模型打分、清洗数据、标注答案、筛掉垃圾输出。这些工作是 AI 系统运转的隐形地基,却未必有稳定合同和足够保障。

这才是“AI 员工”叙事需要被警惕的地方。它把自动化讲成替代人的直线故事,可现实更像一次岗位拆分:一部分人被裁掉,一部分人留下来审核机器,一部分人变成训练机器的外包劳动力,一部分人负责在事故后面对客户、法院和监管。

对企业来说,真正的问题不是要不要用 AI,而是有没有能力为不确定性付账。对知识工作者来说,问题也不是模型会不会写代码、写合同、写报告,而是自己的岗位是否只剩“产出初稿”。如果答案是,是的,那风险会很快逼近;如果能掌握验收、审计、流程和责任,议价能力反而可能上升。