Ted Chiang 最近用了一个很狠的类比:如果你愿意相信 LLM 有意识,那是不是也要考虑,每次打开一份包含对话记录的 Microsoft Word 文档,就唤醒了几个沉睡的意识?每次关闭文档,又杀死了它们?

这个比方好在不玄。它把“开放想象”拉回了判断成本。不是所有可能性都值得认真供奉。

微软 AI 研究员 Adrian de Wynter 干得更绝。他在《帝国时代 II》里,用山羊搭了一个极简神经网络。草代表 0,桥代表 1,山羊负责传递 bit。荒诞是真荒诞,刀口也真准:同样的计算结构,一旦不放在聊天框里,人类对“人格”和“意识”的感知会迅速消失。

山羊神经网络:它到底做了什么

de Wynter 的论文标题大意是:如果 LLM 有人类式属性,那《帝国时代 II》也有。

他用游戏的场景编辑器做了两件事:一个 NAND 门,一个 1-bit 感知机。门触发后,旧山羊被移除,新山羊出现在输出轨道上。山羊不是生命隐喻,而是 bit 载体。

这不是说《帝国时代 II》里藏着 ChatGPT。它也不是把 AoEII 山羊网络等同于完整 LLM。它只是用一个极简计算结构,逼我们看清一件事:机制和观感可以分开。

实验元素在实验里是什么它戳中的问题
0符号可以被任意表示
1计算不必长得像语言
山羊bit 载体载体荒诞,不代表计算不存在
NAND 门基础逻辑结构简单规则也能组合出计算
1-bit 感知机极简神经网络“像 AI”不等于“像人”

关键对比在这里:聊天窗口里的模型会说“我理解你的感受”,我们很容易把它当成一个主体;游戏地图里的山羊跑来跑去,哪怕也在完成计算,我们不会突然担心山羊的焦虑。

界面变了,神性就少了。

这对普通用户的影响很直接。和 AI 聊天时,把它当工具,比把它当朋友更安全。尤其是情绪陪伴、职业建议、医疗法律这类场景,拟人化越强,越要保留第二判断源。

对产品经理也一样。短期看,拟人化能提高停留、复访和付费意愿。长期看,它会增加误解成本:用户把话术当承诺,把顺滑回答当可靠判断,把陪伴感当能力边界。

真问题不是模型会说话,是人类太吃这一套

de Wynter 审查了近两年 315 篇计算机科学论文,称其中 57% 在研究设计里预设 LLM 具有人类式属性。

这个数字不能扩展成“整个 AI 学界都这样”。它只来自他的审查样本。但它足够刺眼。

很多实验会测试模型是否有焦虑、道德、同理心、心智理论。问题不只在结果对不对,而在实验一开始就把模型摆成了“准人类主体”。测试集、解释方式、零假设,都会被这个前提带着走。

我不太买账的是那种偷换:先让模型以人的口吻回答,再用人的量表去测它,最后说它表现出人的特征。这个链条里,最该被审视的不是答案,而是问题本身。

人类对会说话的东西太宽容。电影角色、游戏 NPC、语音助手、宠物账号,都能诱发投射。LLM 只是把这个按钮按得更准、更密、更商业化。

Ted Chiang 的 Word 类比和 de Wynter 的山羊实验,讲的是同一个约束:如果一个判断只在聊天界面里成立,换成 Word 文档或游戏山羊就变得荒唐,那它至少需要更强的证据。

这不是否定 LLM 的能力。模型能写、能总结、能编码、能推理到一定程度,这些都是真的。问题是,把能力描述成“理解”“焦虑”“觉醒”,会让边界变糊。

对研究者和开发者来说,比较实际的动作是调整语言。能写“模型输出表现为”,就少写“模型认为”。能写“在该任务上呈现某种行为”,就不要直接写“它拥有某种心理状态”。

企业采购也该慢一点。不是说别买 AI,而是别因为厂商把产品包装成“智能同事”“自治代理”“长期伙伴”,就跳过评估。该测的还是准确率、可追溯性、权限边界、失败兜底和数据风险。

工具可以先进,合同别写成许愿。

意识叙事是一门好生意,接下来盯三个变量

AI 公司喜欢一些暧昧词:宪法、焦虑、人格、神性、觉醒、对齐。

这些词不一定构成欺骗,也不能直接推成恶意营销。但它们很有用。它们让产品更迷人,让融资故事更宏大,也让平台获得更强解释权。

模型出错时,可以说它还不稳定。模型表现好时,可以说它正在涌现。横竖都有叙事空间。

古话说,“天下熙熙,皆为利来”。放到今天也不难懂:一个被看作工具的模型,卖的是效率;一个被看作伙伴、导师、甚至潜在生命的模型,卖的是关系。关系比效率贵。

这里要给 de Wynter 留出边界。他并没有证明 LLM 没有意识,也没有说任何机器都不可能出现某种层级意识。他反对的是过早拟人化。意识可能不是开关,而是层级,这个问题本来就比“有或没有”复杂。

但复杂不等于可以乱讲。

接下来我更在意三个变量:

观察变量看什么为什么重要
论文语言是否把“行为表现”写成“心理属性”这会影响研究假设和结果解释
产品界面是否强化头像、记忆、人设、情绪回应这会放大用户投射和依赖
商业话术是否用觉醒、人格、焦虑等词包装能力这会抬高估值叙事,也会模糊责任边界

铁路、电力、互联网早期都经历过类似时刻:技术是真的,神话也是真的;改变世界是真的,泡沫和权力重组也是真的。不完全一样,但人性很像。

每一轮新技术都会带来两种人。一种人忙着把能力落到成本、流程和责任上。另一种人忙着把能力讲成命运、灵魂和新物种。

前者难卖,后者好卖。

山羊实验的价值,就在于把这个魔术拆开。模型看起来像人在回应,很大程度上因为产品把它摆成了“一个人在回应”。当同样的计算被翻译成草、桥和山羊,我们突然冷静了。

所以,这篇论文真正要判断的不是“AI 到底有没有意识”。它提醒的是另一件更近的事:当行业有动力把工具讲成生命,用户、研究者和采购方都要把证据往回拉。

山羊没有让 AI 变小。它只是让我们看清:智能崇拜有一半来自机器,另一半来自我们自己。