1MHz 的 C64 都能跑 Transformer：这项目没颠覆 AI，却把“大模型神话”拆得很干净

核心摘要 Summary

开发者把一个约 2.5 万参数、两层的 decoder-only Transformer 真跑在 1982 年的 Commodore 64 上了：1MHz 处理器，未改装原机，模型和程序还能塞进一张软盘。
它当然不是“古董机版 ChatGPT”——60 秒才出 1 个 token、上下文只有 20 token、词表只有 128 个——但也正因为限制写得这么明白，这件事反而更有价值：架构没有神秘到不可触碰，真正贵的是把它做大、做快、做成平台控制力。

一台 1982 年的 Commodore 64，一颗 1MHz 的 6510 处理器，一套手写汇编，再加一个约 2.5 万参数、两层的 decoder-only Transformer，真的跑起来了。不是模拟器，不是外接加速卡，是原机。

这次新补进来的信息，真正有价值的有三点：一是它不是挂着 AI 名字的演示，而是把 multi-head causal self-attention、softmax、RMSNorm 这些关键部件都做实了；二是作者把限制写得很死，60 秒 1 个 token、20 token 上下文、128 token 词表，没人需要把它误吹成产品；三是最关键的突破不是“能跑”，而是一个位移修正把整数注意力从“几乎失明”救回来了。这才是工程，不是海报。

它到底做成了什么

先把事实压缩一下。

模型.2 层 decoder-only Transformer
参数量.约 25K
结构.4 个注意力头，每头 8 维，32 维 embedding，64 维 FFN hidden
数值.权重量化为 int8，激活用 Q8.8 定点数
运行环境.未改装 Commodore 64，1MHz 6510 CPU
速度.约 60 秒生成 1 个 token
限制.上下文 20 token，词表 128 个 token，只支持小写字母和少量标点

所以别拿它和 ChatGPT、Claude、Gemini 比可用性。没法比。完整回复要等几分钟，输出还会碎，作者自己都说了：it’s not smart。

但也别反过来把它说成玩具。架构上，它和今天主流大模型属于同一家族：decoder-only Transformer。差别不在“是不是 Transformer”，而在规模、吞吐、训练成本、工程堆料和产品包装。

新线索里最硬的一刀，是那个看着不起眼的细节：注意力分数归一化从 >>17 改成 >>14。少这 3 位，softmax 才有足够动态范围；不改，整数注意力就会接近平均分布，模型基本等于看不见上下文。

这才是我认为最该写进标题的东西：真正的门槛往往不在名词，而在数值实现。AI 圈太喜欢卖大词，工程圈更清楚，很多时候胜负就在那几个 bit 上。

这次补强了旧判断：架构不神，规模才是壁垒

如果只看热闹，这新闻像极客行为艺术。如果看门道，它是在给当下 AI 叙事拆台。

这些年不少公司谈大模型，谈着谈着就把 Transformer 说成一种近乎神授的黑箱。attention 一出口，气氛就自动庄严起来。现在一台 1MHz 的老机器告诉你：别演了，架构本身没有那么玄。

这次新来源把旧判断补得更完整：不是“老机器也能跑点 AI”这么浅，而是连关键机制都跑对了。softmax、RMSNorm、多头注意力都不是海报上的摆件，而是实打实在算。你可以说它极慢、极小、极受限，但不能说它是假货。

所以旧稿如果只停在“技术民主化”这种轻飘飘的赞歌上，就不够。新信息把问题讲得更准了：真正昂贵的，从来不是 Transformer 这个想法；昂贵的是把同一套想法堆到数十亿、数千亿参数，再配上 GPU、内存带宽、电力、数据、分发入口和商业默认位。

天下熙熙，皆为利来。今天很多公司卖的不是 attention 本身，而是 attention 外面那层工业体系。论文开源，不等于能力平权；架构公开，也不等于产品权力下放。决定你能不能用、用得快不快、成本高不高的，不在论文图里，在算力账单里。

谁该认真看这件事

普通用户不用把它当购买建议，也不用期待什么“离线古董机聊天助手”。这不是那个方向。

真正该认真看的是两类人。

一类是模型工程和底层系统开发者。这个项目把训练、量化、构建、测试到 6502 汇编实现，几乎都摊开了。它像一块解剖板，让人重新看见“模型能跑”和“模型能用”之间隔着多少层脏活累活。尤其那个位移修正，已经足够说明问题：很多宣传稿里轻描淡写的推理细节，才是模型活不活的生死线。

另一类是对算力政治有感觉的人。今天大家太容易把“更大”听成“更先进”，把“更贵”听成“更合理”。这个项目至少提醒你，别把资本门槛、工程门槛和叙事门槛混着一起磕头。

我更在意后者。因为行业最擅长的，不是把技术做复杂，而是把本来可以解释清楚的东西包装成你只能租、只能信、不能问的黑盒。苏格拉底说，智慧始于承认无知；今天一些 AI 商业叙事刚好相反，它靠制造你的无知来维持溢价。

它像早期 PC 史，但只像一半

这件事很容易让人联想到 PC 革命：把强能力塞进小机器，算力慢慢下沉到个人设备。

但今天不完全一样。

PC 时代的大方向，是把通用计算带到个人桌面。大模型时代，很多公司的真实路线却是把通用能力重新收回云端，再以 API、订阅、默认入口和平台整合的方式卖回来。表面上人人都能用 AI，实际控制力更集中。

所以这个 C64 项目有点像历史回声，但不是历史重演。它没有改变市场结构，也没有给云端模型生意造成现实冲击。它更像一根针，扎破一个很有市场的幻觉：仿佛只要一提大模型，所有价值都来自那套架构本身。

不是。架构只是起点。护城河在规模，在供应链，在吞吐，在入口，在定价权。

换句话说，这个项目没打赢商业战争，却把战场地图画清楚了。很多人原来以为山在算法，结果山在资本；原来以为门槛是论文，结果门槛是集群。

接下来该看什么，不该看什么

不该看的，是“会不会有人把 C64 做成聊天产品”。不会，这个方向没有现实意义。

该看的有两个。

一个是极小模型在极受限硬件上的数值设计。比如整数推理、量化训练、查表近似、可验证实现、软硬协同裁剪。它们短期不改写消费市场，但会持续逼出更扎实的推理工程方法。

另一个是行业会不会继续把“架构突破”和“资源碾压”混着卖。这个问题比项目本身更现实。因为对大多数开发者、创业者、企业买家来说，真正决定成本和依赖关系的，不是你知道不知道 Transformer，而是谁握着最便宜的算力、最大的吞吐和默认分发口。

技术史里，这种戏码并不新鲜。铁路、电力、互联网都演过：发明先被神话，随后被基础设施集团接管利润。其兴也勃焉，其势也垄焉。今天的大模型市场，离这条路并不远。

所以我对这项目的评价很简单：它没改变谁的产品路线，也没拯救谁的推理成本；它干的事更朴素，也更有杀伤力——把“模型神话”和“算力生意”分开给你看。

一旦分开，很多包装词就立刻没那么吓人了。

1MHz 的 C64 都能跑 Transformer：这项目没颠覆 AI，却把“大模型神话”拆得很干净

C64跑Transformer

项目实质

架构完整

规模极小

关键突破

位移修正

核心判断

贵在工业化

权力未下放

行业映射

市场未改

神话被扎破

后续变量

工程方向

叙事风险

它到底做成了什么

这次补强了旧判断：架构不神，规模才是壁垒

谁该认真看这件事

它像早期 PC 史，但只像一半

接下来该看什么，不该看什么