一台 1982 年的 Commodore 64,一颗 1MHz 的 6510 处理器,一套手写汇编,再加一个约 2.5 万参数、两层的 decoder-only Transformer,真的跑起来了。不是模拟器,不是外接加速卡,是原机。

这次新补进来的信息,真正有价值的有三点:一是它不是挂着 AI 名字的演示,而是把 multi-head causal self-attention、softmax、RMSNorm 这些关键部件都做实了;二是作者把限制写得很死,60 秒 1 个 token、20 token 上下文、128 token 词表,没人需要把它误吹成产品;三是最关键的突破不是“能跑”,而是一个位移修正把整数注意力从“几乎失明”救回来了。这才是工程,不是海报。

它到底做成了什么

先把事实压缩一下。

  • 模型.2 层 decoder-only Transformer
  • 参数量.约 25K
  • 结构.4 个注意力头,每头 8 维,32 维 embedding,64 维 FFN hidden
  • 数值.权重量化为 int8,激活用 Q8.8 定点数
  • 运行环境.未改装 Commodore 64,1MHz 6510 CPU
  • 速度.约 60 秒生成 1 个 token
  • 限制.上下文 20 token,词表 128 个 token,只支持小写字母和少量标点

所以别拿它和 ChatGPT、Claude、Gemini 比可用性。没法比。完整回复要等几分钟,输出还会碎,作者自己都说了:it’s not smart。

但也别反过来把它说成玩具。架构上,它和今天主流大模型属于同一家族:decoder-only Transformer。差别不在“是不是 Transformer”,而在规模、吞吐、训练成本、工程堆料和产品包装。

新线索里最硬的一刀,是那个看着不起眼的细节:注意力分数归一化从 >>17 改成 >>14。少这 3 位,softmax 才有足够动态范围;不改,整数注意力就会接近平均分布,模型基本等于看不见上下文。

这才是我认为最该写进标题的东西:真正的门槛往往不在名词,而在数值实现。AI 圈太喜欢卖大词,工程圈更清楚,很多时候胜负就在那几个 bit 上。

这次补强了旧判断:架构不神,规模才是壁垒

如果只看热闹,这新闻像极客行为艺术。如果看门道,它是在给当下 AI 叙事拆台。

这些年不少公司谈大模型,谈着谈着就把 Transformer 说成一种近乎神授的黑箱。attention 一出口,气氛就自动庄严起来。现在一台 1MHz 的老机器告诉你:别演了,架构本身没有那么玄。

这次新来源把旧判断补得更完整:不是“老机器也能跑点 AI”这么浅,而是连关键机制都跑对了。softmax、RMSNorm、多头注意力都不是海报上的摆件,而是实打实在算。你可以说它极慢、极小、极受限,但不能说它是假货。

所以旧稿如果只停在“技术民主化”这种轻飘飘的赞歌上,就不够。新信息把问题讲得更准了:真正昂贵的,从来不是 Transformer 这个想法;昂贵的是把同一套想法堆到数十亿、数千亿参数,再配上 GPU、内存带宽、电力、数据、分发入口和商业默认位。

天下熙熙,皆为利来。今天很多公司卖的不是 attention 本身,而是 attention 外面那层工业体系。论文开源,不等于能力平权;架构公开,也不等于产品权力下放。决定你能不能用、用得快不快、成本高不高的,不在论文图里,在算力账单里。

谁该认真看这件事

普通用户不用把它当购买建议,也不用期待什么“离线古董机聊天助手”。这不是那个方向。

真正该认真看的是两类人。

一类是模型工程和底层系统开发者。这个项目把训练、量化、构建、测试到 6502 汇编实现,几乎都摊开了。它像一块解剖板,让人重新看见“模型能跑”和“模型能用”之间隔着多少层脏活累活。尤其那个位移修正,已经足够说明问题:很多宣传稿里轻描淡写的推理细节,才是模型活不活的生死线。

另一类是对算力政治有感觉的人。今天大家太容易把“更大”听成“更先进”,把“更贵”听成“更合理”。这个项目至少提醒你,别把资本门槛、工程门槛和叙事门槛混着一起磕头。

我更在意后者。因为行业最擅长的,不是把技术做复杂,而是把本来可以解释清楚的东西包装成你只能租、只能信、不能问的黑盒。苏格拉底说,智慧始于承认无知;今天一些 AI 商业叙事刚好相反,它靠制造你的无知来维持溢价。

它像早期 PC 史,但只像一半

这件事很容易让人联想到 PC 革命:把强能力塞进小机器,算力慢慢下沉到个人设备。

但今天不完全一样。

PC 时代的大方向,是把通用计算带到个人桌面。大模型时代,很多公司的真实路线却是把通用能力重新收回云端,再以 API、订阅、默认入口和平台整合的方式卖回来。表面上人人都能用 AI,实际控制力更集中。

所以这个 C64 项目有点像历史回声,但不是历史重演。它没有改变市场结构,也没有给云端模型生意造成现实冲击。它更像一根针,扎破一个很有市场的幻觉:仿佛只要一提大模型,所有价值都来自那套架构本身。

不是。架构只是起点。护城河在规模,在供应链,在吞吐,在入口,在定价权。

换句话说,这个项目没打赢商业战争,却把战场地图画清楚了。很多人原来以为山在算法,结果山在资本;原来以为门槛是论文,结果门槛是集群。

接下来该看什么,不该看什么

不该看的,是“会不会有人把 C64 做成聊天产品”。不会,这个方向没有现实意义。

该看的有两个。

一个是极小模型在极受限硬件上的数值设计。比如整数推理、量化训练、查表近似、可验证实现、软硬协同裁剪。它们短期不改写消费市场,但会持续逼出更扎实的推理工程方法。

另一个是行业会不会继续把“架构突破”和“资源碾压”混着卖。这个问题比项目本身更现实。因为对大多数开发者、创业者、企业买家来说,真正决定成本和依赖关系的,不是你知道不知道 Transformer,而是谁握着最便宜的算力、最大的吞吐和默认分发口。

技术史里,这种戏码并不新鲜。铁路、电力、互联网都演过:发明先被神话,随后被基础设施集团接管利润。其兴也勃焉,其势也垄焉。今天的大模型市场,离这条路并不远。

所以我对这项目的评价很简单:它没改变谁的产品路线,也没拯救谁的推理成本;它干的事更朴素,也更有杀伤力——把“模型神话”和“算力生意”分开给你看。

一旦分开,很多包装词就立刻没那么吓人了。