Talkie 做了一件反常的事:用现代大模型架构,训练一个“只读过 1930 年以前英文世界”的 13B 模型。
这不是让 ChatGPT 扮演老派绅士。talkie-1930-13b-base 训练于约 260B 个 1931 年前英文 token,团队开放了 base 和对话版 checkpoint,并称这是他们所知最大的 vintage LM。
最值得看的一点也在这里:一个模型越“落后于时代”,越适合拿来审问今天的大模型。它不负责证明过去多神秘,它负责暴露现代 AI 到底吃了多少现代网络红利。
发布了什么,别把它看成 1930 年智能体
这件事可以压成一张表:
| 维度 | Talkie 这次的信息 | 该怎么理解 |
|---|---|---|
| 模型 | talkie-1930-13b-base,13B 参数 | 现代架构训练出的历史语料模型 |
| 数据 | 约 260B 个 1931 年前英文 token | 不是现代网页语料的常规路线 |
| 开放 | Hugging Face 开放 base 与对话版 checkpoint | 外部可以做复现和对照实验 |
| 对话版 | 未用常规现代聊天指令数据微调 | 但仍有现代 AI 反馈参与后训练 |
| 后续计划 | 团队计划训练 GPT-3 级模型 | 不是已经做出 GPT-3.5 级能力 |
| 语料上限 | 团队估计历史语料可扩到万亿 token 以上 | 规模有潜力,质量是硬约束 |
训练材料包括书籍、报纸、期刊、科学论文、专利、判例等。时间截到 1930 年底,部分原因是美国公版版权边界。
但历史文本不是干净网页。纸本扫描、版式、旧字体、OCR 错误,都会进入训练数据。
原文给了一个很扎实的约束:传统 OCR 转录历史文本的训练效率,大约只有人工转录版本的 30%;用 regex 清洗后约到 70%。这不是小瑕疵。对大模型训练来说,脏数据会直接变成算力损耗。
所以 Talkie 的第一层价值不是“很能聊”。它把一个被行业长期低估的问题搬到台前:数据质量不是工程细节,是能力来源的一部分。
它为什么值得 AI 从业者认真看
团队还做了一个现代 twin:同架构、同算力,用 FineWeb 现代网页数据训练。
结果很符合直觉:Talkie 在标准评测上整体落后。可一旦过滤掉明显不适合 1930 年视角的问题,差距大约缩小一半;在核心语言理解和数字任务上,它和现代 twin 接近。
这才是关键。
很多评测分数并不只是“智力”。里面混着时代知识、网页经验、题库污染、现代问答格式,以及模型对当代互联网语气的适应。
Talkie 能做几类少见实验:
- 测模型能否“预测未来”,比如面对 1950、1960 年代事件描述时困惑度如何变化;
- 测模型能否重新发现后世科学与发明,比如图灵机、直升机、复印技术;
- 测模型能否从上下文示例学习 Python;
- 测同架构模型在历史语料和现代网页语料上的能力差距。
但边界要说清。
Python 成功案例多是一行程序,或对上下文示例做极小修改,比如把编码函数改成解码函数。这很有研究价值,但不能翻译成“模型无师自通现代编程”。
污染也不是零。团队承认存在时间泄漏:模型知道部分 Roosevelt、新政、二战后秩序、联合国、德国分裂等信息。对话版还用了 Claude Sonnet 4.6 做偏好判断,Claude Opus 4.6 参与生成多轮合成聊天。
换句话说,Talkie 的身体来自旧文本,性格仍被现代 AI 摸过一遍。
对两类人,影响很直接。
| 读者 | 这件事意味着什么 | 更现实的动作 |
|---|---|---|
| 做大模型评测的人 | 标准 benchmark 里有时代知识和污染噪声 | 增加时间隔离测试,拆分“知识题”和“推理题” |
| 做数据治理和训练管线的人 | OCR、清洗、后训练会改变模型能力和性格 | 记录数据来源、清洗强度、偏好模型来源,别只报参数和 token |
| 关心模型人格的科技读者 | 助手口吻不是天然长出来的 | 看模型时多问一句:它读过什么,又被谁校正过 |
如果我是评测团队,我不会立刻把 Talkie 当新基准神物。更合理的做法,是把它当污染压力测试工具。
比如同一道题,分别给现代模型、Talkie、FineWeb twin 做对照。再把题目按时间、领域、现代术语密度分桶。这样才能看清:模型到底是在推理,还是在背答案;是在理解语言,还是在复述互联网。
企业采购方也不用因为它改选型。Talkie 不是产品替代品。但如果供应商只给总分,不给训练数据、后训练来源、污染控制说明,那就该多问几句。模型越强,来路越不能糊。
真正被照见的,是现代模型的来路
我更在意 Talkie 的对照组意义。
现代模型看起来聪明,一部分来自规模和架构;另一部分来自它吃过太多现代网络材料。网页不只是知识库。它还灌进语气、偏见、代码习惯、问答格式、SEO 垃圾、论坛争吵、开源仓库和合成数据。
这些东西会变成模型的“默认人格”。
Talkie 暂时拿掉这层背景,问题就变得尖锐:语言模型到底能从一般文本里学到多少抽象结构?哪些能力必须靠现代数据喂出来?哪些评测只是时代常识和题库残影?
这对行业有点刺耳。过去几年,大模型圈有个隐秘便利:网页越多,后训练越重,分数通常越好。可分数变好,不等于我们理解了能力来源。
“天下熙熙,皆为利来。”这句老话放到今天的 AI 训练里并不突兀。数据、清洗、偏好裁判、合成样本,每一层都有成本,也有控制权。谁掌握这些环节,谁就在塑造模型能说什么、怎么说、像谁说。
历史上也有类似一幕。早期电力工业不只比发电机功率,还要解决标准、计量、损耗和监管。AI 现在也走到这一步。参数规模仍重要,但数据来源、清洗方法、后训练裁判,正在变成真正的基础设施。
Talkie 的价值就在这里。
它不会替代现代模型,也不是面向普通用户的强产品。它更像一块实验室里的校准砝码。砝码不讨好用户,但能告诉你秤有没有偏。
接下来最该看三件事:
- GPT-3 级 vintage LM 是否真的能训练出来,历史语料质量能否撑住规模;
- 和 FineWeb twin 的差距,在去掉时代错位后还剩多少;
- 对话版的后训练,到底把多少现代助手习惯重新塞回了模型。
别把 Talkie 当怀旧玩具。它最锋利的问题是:如果把现代互联网从模型胃里拿走,剩下的“智能”到底还剩多少?
这个问题,比和一个 1930 年口吻的聊天机器人谈天,重要得多。
