一个名叫 Elias Thorne 的人,正在从聊天机器人默认故事里走出来。研究者发现,当用户只要求“讲个故事”时,OpenAI 的 ChatGPT、Anthropic 的 Claude、Google 的 Gemini,以及 Allen Institute for AI 的聊天机器人,都会高频生成围绕 Elias、灯塔看守人、钟表匠、图书管理员等元素的故事。

这件事重要,不在于某个名字突然走红,而在于它提供了一个可观察样本:大模型的安全对齐和合成训练数据循环,可能正在把少数“安全、无害、好交差”的叙事模板放大成网络内容噪音。对出版平台、视频平台和搜索引擎来说,这比一个怪名字更难处理。

Elias Thorne 从默认故事变成网络母题

软件工程师 Daniel May 今年早些时候注意到,Google Trends 中 “Elias Thorne” 到 2025 年末才开始出现搜索记录,2026 年初明显上升;相关查询 “lighthouse keeper” 近几年也在走高。他用 Grok、DeepSeek、Gemini 等模型测试“tell me a story”,常看到灯塔、钟表匠、探险者一类开场。

康奈尔大学信息科学系 Sil Hamilton 和 David Mimno 随后在 arXiv 发布论文《Elias in the Lighthouse, Again?》。研究抽样 2 万个故事,使用 5 类提示词,发现 11 个名字或职业词出现在超过 88% 的生成故事中,且不同模型之间差异不大。

观察对象具体发现判断
模型范围ChatGPT、Claude、Gemini、Allen Institute 聊天机器人不是单一公司产品问题
高频元素Elias、Mara、Elara;灯塔看守人、钟表匠、图书管理员叙事分布出现收窄
样本规模2 万个故事,5 类提示词足以说明现象存在,但不能直接证明因果
外部迹象2026 年初 Elias Thorne 搜索上升模型输出已进入公共内容空间

可能原因指向安全对齐,但还不是定论

研究者提出的解释是:模型对齐过程中会偏好 WildChat 里较“安全”的故事样式。WildChat 包含约 100 万条真实 ChatGPT 对话,其中 166 条包含 “Elias”,部分文本已经带有熟悉的“灯塔”风格。后续模型若用这些数据或由这些模型生成的新数据训练,模板就可能被反复复制。

这个解释有行业背景。今天的大模型训练不只吃网页和书籍,也大量使用合成数据;OpenAI、Anthropic、Google 等公司都在用安全策略降低暴力、色情、仇恨和危险建议输出。代价是,模型在开放式创作中可能更倾向选择低风险叙事:老人、海边、图书馆、手工艺、遗憾与和解。

但不能把这写成已证明的因果链。WildChat 中 166 条含 Elias 的记录不是现象唯一来源,安全对齐也只是研究者正在验证的方向。更准确的说法是:目前证据显示,不同模型的生成分布出现趋同,而合成数据迭代可能让这种趋同更难消散。

受影响的是平台审核、出版筛选和搜索质量

Elias Thorne 已出现在亚马逊自出版书、YouTube AI 内容和垃圾新闻站点中。有的被用作作者名,横跨替代医学癌症手册、YouTube 算法指南、希腊神话书和心理惊悚小说;有的变成奇幻小说主角、音乐人,或 AI 内容站里的悲情老人。

这里的风险不是“所有 Elias Thorne 都是 AI 写的”。BBC 儿童写作比赛中也出现过这个名字,但 Elias 本来就是现实姓名,不能据此指控作品由 AI 生成。真正的问题是,当平台面对海量低成本内容时,名字、职业和叙事模式的重复会成为污染信号,却不是足够可靠的判定证据。

对亚马逊 KDP、YouTube 和内容农场审核团队来说,现实动作会很具体:筛书、查作者、处理投诉、降低垃圾内容在搜索和推荐中的权重。此前 AI 采蘑菇指南、带有提示词残留的小说、图书馆员被要求查找“幻觉书目”,已经说明生成式内容污染会把成本转嫁给编辑、馆员和读者。

接下来最该观察的,不是 Elias 这个名字还会不会火,而是模型厂商是否会公开更多关于合成数据去重、风格多样性评估和安全对齐副作用的指标。若平台只在下游清垃圾,上游模型继续生产同一种“无害故事”,内容生态只会越洗越淡。