一名开发者最近做了个很直观的测试:把一个想了多年的牧羊犬小游戏,交给 Anthropic 新发布的模型,一次性生成。
结果不是几行玩具代码。模型推理和生成约 45 分钟,最后给出一个单文件网页游戏:2319 行、零依赖的 index.html。token 成本超过 20 欧元。
作者说,成品好玩,也符合自己的原始设想。他还放出了试玩链接和视频,并在 GitHub 上保留了早期模型的失败或尝试记录。
这事有意思的地方,不是“AI 会写小游戏”这件老新闻。真正的变化在于:它把一个不在经典题库里的个人想法,直接推到了可试玩状态。
但也要收住。这个案例目前只能说明,强模型在长推理、高成本、目标清楚的条件下,已经能跨过一部分原型开发门槛。它不能证明 AI 已经能稳定替代游戏开发。
这次成功,成功在闭环
让 AI 写贪吃蛇、俄罗斯方块、平台跳跃 demo,已经不新鲜。很多模型都能做出一个能跑的版本。
这次的区别在于,任务不是复刻经典样例,而是实现一个具体创意:牧羊犬驱赶羊群,有互动规则,有手感判断,还要能直接打开试玩。
对开发者来说,这更接近“把脑子里的原型掏出来”。不是让模型背一道常见编程题。
| 事实项 | 这次案例 | 应该怎么读 |
|---|---|---|
| 生成耗时 | 约 45 分钟 | 不是秒级补全,而是一次长推理任务 |
| 成本 | token 费用超过 20 欧元 | 个人实验能接受,高频使用会肉疼 |
| 交付物 | 2319 行、零依赖 index.html | 易于试玩和分享,但工程复杂度有限 |
| 验证材料 | 有试玩链接、视频和早期尝试记录 | 比单张截图可信,但仍是单点案例 |
这里还要把一个标签放回原位。作者用了“世界最危险 AI”这样的说法,更多是沿着新模型发布后的争议语境在表达。
不能把这句话当成独立验证过的安全结论。本文能讨论的,是它在这次编码任务里的表现,而不是给模型安全性盖章。
和早期模型比,差别是少返工
从作者保留的早期尝试看,旧模型不是完全写不出游戏。问题常出在最后一公里。
规则能跑,但不好玩。画面有了,但互动不稳。代码能解释,成品不像最初想象的东西。
这正是很多 AI 编程体验里最消耗人的部分。第一版很快,修到能用很慢。
这次案例更像是在说明:返工次数可能被压低了。模型不只是生成代码片段,而是在一次任务里处理了规则、交互、呈现和交付。
受影响最大的是两类人。
独立开发者可以把它当成高价快速打样工具。一个想法过去可能要挤出一个周末写 demo,现在有机会用几十分钟和二十多欧元换一个可试玩版本。
小团队也会调整验证方式。不是立刻迁移全部开发流程,而是把“要不要做”这一步提前交给模型试水。先看手感,再决定要不要投入人力。
这会改变的不是正式开发,而是立项前的筛选。很多想法以前死在“懒得做第一版”,现在会死在“试玩后确实不好玩”。这反而更健康。
成本和复现性,是硬边界
最容易误读的说法是:AI 已经能一次开发游戏。
这个结论太大。眼前这个成果是单文件网页游戏,没有后端、账号系统、多人同步、素材管线、性能适配和版本维护。它也没有经历商业发布前的测试流程。
也就是说,它更像原型,不像产品。
还有一个问题更现实:能不能复现。
一次成功不等于稳定能力。提示词质量、模型当日状态、上下文长度、推理预算、开发者对“好玩”的容忍度,都会影响结果。
20 欧元以上的 token 成本也不是小数。对一次个人实验,它很酷;对每天要反复试几十个方案的团队,它会立刻进入预算表。
接下来最该看的不是更多炫技视频,而是三个变量:
| 变量 | 要看什么 | 过关才意味着什么 |
|---|---|---|
| 多次生成 | 同一提示能否多次产出接近质量 | 不是抽卡式成功 |
| 复杂项目 | 代码结构能否维护和扩展 | 不只是一次性 demo |
| 成本下探 | 普通订阅或低价模型能否接近效果 | 才可能进入日常工具链 |
如果这三项过不了,开发者就该把它当作“昂贵但有用的原型按钮”。
如果这三项逐步过关,团队才有理由重新安排流程:把早期 demo、交互验证、内部概念稿更多交给模型,把人的时间留给验收、设计取舍和工程化。
这也是我更在意的地方。AI 编程的进步,不一定表现为一夜之间替代程序员。更常见的变化,是把某些原来嫌麻烦、不值得启动的工作,压到可以试一试的成本线以内。
这个牧羊犬游戏,就卡在这条线上。
