一个 AI 小测验,把 Simon Willison 分到了 “The Garage Tinkerer”。
这个结果很像他:跑本地模型,做小工具,打开终端,把东西接起来;少耗在 AI 圈没完没了的 discourse 里。好笑,也有点准。
The AI Compass 的重点不在“测得准不准”。它更像一面哈哈镜:把 AI 圈里那些信仰、怀疑、伦理焦虑和实用主义,粗暴但有效地照了出来。
这个测试到底是什么
The AI Compass 是 bambamramfan 做的一个“政治罗盘式”AI 测试。
用户回答 29 个关于 AI 和 AI ethics 的问题后,会落到一张二维坐标图上。两条轴分别是 GOOD/BAD,以及 OVERHYPED/TRANSFORMATIVE。最后系统会给出 30 种 archetypes 之一。
Simon Willison 在自己的 link blog 里推荐了它,并晒出首次测试结果。他不是作者,只是觉得这个测试 pretty neat。
关键信息可以压成一张表:
| 项目 | 信息 |
|---|---|
| 工具 | The AI Compass |
| 作者 | bambamramfan |
| 形式 | 政治罗盘式 AI 立场测试 |
| 题量 | 29 个 AI 与 AI ethics 问题 |
| 坐标轴 | GOOD/BAD,OVERHYPED/TRANSFORMATIVE |
| 输出 | 30 种原型之一 |
| Simon 结果 | The Garage Tinkerer |
| 实现 | 单页 React 应用,用 <script type="text/babel"> 避开构建步骤 |
| 代码 | 开源在 GitHub |
“The Garage Tinkerer” 这张结果卡的描述也很直白:你在跑本地模型,做小工具,玩得挺开心;你不太关心争论,更关心让东西做出有意思的事;大家如果少吵一点,多打开终端,可能会快乐得多。
别把它看成学术量表。材料里没有统计学效度,也没有严肃研究方法。它就是一个网页小工具。
但小工具有时比长报告更快抓住气味。
它为什么有意思:AI 争论正在变成身份标签
今天很多 AI 讨论,已经不只是“你怎么看这项技术”。它更像在问:你是哪一类人?
有人把 AI 当生产力革命。有人把它当泡沫机器。有人关心版权、劳动替代、偏见、安全和权力集中。也有人只想知道:这个模型今天能不能帮我把活干完。
更麻烦的是,这些立场经常混在一起。
一个人可以相信 AI 会改变工作,同时讨厌行业吹牛。一个开发者可以天天用模型写代码,也担心平台拿用户数据训练。一个伦理批评者也可能并不反技术,只是不愿意把成本甩给创作者、劳动者和普通用户。
The AI Compass 好玩,就好玩在这里。它把这团混杂物压到两条轴上。
GOOD/BAD 是价值判断。OVERHYPED/TRANSFORMATIVE 是技术判断。两条轴一交叉,AI 圈常见的分裂就出来了:乐观派、怀疑派、风险派、实用派,都能在图上找到一个位置。
这套压缩当然粗糙。伦理问题不是 29 道题能装下的。版权、劳工、能源、偏见、平台控制,都是真问题,不会因为有人能在终端里跑本地模型就自动消失。
但它至少提醒了一件事:标签一旦形成,讨论就容易偷懒。
支持者被叫成信徒。批评者被叫成恐慌者。动手的人被当成幼稚乐观派。然后大家各回各的象限,互相截图,互相确认。
这对两类人最有影响。
开发者可以玩这个测试,但别把结果当身份徽章。更有用的动作是拿它反查自己:我是不是高估了模型能力?是不是低估了合规、隐私和成本?是不是只会批评,却没有把一个流程跑通?
团队管理者也可以把它当破冰工具。不是用来给人贴标签,而是让乐观派、风险派和实用派把分歧摊开。真正的采购、迁移和治理规则,仍然要看具体任务测试,不看象限站位。
立场可以测,能力只能做出来
我喜欢 Simon 这个结果,不是因为 “The Garage Tinkerer” 高人一等。
我更在意的是,这个原型把一个被争论淹没的事实拎了出来:AI 时代稀缺的不是态度,是把模型接进真实工作流的能力。
会评论模型,不等于会使用模型。会复述风险,不等于会设计约束。会喊颠覆,也不等于知道一个团队怎样把 AI 放进客服、数据分析、代码审查、文档处理,而且不把系统搞乱。
“纸上得来终觉浅。”这句话放在今天的 AI 争论里仍然很硬。
它不是说批评无用。没有伦理批评,平台很容易把版权、隐私和劳动成本外包给别人。它说的是另一件事:没有实践的批评容易飘,没有约束的实践容易野。
动手派真正的价值,不在于少谈伦理,而在于他们更早碰到边界。
模型会胡说。接口会坏。成本会涨。数据会卡。权限会卡。用户会误用。上线之后,所有漂亮叙事都要被日志、工单、预算和责任链重新审一遍。
这也是接下来最该观察的地方:不是 The AI Compass 会不会流行,而是玩完之后,人有没有从“我属于哪一派”回到“我能验证什么”。
可以看三件事:
- 开发者有没有把模型接进一个真实任务,而不是只晒结果图。
- 团队有没有记录失败案例、成本变化和误用风险。
- 组织有没有把权限、隐私、人工复核写进流程,而不是只买一个工具。
历史上新技术扩张常有类似场面。铁路、电力、早期互联网,都有布道者、怀疑者、投机者,也有一批修修补补的人,把系统一点点铺进日常。
AI 不完全一样。它牵涉内容、劳动和认知权力,争议更深。可旧逻辑还在:天下熙熙,皆为利来。热闹的地方,标签长得最快,利益也藏得最深。
所以 The AI Compass 可以玩。也可以笑一下。
但测完之后,最好还是打开终端,打开文档,打开一个真实问题。看模型到底省了哪一步,又在哪一步埋了坑。
坐标图给你一个位置。工作流才会告诉你,你有没有本事。
