过去很多人以为,AI 做数学,最多是把奥赛题刷得更快。
现在这个判断不够用了。Google DeepMind 和 OpenAI 的系统已经达到 IMO 金牌水平;Google DeepMind 的实验系统 Aletheia 产出博士级、可发表的算术几何研究结果;OpenAI 的通用 AI 系统还推翻了组合几何中的一个重要猜想。
这不是“数学家要下岗”的证据。更准确地说,AI 已经碰到纯数学研究里最敏感的几道工序:发现、证明、验证,以及解释结果为什么重要。
我更在意的是后半句。
如果机器能给出答案,甚至能把证明交给形式化系统检查,数学还只是追求正确结果吗?还是说,人类理解那条路,本身就是数学价值的一部分?
AI 已经切进发现、证明和验证
计算机进入数学并不新鲜。
1976 年,四色定理的计算机证明就曾让数学界不适。机器检查了大量情形,人类很难逐项手工复核。后来这类证明被接受了,但也留下一个问题:如果证明正确,却不是人类可以完整把握的形式,数学共同体该怎么处理?
今天的新变化,不是“数学终于用上计算机”。证明助手 Isabelle、Lean、Rocq 已经存在多年。变化在于,LLM 正在降低使用这些工具的门槛。
以前,数学家要把自然语言证明改写成机器能读的形式化代码。这件事费时,也需要专门训练。现在,LLM 可以协助把非形式化证明转成可验证代码,等于把一部分“翻译成本”压低了。
几个事实放在一起看,边界已经移动:
| 环节 | 近期进展 | 更稳妥的理解 |
|---|---|---|
| 解题 | Google DeepMind、OpenAI 系统达到 IMO 金牌水平 | 说明 AI 已能处理高强度竞赛推理,但奥赛题不等于长期研究问题 |
| 发现 | Aletheia 产出博士级、可发表的算术几何结果 | “可发表”说明越过研究门槛,但不等于共同体已经完全消化 |
| 反例 | OpenAI 系统推翻组合几何中的重要猜想 | 关键不只是算得快,而是体现了搜索反例和改写问题的能力 |
| 验证 | Math, Inc. 的 Gauss 形式化 Viazovska 球堆积证明 | 证明助手不是新技术,新变量是 LLM 让形式化流程更自动化 |
Gauss 这个例子尤其值得放大一点看。
它先协助人类在数天内完成 Viazovska 八维球堆积证明的形式化,随后又在两周内自主形式化更复杂的 24 维情形。这里的重点不是“会不会做一道题”,而是它接近了科研日常:读证明、转写证明、检查证明、补齐机器可验证的细节。
这对纯数学团队和博士生很现实。
年轻研究者过去常靠一个小问题、一段技术细节、一次漂亮证明来建立信用。现在,他们可能要更早学习 Lean、Isabelle、Rocq 这类工具,也要学会用 AI 生成候选反例、检查证明缺口、整理形式化版本。
训练路径会变。不是少学数学,而是多学一层“和机器一起做数学”的方法。
数学家不安的不是饭碗,是理解被挤到后面
数学家会兴奋,也会不安。
兴奋好理解。很多难题卡住多年,如果 AI 能找到新结构、新反例、新证明路线,任何严肃研究者都不会拒绝工具。
不安也不矫情。纯数学研究里,长期思考本身就是工作的一部分。几年盯着一个抽象对象,看起来没有产出,但那里面有直觉的形成、失败路线的排除、概念的重组,还有最后那一下“原来如此”。
AI 最容易改变的,正是这段慢过程。
现在大致有三种态度:
| 立场 | 具体想法 | 代价 |
|---|---|---|
| 只要答案 | 只要 AI 能解出难题,结果就该被接受 | 人类可能变成解释机器结论的人,离发现过程越来越远 |
| 人类理解优先 | AI 证明有用,但还要寻找优雅、可交流的人类证明 | 进展会慢一些,但保留数学作为共同语言的价值 |
| 人机协作 | 接近 Terence Tao 说的“大数学”:人和机器共同处理复杂问题 | 需要新的署名、复核、责任和训练规范 |
我不太买账“只要答案”的版本。
数学当然要正确答案。但如果一个证明只能被机器验证,人类只能相信系统输出,那么它和传统数学之间会隔着一层玻璃。看得见结果,摸不到结构。
这并不是说机器证明没有价值。恰恰相反,形式化验证能减少隐性错误,也能让大型证明更可靠。问题在于,验证正确和人类理解不是一件事。
对年轻数学家来说,压力会更直接。
过去的竞争是:谁更早找到一个好问题,谁更能磨出细节。现在可能变成:谁更会提出机器能推进的问题,谁更能判断机器输出的意义,谁更能把结果讲回人类可交流的语言。
这不是纯粹的工具升级。它会改变论文选题、博士训练和合作方式。
分水岭不是 AI 会不会做题,而是共同体怎么承认它
现在还不能把 AI 生成结果等同于数学共同体完全接受。
原因很简单。数学论文要同行评议,形式化证明要依赖可靠的库和可复现流程,重大猜想的意义还要由领域专家判断。一个结果“可发表”,和一个结果“已经被共同体稳定吸收”,中间还有距离。
四色定理是一个旧参照。
它后来被接受,但数学界花了很长时间适应这种证明形态:人类无法完整手检所有细节,却可以通过程序和复核流程建立信任。今天 AI 数学遇到的是相似问题,只是速度更快,范围更宽。
接下来要看的不是一句“AI 很强”,而是三条硬条件:
| 观察点 | 为什么重要 |
|---|---|
| AI 产出的论文能否稳定通过严肃审稿 | 决定它是偶发样例,还是持续研究能力 |
| 形式化证明库能否覆盖更多前沿数学 | 决定机器验证能不能跟上真正的研究现场 |
| 机器贡献如何署名、追责、复核 | 决定数学共同体能不能放心使用这些结果 |
如果这些条件跟不上,AI 会先成为强大的研究加速器,而不是独立数学家。
这已经足够重要。
对纯数学研究者,最现实的动作不是恐慌,而是调整工作流:把 AI 当成候选猜想、反例搜索、形式化检查的助手,同时保留人类对问题意义和证明结构的判断。
对数学和计算机相关学生,选择也更具体:只会调用模型不够,只会传统证明也会吃亏。更稳的路线,是把领域数学、形式化工具和 AI 辅助推理放在同一张桌子上训练。
开头那个问题也就回来了。
AI 做出可发表级数学结果后,数学的中心会不会从“人理解了什么”,滑向“机器给出了什么”?目前还看不清。但有一点已经清楚:如果数学只剩答案,很多人最珍视的那部分数学会被挤到边缘。
