莱比锡100道研究级数学题：LLM只剩2题未解，但别急着说数学家退场

核心摘要 Summary

arXiv 论文《Benchmarks in Leipzig》（2606.05818）整理了100道答案已知的研究级数学问题，49名数学家参与，主要工作发生在莱比锡一个为期3天的工作坊。
三阶段评测后，完全未解题从41道降到16道，再降到2道。
我的判断是：这说明LLM的数学覆盖面明显扩大，但主要变量包括多轮尝试和heavy-thinking模型，不能直接等同于单次研究能力接近数学家。

100道研究级数学题，最后只剩2道没有被大模型解出。

这个数字很抓人，也很容易被读歪。它不是“AI攻克了100道开放数学难题”，也不是“数学家快没用了”。更准确的读法是：当模型可以多跑几次、用更重的思考模式时，它能覆盖的研究级数学问题变多了。

这件事有意思的地方，正在这里。

论文《Benchmarks in Leipzig》已经发布在arXiv，编号2606.05818。49名数学家参与整理了一个新基准：100道答案已知的研究级数学问题。题目涉及数学史综述、AI、代数几何、组合、表示论等方向。

我更在意的，不是“98题”这个漂亮数字，而是它到底证明了什么，又没证明什么。

莱比锡基准是什么：研究级，但不是开放难题

这套数据集的主要工作发生在德国莱比锡马克斯·普朗克数学科学研究所。那里有一个为期3天的工作坊，名字就叫“Benchmarks in Leipzig”。

后来，作者名单扩展到49名数学家。论文把这100道题做成基准，核心前提是：它们都是研究级问题，但答案已知。

这个设计很关键。

答案已知，才方便评测。研究级问题，又让它比普通考试题更接近数学研究现场。它卡在两者中间：比标准题库更难、更散，也比真正开放难题更适合做基准。

和常见数学基准放在一起看，差别更清楚：

对照项	常见数学基准	莱比锡基准
题目来源	教育、竞赛或标准题库	数学家整理的研究级问题
答案状态	通常有标准答案	100题答案已知
题目方向	更便于统一评分	覆盖数学史综述、AI、代数几何、组合、表示论等
主要价值	适合横向跑分	更接近专业数学语境
主要限制	离研究现场可能较远	样本只有100题，不能代表全部数学研究

这也解释了为什么它值得看。

过去谈LLM数学能力，很多讨论围绕MATH、GSM8K、Minerva这类基准。它们有用，尤其适合看模型在标准问题上的进步。但数学研究不是只做标准题。专业数学里的问题常常更长、更偏、更依赖背景知识。

莱比锡基准补上的，是这块缺口。

不过，缺口不等于全景。100道题很有价值，但不能外推成“LLM已经普遍达到数学家研究能力”。一叶知秋可以，不能以叶代林。

未解题从41道降到2道：进步很大，变量也很大

论文的评测分三阶段。

第一阶段，5个SOTA LLM对每道题做单次尝试。第二阶段，选其中3个模型，每题运行20次。第三阶段，2个heavy-thinking模型每题尝试3次。

结果是：完全未解出的题数，从41道降到16道，再降到2道。

阶段	评测方式	完全未解题数量	更合理的解读
Stage 1	5个SOTA LLM单次尝试	41	单次解题仍有明显空白
Stage 2	3个模型每题20次	16	多次采样显著提高命中率
Stage 3	2个heavy-thinking模型每题3次	2	重思考模型扩大了解题覆盖面

这组数字说明，模型确实变强了。至少在这100道答案已知的研究级问题上，前沿LLM已经能触达不少过去很难用自动化方式处理的数学材料。

但这里不能偷换概念。

“每题20次”和“单次解出”不是一回事。多跑几次，本来就会提高命中率。尤其是数学题，模型可能某一次走对证明路径，下一次又在细节上偏航。把20次里的最好结果拿出来，当然会比单次尝试更好看。

heavy-thinking模型也是同理。它们往往会花更多推理预算，尝试更长链路。结果变好，既反映能力提升，也反映计算投入增加。

所以，这篇论文更像是在提醒我们：评测LLM数学能力，不能只问“会不会”。还要问三个问题：

是单次会，还是多次采样后有一次会？
是普通推理会，还是重思考模式下会？
是能给出可审计证明，还是只给出看似合理的答案？

这几个问题，对技术读者很实际。

如果你在做数学辅助工具，不该只看“总覆盖率”。更该把产品设计成可多轮生成、可比较候选解、可让人审证明的工作流。换句话说，不要把模型当一次性判题机，而要当一个会反复试探的研究助手。

如果你是数学与AI交叉研究者，这个基准的价值也不在排行榜。它更适合拿来研究“模型在哪些题型上反复失败，在哪些题型上多跑就能撞中”。这比单个总分更有信息量。

它影响的是研究流程，不是数学家的位置

这项基准最容易被夸大的地方，是把“覆盖更多题”说成“替代数学家”。

目前看，还没到这一步。

原因很简单：数学研究不只需要答案。它还需要定义是否用得准，证明是否完整，引用是否可靠，结论是否能被同行检查。模型能生成候选路径，是好事。但候选路径要变成数学结果，中间还有验证成本。

这也是普通开发者和研究团队最该调整预期的地方。

短期更现实的动作，不是“把数学家换成模型”，而是把LLM放进三个环节：找相关背景、生成候选思路、补充例子和反例。真正要谨慎的，是最后一步：证明核验。

采购或自建工具时，也不该只问供应商“数学能力多少分”。更该问：

要问的问题	为什么重要
同一道题多次运行是否稳定	防止只挑最好样本展示
能否输出完整可审计证明	数学结论不能只靠口头答案
是否做过去污染检查	研究级题目也可能有相近材料被模型见过
不同领域表现是否分开统计	代数几何、组合、表示论不能混成一个总分

论文原材料没有提供具体模型名称、单模型分数，也没有给出足够细的题目难度分布。外界因此不能把它当成产品排行榜。

这不是挑刺，而是边界。

莱比锡基准真正推进的，是评测问题本身。它把问题从“模型会不会做标准数学题”，推到了“模型在研究级材料上，经过多轮尝试和重思考后，能覆盖到哪里”。

这个问题更接近现实，也更难被一句口号概括。

回到开头那2道未解题。它们当然吸引眼球，但更重要的是前面那98道是怎么来的。靠单次能力，还是靠多次采样？靠普通推理，还是靠更重的计算预算？靠可验证证明，还是靠人来筛选正确结果？

答案不同，结论就不同。

莱比锡100道研究级数学题：LLM只剩2题未解，但别急着说数学家退场

莱比锡基准

基准定位

样本有限

价值补位

未解骤降

多次采样

重思考

能力边界

单次差异

证明核验

流程影响

适用环节

评测重心

莱比锡基准是什么：研究级，但不是开放难题

未解题从41道降到2道：进步很大，变量也很大

它影响的是研究流程，不是数学家的位置