100道研究级数学题,最后只剩2道没有被大模型解出。

这个数字很抓人,也很容易被读歪。它不是“AI攻克了100道开放数学难题”,也不是“数学家快没用了”。更准确的读法是:当模型可以多跑几次、用更重的思考模式时,它能覆盖的研究级数学问题变多了。

这件事有意思的地方,正在这里。

论文《Benchmarks in Leipzig》已经发布在arXiv,编号2606.05818。49名数学家参与整理了一个新基准:100道答案已知的研究级数学问题。题目涉及数学史综述、AI、代数几何、组合、表示论等方向。

我更在意的,不是“98题”这个漂亮数字,而是它到底证明了什么,又没证明什么。

莱比锡基准是什么:研究级,但不是开放难题

这套数据集的主要工作发生在德国莱比锡马克斯·普朗克数学科学研究所。那里有一个为期3天的工作坊,名字就叫“Benchmarks in Leipzig”。

后来,作者名单扩展到49名数学家。论文把这100道题做成基准,核心前提是:它们都是研究级问题,但答案已知。

这个设计很关键。

答案已知,才方便评测。研究级问题,又让它比普通考试题更接近数学研究现场。它卡在两者中间:比标准题库更难、更散,也比真正开放难题更适合做基准。

和常见数学基准放在一起看,差别更清楚:

对照项常见数学基准莱比锡基准
题目来源教育、竞赛或标准题库数学家整理的研究级问题
答案状态通常有标准答案100题答案已知
题目方向更便于统一评分覆盖数学史综述、AI、代数几何、组合、表示论等
主要价值适合横向跑分更接近专业数学语境
主要限制离研究现场可能较远样本只有100题,不能代表全部数学研究

这也解释了为什么它值得看。

过去谈LLM数学能力,很多讨论围绕MATH、GSM8K、Minerva这类基准。它们有用,尤其适合看模型在标准问题上的进步。但数学研究不是只做标准题。专业数学里的问题常常更长、更偏、更依赖背景知识。

莱比锡基准补上的,是这块缺口。

不过,缺口不等于全景。100道题很有价值,但不能外推成“LLM已经普遍达到数学家研究能力”。一叶知秋可以,不能以叶代林。

未解题从41道降到2道:进步很大,变量也很大

论文的评测分三阶段。

第一阶段,5个SOTA LLM对每道题做单次尝试。第二阶段,选其中3个模型,每题运行20次。第三阶段,2个heavy-thinking模型每题尝试3次。

结果是:完全未解出的题数,从41道降到16道,再降到2道。

阶段评测方式完全未解题数量更合理的解读
Stage 15个SOTA LLM单次尝试41单次解题仍有明显空白
Stage 23个模型每题20次16多次采样显著提高命中率
Stage 32个heavy-thinking模型每题3次2重思考模型扩大了解题覆盖面

这组数字说明,模型确实变强了。至少在这100道答案已知的研究级问题上,前沿LLM已经能触达不少过去很难用自动化方式处理的数学材料。

但这里不能偷换概念。

“每题20次”和“单次解出”不是一回事。多跑几次,本来就会提高命中率。尤其是数学题,模型可能某一次走对证明路径,下一次又在细节上偏航。把20次里的最好结果拿出来,当然会比单次尝试更好看。

heavy-thinking模型也是同理。它们往往会花更多推理预算,尝试更长链路。结果变好,既反映能力提升,也反映计算投入增加。

所以,这篇论文更像是在提醒我们:评测LLM数学能力,不能只问“会不会”。还要问三个问题:

  • 是单次会,还是多次采样后有一次会?
  • 是普通推理会,还是重思考模式下会?
  • 是能给出可审计证明,还是只给出看似合理的答案?

这几个问题,对技术读者很实际。

如果你在做数学辅助工具,不该只看“总覆盖率”。更该把产品设计成可多轮生成、可比较候选解、可让人审证明的工作流。换句话说,不要把模型当一次性判题机,而要当一个会反复试探的研究助手。

如果你是数学与AI交叉研究者,这个基准的价值也不在排行榜。它更适合拿来研究“模型在哪些题型上反复失败,在哪些题型上多跑就能撞中”。这比单个总分更有信息量。

它影响的是研究流程,不是数学家的位置

这项基准最容易被夸大的地方,是把“覆盖更多题”说成“替代数学家”。

目前看,还没到这一步。

原因很简单:数学研究不只需要答案。它还需要定义是否用得准,证明是否完整,引用是否可靠,结论是否能被同行检查。模型能生成候选路径,是好事。但候选路径要变成数学结果,中间还有验证成本。

这也是普通开发者和研究团队最该调整预期的地方。

短期更现实的动作,不是“把数学家换成模型”,而是把LLM放进三个环节:找相关背景、生成候选思路、补充例子和反例。真正要谨慎的,是最后一步:证明核验。

采购或自建工具时,也不该只问供应商“数学能力多少分”。更该问:

要问的问题为什么重要
同一道题多次运行是否稳定防止只挑最好样本展示
能否输出完整可审计证明数学结论不能只靠口头答案
是否做过去污染检查研究级题目也可能有相近材料被模型见过
不同领域表现是否分开统计代数几何、组合、表示论不能混成一个总分

论文原材料没有提供具体模型名称、单模型分数,也没有给出足够细的题目难度分布。外界因此不能把它当成产品排行榜。

这不是挑刺,而是边界。

莱比锡基准真正推进的,是评测问题本身。它把问题从“模型会不会做标准数学题”,推到了“模型在研究级材料上,经过多轮尝试和重思考后,能覆盖到哪里”。

这个问题更接近现实,也更难被一句口号概括。

回到开头那2道未解题。它们当然吸引眼球,但更重要的是前面那98道是怎么来的。靠单次能力,还是靠多次采样?靠普通推理,还是靠更重的计算预算?靠可验证证明,还是靠人来筛选正确结果?

答案不同,结论就不同。

LLM数学能力在进步,这个判断可以成立。把它说成已经普遍具备数学家的研究能力,证据还不够。