MathNet: a global multimodal benchmark for mathematical reasoning and retrieval
MathNet: a global multimodal benchmark for mathematical reasoning and retrieval
原文链接:https://arxiv.org/abs/2604.18584 作者:Shaden Alshammari, Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman, Antonio Torralba 机构:MIT, KAUST, HUMAIN 等 发布日期:2026-04-21
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | MathNet 第一次把高难数学评测拆成“求解 + 数学检索 + 检索增强求解”三联任务,让 benchmark 更接近真实数学 agent 工作流。 |
| 大白话版 | 以前大家只问模型会不会做题;这篇论文开始问:它会不会先找到结构上类似的题,再借着那些思路把题做出来。 |
| 核心数字 | 30,676 题;47 个国家;17 种语言;143 个竞赛;Gemini 3.1 Pro 在 solve 上 78.4;最好检索模型 R@1 只有约 5%;DeepSeek-V3.2-Speciale 在 Expert-RAG 下 97.3 |
| 评级 | A — benchmark 本身不是新模型,但对“数学 agent 应该怎么评”提出了很重要的新范式。 |
| 代码 | 论文主站提供 benchmark 信息,代码/leaderboard 需继续追踪 |
| 关键词 | Math benchmark、retrieval、RAG、Olympiad、multilingual、multimodal、structural resonance、math agents |
核心 Insight
MathNet 最核心的洞察是:真正有用的数学 AI,不只是一个会输出答案的求解器,而更像一个“先找相似结构、再迁移方法、最后给出可验证解答”的工作系统。
这和过去大多数数学 benchmark 的 framing 很不同。传统 benchmark 默认把数学能力理解成“看到题之后直接做出来”。但真实数学工作——尤其是竞赛训练、辅导、研究启发、proof assistant——往往会先经历一个检索阶段:你会想,这题像不像某道见过的题?有没有一个共享引理?是不是能化到某个熟悉结构?
MathNet 的贡献不是造了更难的题,而是把这个“找结构相似题”的过程正式拉进 benchmark 里,并把它与最终求解增益连接起来。论文最有力量的数据,也恰恰说明这个洞察是对的:顶级生成模型已经能把 solve 分数做上去,但 embedding 检索的 Recall@1 还惨得只有 5% 左右,说明“会做题”和“会找结构等价题”根本不是同一能力。
为什么这个想法成立?
因为数学里的“相似”并不是普通语义相似。它可能是:
- 同一道题的变量替换;
- 不同领域下的同构结构;
- 共享关键引理;
- 需要同一种结构归约;
- 一道题是另一道题的推广或特例。
文本 embedding 擅长抓语义邻近,但未必能抓数学结构同一性。MathNet 正是把这个差别显性化了。
方法详解
整体架构
MathNet 不是提出求解模型,而是提出一个由三块组成的数据与评测框架:
官方竞赛题册 / PDF
↓ OCR + LLM 抽取 + 三重验证
MathNet-Solve(求解)
├─→ MathNet-Retrieve(结构检索)
└─→ MathNet-RAG(检索增强求解)
组件 1:MathNet-Solve —— 高可信、多语种数学题库
做什么: 构建一个覆盖全球数学竞赛、带官方解答、高质量证明型答案的主 benchmark。
怎么做: 论文从 47 个国家、143 个竞赛、1985-2025 时间跨度中收集官方题册,累计 1595 本 PDF、超过 25,000 页。随后通过三阶段 pipeline 抽取题目与解答:
- 用 OCR 把 PDF 转成 markdown;
- 用 LLM 识别题目/解答片段并抽取为更 LaTeX 友好的表示;
- 用规则检查 + GPT-4.1 judge + 人工复核做三重验证。
这一步很关键,因为过去很多数学 benchmark 的短板不在“题不够难”,而在“解答不够权威、不够整洁、题解对不齐”。MathNet 的价值首先来自官方来源与高质量抽取。
组件 2:MathNet-Retrieve —— 把数学检索正式变成任务
做什么: 评估模型是否能在候选题里找到数学上等价或高度结构相似的问题。
怎么做: 从 10,000 个 anchor 出发,为每个 anchor 构造:
- 1 个 equivalent positive
- 3 个 adversarial hard negatives
作者引入三层数学相似性 taxonomy:
- Invariance:严格等价,只是表述变化;
- Resonance:不严格等价,但共享关键解法结构;
- Affinity:主题相近但未必共享方法。
这里最有价值的是 Resonance 概念。因为真实数学启发最常发生在这一层:不是“同一道题改写”,而是“这题和我以前见过的那题,结构上在同一个家族里”。
组件 3:MathNet-RAG —— 检索是否真的能帮求解
做什么: 测试“给模型一题相关例题及其官方解答”后,是否能提升最终求解效果。
怎么做: 论文构造了三种模式:
- Zero-shot:只给目标题;
- Embed-RAG:用 embedding 检到相关题,再给该题及官方解;
- Expert-RAG:直接给专家手工配对的结构共鸣题与官方解。
这个实验设计非常漂亮,因为它把两个问题拆开了:
- 如果给对例题,模型会不会用?
- 今天的检索器能不能真正找对例题?
与现有方法的关键区别
| 维度 | 过去 benchmark | MathNet | 为什么更好 |
|---|---|---|---|
| 数据来源 | AoPS/网络题库较多 | 官方国家题册 + 官方解答 | 可信度更高 |
| 语言覆盖 | 以英语为主 | 17 语言、47 国 | 更接近真实全球分布 |
| 任务定义 | 只测求解 | 求解 + 检索 + RAG | 更像数学 agent |
| 相似性定义 | 常按文本/语义近邻 | 引入 invariance/resonance/affinity | 更像数学结构 |
| RAG 评估 | 常缺失 | 专门测检索对求解的真实帮助 | 能分离 retriever 与 solver 瓶颈 |
实验结果
主实验:MathNet-Solve
| 方法 | Solve 分数 |
|---|---|
| Gemini-3.1-Pro | 78.4 |
| Gemini-3-Flash | 70.4 |
| GPT-5 | 69.3 |
| GPT-5-mini | 57.0 |
| Claude Opus 4.6 | 45.7 |
| Gemini-2.5-Flash | 41.1 |
| DeepSeek-V3.2 | 40.1 |
| Grok-3 | 28.5 |
| GPT-4.1 | 21.4 |
| GPT-4o | 6.8 |
解读:
- 顶级模型已经能把 solve 推到 70%+,说明纯生成式数学能力确实在进步;
- 但 Geometry、Discrete 仍明显更难;
- 这也意味着数学 benchmark 不能只停留在“谁 solve 最高”,因为 solve 一项已经不足以暴露能力结构差异。
数学检索实验:MathNet-Retrieve
| 方法 | R@1 | R@5 |
|---|---|---|
| qwen3-embedding-4B | 4.96 | 64.95 |
| gemini-embedding-001 | 4.83 | 68.88 |
| all-mpnet-base-v2 | 3.78 | 57.70 |
| text-embedding-3-large | 2.74 | 54.23 |
| cohere-embed-v4.0 | 2.24 | 44.81 |
解读:
- 这是全篇最值得反复看的表:最强 embedding 的 top-1 检索率也只有约 5%;
- 说明通用 embedding 在数学结构检索上远未过关;
- Recall@5 看起来有所改善,但对真正的自动系统来说,“第一个就得找对”通常才是关键。
RAG 实验:真正瓶颈在 retriever
| 方法 | Zero-shot | Embed-RAG | Expert-RAG |
|---|---|---|---|
| DeepSeek-V3.2-Speciale | 84.8 | 89.5 | 97.3 |
| Gemini-3-Pro | 89.1 | 92.9 | 87.5 |
| GPT-5 | 76.8 | 75.2 | 86.6 |
| Grok-4.1-Fast | 75.4 | 83.8 | 83.2 |
| Claude-4.5-Opus | 46.8 | 55.5 | 52.4 |
关键发现:
- Expert-RAG 常常比 Embed-RAG 更强,说明“好例题”本身确实有用;
- Embed-RAG 有时反而拖后腿,说明错误检索会污染推理;
- 这篇论文真正打中的痛点,不是 solver 不够强,而是 retriever 不够懂数学结构。
可扩展性与多样性分析
MathNet 还同时拉开了国家、语言和多模态维度。论文本身不是 scaling law 论文,但它已经给后续研究搭好了一个更真实的扩展坐标:未来如果要做数学 agent,不只要问“做对多少题”,还要问:
- 在不同国家题风上稳不稳;
- 多语言表述下行不行;
- 带图形、几何、证明时是否掉队;
- 检索和求解是否能共同进步。
复现评估
| 维度 | 评分(1-5) | 详细说明 |
|---|---|---|
| 数据可得性 | ⭐⭐⭐⭐ | benchmark 定义清晰、数据规模大、来源官方,但完整分发与清洗细节仍需继续看仓库开放程度 |
| 代码可得性 | ⭐⭐⭐ | 论文方法更多是 benchmark/pipeline,后续仍要看评测脚本和 leaderboard 完整开放情况 |
| 算力需求 | ⭐⭐⭐ | 评测顶级闭源模型成本不低,但作为 benchmark 使用本身不是难以承受 |
| 工程复杂度 | ⭐⭐⭐⭐ | 官方题册抽取 + OCR + judge pipeline 复杂,完整复刻数据构建并不轻松 |
| 预期收益 | ⭐⭐⭐⭐⭐ | 对数学 tutor、proof assistant、math RAG、教育 AI 都很有参考价值 |
复现建议: 先用公开子集或 test split 复跑 solve / retrieve / RAG 三个任务,重点看自己的 retriever 是否真的能抓住 resonance 级相似题,而不是只做文本近邻。
批判性分析
局限性
论文承认的局限包括:
- visual augmentation 对符号数学帮助有限;
- MathNet-RAG 规模仍较小,需要人工评分;
- MathNet-Retrieve 的正负样本中有一部分是 LLM 合成构造的,不等于真实检索全分布。
我们额外看到的问题:
- 检索任务仍偏向“找题”,而不是“找引理/找技巧/找部分结构”。真实数学工作中,这些中间粒度对象同样重要;
- benchmark 虽然更全球化,但仍主要集中在竞赛数学,和科研级长证明问题还有距离;
- top-1 检索过低也说明现有 embedding 可能需要更结构化的公式表示,而不是继续只堆文本语义。
改进方向
- 公式结构感知检索:引入图结构、符号树或 theorem graph;
- 中间对象检索:不只检题,还检关键引理、常见构造、证明模板;
- 更大规模人类 RAG 配对:把 resonance 层级配对做得更丰富、更像真实教学和研究启发。
独立观察
- MathNet 其实在重新定义“数学智能”的边界:不是会算就够,而是要能在结构空间里导航。
- 这对未来的 deep research agent 很重要,因为很多专业推理任务都不是“看完材料直接答”,而是“先找结构相似案例,再迁移”。
- 如果把这种思想推广到代码、法律、科研文献,都会得到比单纯 QA 更真实的 agent benchmark。
对领域的影响
MathNet 不会像新模型发布那样马上刷屏,但它很可能会悄悄改变接下来一年的研究方向。因为它把一个行业里常被混在一起的问题拆开了:求解、检索、RAG 利用。这种拆解一旦成立,未来数学 agent 的进步就不再只是“解题率涨了几个点”,而会变成“是否真的更会找结构、会用结构、会把外部知识迁移进来”。这比继续造一个更难的做题榜,价值大得多。