AI Can Learn Scientific Taste
AI Can Learn Scientific Taste
原文链接:https://arxiv.org/abs/2603.14473 作者:Jingqi Tong, Mingzhe Li, Hangcheng Li 等(复旦大学、上海创新研究院、OpenMOSS 团队、清华大学) 机构:复旦大学 NLP 组 (Xipeng Qiu 组) 发布日期:2026-03-15
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | 用 70 万篇论文的引文对比信号训练 AI 判断和生成高影响力研究想法 |
| 大白话版 | 像品酒师通过品鉴大量酒来培养”品味”一样,让 AI 通过对比 70 万对”高引 vs 低引”论文来学习”什么是好的研究”,然后用这种品味来指导生成新的研究想法 |
| 核心数字 | • SciJudge-30B 在 SciJudgeBench 上准确率 80.6%,超越所有闭源模型 • SciThinker-30B 对基线策略的域内胜率 81.5% • 跨时间泛化(训练 2024 以前,测试 2025)表现强劲 • SciThinker-30B 击败 GPT-5.2 和 GLM-5 |
| 评级 | B+ — 重要进展。提出了一个优雅的训练范式,直接回应了”AI 缺乏科学品味”的核心批评 |
| 代码 | 暂未开源 |
| 关键词 | RLCF, Scientific Taste, Preference Modeling, Citation Feedback, GRPO, Scientific Judge, Scientific Thinker, AI Scientist |
核心 Insight
“科学品味”不是神秘的人类直觉,而是一个可学习的目标。
这篇论文的核心洞察是将一个看似抽象、主观的概念——“科学品味”——形式化为两个具体的、可训练的能力:
- 判断力(Judgement):给两篇论文,判断哪篇影响力更大
- 创意力(Ideation):给一篇种子论文,生成一个高影响力的后续研究想法
这个形式化的巧妙之处在于:它不需要人工标注(这在科研评估中几乎不可能做到规模化),而是利用引文——科学共同体已有的大规模反馈信号——作为监督信号。
为什么这个想法 work?
关键的哲学基础来自 Hume 和 Kant 的品味理论:品味不是个人的任意偏好,而是一种”sensus communis”——通过合格判断者的共同裁决涌现出来的标准。在科学中,这种共同体裁决通过引文表达。
引文作为监督信号的优势:
- 规模巨大:数百万篇论文,每篇都有引文数据
- 隐含偏好:高引论文 = 社区认为有价值的工作
- 自然匹配:同领域、同时间的论文对比消除了混淆因素
- 无需人工标注:完全可扩展
当然,引文是一个有噪声的信号(马太效应、领域偏差、自引等)。但论文通过领域和时间匹配(field- and time-matched pairs)在很大程度上缓解了这些问题。
方法详解
整体架构
引文数据(2.1M arXiv 论文)
↓
[Stage 1: 构建社区偏好]
同领域同年份配对 → 70 万对 (高引 vs 低引)
↓ ↓
[Stage 2: 偏好建模] [Stage 3: 偏好对齐]
训练 Scientific Judge 训练 Scientific Thinker
(GRPO, 判断哪篇更好) (Comparison-Based GRPO)
↓ ↑
作为奖励模型 ─────────────────→
关键技术组件
组件 1: SciJudgeBench(数据构建)
做什么: 从 arXiv 的 2.1M 论文中构建 696,758 对”高引 vs 低引”论文对。
怎么做:
- 只用标题和摘要(不用全文)
- 每对论文来自同一子领域(subcategory)和同一发表年份
- 覆盖计算机科学、数学、物理等多个领域
- 偏好标签来自引文计数的显著差异
测试集设计(三套互补测试):
| 测试集 | 规模 | 测试目标 |
|---|---|---|
| Main (In-domain) | 728 对 | 域内引文偏好预测 |
| Temporal OOD | 514 对 (2025 年论文) | 时间外推——能预测未来论文的影响力吗? |
| Metric OOD (ICLR) | 611 对 | 跨指标迁移——引文训练能迁移到同行评审分数吗? |
组件 2: Scientific Judge(偏好建模)
做什么: 接收两篇论文的标题和摘要,判断哪篇引文更高。
怎么做: 使用 GRPO 训练,奖励信号是二值正确性:
- 模型生成推理链 + 预测(A 或 B)
- 对每个输入采样 G 个输出
- 组内优势归一化:
- 策略用裁剪代理目标 + KL 惩罚更新
关键创新: Scientific Judge 是一个生成式奖励模型(Generative Reward Model)——它先推理、再判断。这让它能够解释自己的判断(如 Table 2 中的案例所示),而不是简单输出一个分数。
评估方法: 为缓解位置偏差,每对论文评估两次(交换 A/B 顺序),只有两次都一致才算正确。
组件 3: Scientific Thinker(偏好对齐)
做什么: 给定一篇种子论文,生成一个高影响力的后续研究想法。
怎么做: 创新性地使用 Comparison-Based GRPO:
- 给定种子论文,策略模型采样 G 个候选研究想法
- 对 G 个想法进行循环赛(round-robin tournament),每对都由 Scientific Judge 判断
- 每个想法的奖励 = 其在组内的胜率
其中 表示想法 是否击败 。
直觉解释: 这是一个优雅的设计。单个研究想法很难绝对评分(什么是”好的”研究想法?),但两个想法之间的比较更自然、更可靠。循环赛将两两比较聚合为全局排序,然后用排名作为奖励信号。
训练策略
| 项目 | 详情 |
|---|---|
| Judge 基模型 | Qwen2.5-Instruct 系列 (1.5B-32B) + Qwen3-4B/30B + Llama-3.1-8B |
| Thinker 基模型 | Qwen3-30B-A3B-Thinking, Qwen3-4B-Thinking |
| 训练数据 | 696,758 对(Judge); 4,000 篇高引论文(Thinker) |
| 训练算法 | GRPO(Judge); Comparison-Based GRPO(Thinker) |
| 奖励模型 | SciJudge-Qwen3-4B(用于训练 Thinker) |
| 评估器 | GPT-5.2-high, GLM-5, Gemini 3 Pro 多数投票(评估 Thinker) |
与现有方法的关键区别
| 维度 | RLHF | RLVR | RLCF (本文) |
|---|---|---|---|
| 反馈来源 | 人工标注者 | 可验证的正确答案 | 社区反馈(引文) |
| 可扩展性 | 低(标注成本高) | 中(需要 ground truth) | 高(引文数据自然存在) |
| 适用任务 | 对齐、安全 | 数学、编码 | 开放式科学判断和创意 |
| 偏好来源 | 个人偏好 | 客观正确性 | 社区共识 |
实验结果
主实验:Scientific Judge
In-domain 测试(SciJudgeBench):
| 模型 | CS | Math | Physics | Others | 平均 |
|---|---|---|---|---|---|
| GPT-5.2-high | 62.3 | 60.1 | 61.5 | 64.0 | 62.0 |
| Gemini 3 Pro | 65.4 | 63.7 | 64.8 | 66.2 | 65.0 |
| SciJudge-Qwen3-4B | 74.1 | 73.8 | 76.2 | 77.0 | 75.3 |
| SciJudge-Qwen3-30B | 79.5 | 78.9 | 81.2 | 82.8 | 80.6 |
| SciJudge-Qwen2.5-32B | 82.5 | 81.3 | 84.1 | 87.0 | 83.7 |
解读: SciJudge-Qwen3-30B(3B 激活参数的 MoE 模型)就已经超越了所有闭源模型。最大的 SciJudge-Qwen2.5-32B 达到 83.7%。这意味着专门训练的中等模型可以超越通用大模型。
Scaling 趋势
两个维度的 scaling 都有效:
- 数据 scaling:性能与数据量呈近似对数线性关系。SciJudge-Qwen3-30B 从 66.3 提升到 80.6(+14.3pp)。
- 模型 scaling:Qwen2.5 系列从 72.1 (1.5B) → 73.2 (3B) → 76.9 (7B) → 80.6 (14B) → 83.7 (32B)。
泛化能力
| 泛化测试 | 效果 |
|---|---|
| 时间泛化(2025 年论文) | 最高 +55.1pp 提升 |
| 领域泛化(仅 CS 训练→Math/Physics/Others) | 显著跨领域迁移 |
| 指标泛化(引文→ICLR 同行评审分数) | 最高 +72.0pp 提升 |
| 生物学领域(bioRxiv,完全未见) | 有效迁移 |
这是最重要的结果。 尤其是:
- 时间泛化说明引文捕捉的是稳定的社区价值信号,而不仅是训练期的模式
- 跨领域泛化说明存在通用的科学价值模式——好的研究在不同领域有共同特征
- 引文→同行评审的迁移说明两种评价体系虽然不同,但背后有共享的偏好结构
Scientific Thinker 结果
| 模型 | 域内胜率 | 域外胜率 |
|---|---|---|
| SciThinker-30B (vs 基线策略) | 81.5% | 83.0% |
| SciThinker-4B (vs 基线策略) | 76.5% | 76.0% |
| SciThinker-30B vs GPT-5.2 | >50% | >50% |
| SciThinker-30B vs GLM-5 | >50% | >50% |
SciThinker-30B 对三个 SOTA 模型的平均胜率为 54.2%。
消融实验
| 变体 | 域内胜率 | 域外胜率 |
|---|---|---|
| SciThinker-30B + SciJudge 奖励 | 81.5% | 83.0% |
| SciThinker-30B + 基线奖励 (Qwen3-4B-Instruct) | 73.0% | 70.5% |
关键发现: SciJudge 作为奖励模型比通用 LLM 显著更有效(+8.5pp 域内,+12.5pp 域外)。这验证了专门的科学判断能力训练的价值。
复现评估
| 维度 | 评分(1-5) | 详细说明 |
|---|---|---|
| 数据可得性 | ⭐⭐⭐⭐ | 基于公开的 arXiv 数据,构建方法论清晰,SciJudgeBench 是否开源待确认 |
| 代码可得性 | ⭐⭐ | 论文未提及开源计划,无 GitHub 链接 |
| 算力需求 | ⭐⭐⭐ | Qwen3-30B 的 GRPO 训练需要较强 GPU 集群,但 4B 模型已能取得不错效果 |
| 工程复杂度 | ⭐⭐⭐ | GRPO 实现已有开源参考(DeepSeekMath),Comparison-Based GRPO 需要额外实现 |
| 预期收益 | ⭐⭐⭐⭐ | 对 AI 科研辅助系统有直接价值 |
复现建议: 从 Qwen3-4B 开始,用公开的 arXiv 元数据构建 SciJudgeBench,使用开源 GRPO 框架(如 veRL)进行训练。
批判性分析
局限性
论文自述:
- 引文是不完美的社区反馈——有些高潜力论文初期引文少
- 领域分类粒度有限
- 创意评估依赖 LLM 评估器,未经实验验证
- Scientific Judge 只使用标题和摘要
我们额外发现的问题:
-
“好论文”≠“高引论文”的矛盾:引文计数受多种非质量因素影响——作者知名度、机构声誉、领域热度、自引网络、发表在热门会议 vs 冷门期刊等。论文的领域和时间匹配缓解但不消除这些偏差。一个极端例子:综述论文通常引文极高,但其”科学品味”可能远低于一篇引文较少的突破性理论论文。
-
评估的自我循环风险:用 LLM(GPT-5.2, GLM-5, Gemini 3 Pro)评估 LLM 生成的研究想法,存在系统性偏差——LLM 可能偏好”LLM 风格”的想法(措辞工整、结构清晰但可能缺乏真正的创造性突破)。
-
2025 年”未来”数据的时间跨度有限:训练数据截至 2024,测试用 2025 年论文。引文的积累需要数年,所以 2025 年论文的引文数据可能只反映了 1 年内的影响,而非长期影响。
-
Comparison-Based GRPO 的计算成本:每个训练步需要 次两两比较,当 G 较大时计算量可观。论文未详细讨论训练效率。
改进方向
- 多信号融合:引文 + 同行评审分数 + GitHub stars(对于有代码的论文)+ 社交媒体提及 + 后续引用工作的质量。多信号可以缓解单一引文信号的偏差。
- 长期引文动态建模:不仅看总引文,还看引文随时间的变化模式(如”sleeping beauty”论文——初期少引但后来爆发)。
- 全文理解:目前只用标题和摘要。方法部分和实验部分往往包含更多关于论文质量的信号。
- 实验验证:选择 Scientific Thinker 生成的若干想法,实际执行实验(如使用 AI Scientist 框架),用真实结果验证。
独立观察
-
与 Schwartz “Taste” 论述的完美呼应:同一天发布的 Anthropic Science Blog 中,Matthew Schwartz 指出 LLM 缺少的关键能力是”Taste”——判断哪些研究方向值得追求。这篇论文正是在技术上回应这个问题。Schwartz 从上到下(专家指导),RLCF 从下到上(社区反馈)——两种路径可能需要结合。
-
RLCF 的泛化性:这个框架不局限于科学。任何有大规模社区反馈的领域都可以用类似方法:代码质量(GitHub stars)、设计审美(Dribbble likes)、产品判断(App Store ratings)。
-
对 AI for Science 的路径影响:如果 AI 可以学会判断”什么值得研究”,那 AI Scientist 的架构就可以从”生成-验证”变成”品味引导的生成-验证”——先用 Scientific Judge 筛选方向,再用执行能力完成研究。
-
复旦 OpenMOSS 团队的持续输出:继 ChatGLM、Moss 等项目后,这个团队在 AI for Science 方向又交出了有影响力的工作。
对领域的影响
短期: 为 AI 辅助科研提供了一个新的训练范式——RLCF。预计很快会出现在引文预测、论文推荐、自动审稿等系统中。
中期: 如果 Scientific Thinker 的创意能力持续提升,它可能改变”研究选题”的方式——AI 辅助研究者在海量可能的方向中快速筛选高潜力方向。
长期: 这篇论文提出了一个根本性的问题:科学品味到底是什么?如果它可以从引文中学习,那么科学进步的驱动力是否比我们想象的更可形式化?