Esc
输入关键词开始搜索
News

AI Can Learn Scientific Taste

AI Can Learn Scientific Taste

原文链接:https://arxiv.org/abs/2603.14473 作者:Jingqi Tong, Mingzhe Li, Hangcheng Li 等(复旦大学、上海创新研究院、OpenMOSS 团队、清华大学) 机构:复旦大学 NLP 组 (Xipeng Qiu 组) 发布日期:2026-03-15

速查卡

项目内容
一句话总结用 70 万篇论文的引文对比信号训练 AI 判断和生成高影响力研究想法
大白话版像品酒师通过品鉴大量酒来培养”品味”一样,让 AI 通过对比 70 万对”高引 vs 低引”论文来学习”什么是好的研究”,然后用这种品味来指导生成新的研究想法
核心数字• SciJudge-30B 在 SciJudgeBench 上准确率 80.6%,超越所有闭源模型 • SciThinker-30B 对基线策略的域内胜率 81.5% • 跨时间泛化(训练 2024 以前,测试 2025)表现强劲 • SciThinker-30B 击败 GPT-5.2 和 GLM-5
评级B+ — 重要进展。提出了一个优雅的训练范式,直接回应了”AI 缺乏科学品味”的核心批评
代码暂未开源
关键词RLCF, Scientific Taste, Preference Modeling, Citation Feedback, GRPO, Scientific Judge, Scientific Thinker, AI Scientist

核心 Insight

“科学品味”不是神秘的人类直觉,而是一个可学习的目标。

这篇论文的核心洞察是将一个看似抽象、主观的概念——“科学品味”——形式化为两个具体的、可训练的能力:

  1. 判断力(Judgement):给两篇论文,判断哪篇影响力更大
  2. 创意力(Ideation):给一篇种子论文,生成一个高影响力的后续研究想法

这个形式化的巧妙之处在于:它不需要人工标注(这在科研评估中几乎不可能做到规模化),而是利用引文——科学共同体已有的大规模反馈信号——作为监督信号。

为什么这个想法 work?

关键的哲学基础来自 Hume 和 Kant 的品味理论:品味不是个人的任意偏好,而是一种”sensus communis”——通过合格判断者的共同裁决涌现出来的标准。在科学中,这种共同体裁决通过引文表达。

引文作为监督信号的优势:

  • 规模巨大:数百万篇论文,每篇都有引文数据
  • 隐含偏好:高引论文 = 社区认为有价值的工作
  • 自然匹配:同领域、同时间的论文对比消除了混淆因素
  • 无需人工标注:完全可扩展

当然,引文是一个有噪声的信号(马太效应、领域偏差、自引等)。但论文通过领域和时间匹配(field- and time-matched pairs)在很大程度上缓解了这些问题。

方法详解

整体架构

引文数据(2.1M arXiv 论文)

[Stage 1: 构建社区偏好]
同领域同年份配对 → 70 万对 (高引 vs 低引)
    ↓                              ↓
[Stage 2: 偏好建模]           [Stage 3: 偏好对齐]
训练 Scientific Judge          训练 Scientific Thinker
(GRPO, 判断哪篇更好)          (Comparison-Based GRPO)
    ↓                              ↑
  作为奖励模型 ─────────────────→

关键技术组件

组件 1: SciJudgeBench(数据构建)

做什么: 从 arXiv 的 2.1M 论文中构建 696,758 对”高引 vs 低引”论文对。

怎么做:

  • 只用标题和摘要(不用全文)
  • 每对论文来自同一子领域(subcategory)和同一发表年份
  • 覆盖计算机科学、数学、物理等多个领域
  • 偏好标签来自引文计数的显著差异

测试集设计(三套互补测试):

测试集规模测试目标
Main (In-domain)728 对域内引文偏好预测
Temporal OOD514 对 (2025 年论文)时间外推——能预测未来论文的影响力吗?
Metric OOD (ICLR)611 对跨指标迁移——引文训练能迁移到同行评审分数吗?

组件 2: Scientific Judge(偏好建模)

做什么: 接收两篇论文的标题和摘要,判断哪篇引文更高。

怎么做: 使用 GRPO 训练,奖励信号是二值正确性:

ri={1,if y^(oi)=y0,otherwiser_i = \begin{cases} 1, & \text{if } \hat{y}(o_i) = y \\ 0, & \text{otherwise} \end{cases}

  • 模型生成推理链 + 预测(A 或 B)
  • 对每个输入采样 G 个输出
  • 组内优势归一化:A^i=(rimean(r))/std(r)\hat{A}_i = (r_i - \text{mean}(\mathbf{r})) / \text{std}(\mathbf{r})
  • 策略用裁剪代理目标 + KL 惩罚更新

关键创新: Scientific Judge 是一个生成式奖励模型(Generative Reward Model)——它先推理、再判断。这让它能够解释自己的判断(如 Table 2 中的案例所示),而不是简单输出一个分数。

评估方法: 为缓解位置偏差,每对论文评估两次(交换 A/B 顺序),只有两次都一致才算正确。

组件 3: Scientific Thinker(偏好对齐)

做什么: 给定一篇种子论文,生成一个高影响力的后续研究想法。

怎么做: 创新性地使用 Comparison-Based GRPO

  1. 给定种子论文,策略模型采样 G 个候选研究想法
  2. 对 G 个想法进行循环赛(round-robin tournament),每对都由 Scientific Judge 判断
  3. 每个想法的奖励 = 其在组内的胜率

ri=1G1jis(oi,oj)r_i = \frac{1}{G-1} \sum_{j \neq i} s(o_i, o_j)

其中 s(oi,oj){0,1}s(o_i, o_j) \in \{0, 1\} 表示想法 oio_i 是否击败 ojo_j

直觉解释: 这是一个优雅的设计。单个研究想法很难绝对评分(什么是”好的”研究想法?),但两个想法之间的比较更自然、更可靠。循环赛将两两比较聚合为全局排序,然后用排名作为奖励信号。

训练策略

项目详情
Judge 基模型Qwen2.5-Instruct 系列 (1.5B-32B) + Qwen3-4B/30B + Llama-3.1-8B
Thinker 基模型Qwen3-30B-A3B-Thinking, Qwen3-4B-Thinking
训练数据696,758 对(Judge); 4,000 篇高引论文(Thinker)
训练算法GRPO(Judge); Comparison-Based GRPO(Thinker)
奖励模型SciJudge-Qwen3-4B(用于训练 Thinker)
评估器GPT-5.2-high, GLM-5, Gemini 3 Pro 多数投票(评估 Thinker)

与现有方法的关键区别

维度RLHFRLVRRLCF (本文)
反馈来源人工标注者可验证的正确答案社区反馈(引文)
可扩展性低(标注成本高)中(需要 ground truth)高(引文数据自然存在)
适用任务对齐、安全数学、编码开放式科学判断和创意
偏好来源个人偏好客观正确性社区共识

实验结果

主实验:Scientific Judge

In-domain 测试(SciJudgeBench):

模型CSMathPhysicsOthers平均
GPT-5.2-high62.360.161.564.062.0
Gemini 3 Pro65.463.764.866.265.0
SciJudge-Qwen3-4B74.173.876.277.075.3
SciJudge-Qwen3-30B79.578.981.282.880.6
SciJudge-Qwen2.5-32B82.581.384.187.083.7

解读: SciJudge-Qwen3-30B(3B 激活参数的 MoE 模型)就已经超越了所有闭源模型。最大的 SciJudge-Qwen2.5-32B 达到 83.7%。这意味着专门训练的中等模型可以超越通用大模型

Scaling 趋势

两个维度的 scaling 都有效:

  1. 数据 scaling:性能与数据量呈近似对数线性关系。SciJudge-Qwen3-30B 从 66.3 提升到 80.6(+14.3pp)。
  2. 模型 scaling:Qwen2.5 系列从 72.1 (1.5B) → 73.2 (3B) → 76.9 (7B) → 80.6 (14B) → 83.7 (32B)。

泛化能力

泛化测试效果
时间泛化(2025 年论文)最高 +55.1pp 提升
领域泛化(仅 CS 训练→Math/Physics/Others)显著跨领域迁移
指标泛化(引文→ICLR 同行评审分数)最高 +72.0pp 提升
生物学领域(bioRxiv,完全未见)有效迁移

这是最重要的结果。 尤其是:

  • 时间泛化说明引文捕捉的是稳定的社区价值信号,而不仅是训练期的模式
  • 跨领域泛化说明存在通用的科学价值模式——好的研究在不同领域有共同特征
  • 引文→同行评审的迁移说明两种评价体系虽然不同,但背后有共享的偏好结构

Scientific Thinker 结果

模型域内胜率域外胜率
SciThinker-30B (vs 基线策略)81.5%83.0%
SciThinker-4B (vs 基线策略)76.5%76.0%
SciThinker-30B vs GPT-5.2>50%>50%
SciThinker-30B vs GLM-5>50%>50%

SciThinker-30B 对三个 SOTA 模型的平均胜率为 54.2%。

消融实验

变体域内胜率域外胜率
SciThinker-30B + SciJudge 奖励81.5%83.0%
SciThinker-30B + 基线奖励 (Qwen3-4B-Instruct)73.0%70.5%

关键发现: SciJudge 作为奖励模型比通用 LLM 显著更有效(+8.5pp 域内,+12.5pp 域外)。这验证了专门的科学判断能力训练的价值。

复现评估

维度评分(1-5)详细说明
数据可得性⭐⭐⭐⭐基于公开的 arXiv 数据,构建方法论清晰,SciJudgeBench 是否开源待确认
代码可得性⭐⭐论文未提及开源计划,无 GitHub 链接
算力需求⭐⭐⭐Qwen3-30B 的 GRPO 训练需要较强 GPU 集群,但 4B 模型已能取得不错效果
工程复杂度⭐⭐⭐GRPO 实现已有开源参考(DeepSeekMath),Comparison-Based GRPO 需要额外实现
预期收益⭐⭐⭐⭐对 AI 科研辅助系统有直接价值

复现建议: 从 Qwen3-4B 开始,用公开的 arXiv 元数据构建 SciJudgeBench,使用开源 GRPO 框架(如 veRL)进行训练。

批判性分析

局限性

论文自述:

  1. 引文是不完美的社区反馈——有些高潜力论文初期引文少
  2. 领域分类粒度有限
  3. 创意评估依赖 LLM 评估器,未经实验验证
  4. Scientific Judge 只使用标题和摘要

我们额外发现的问题:

  1. “好论文”≠“高引论文”的矛盾:引文计数受多种非质量因素影响——作者知名度、机构声誉、领域热度、自引网络、发表在热门会议 vs 冷门期刊等。论文的领域和时间匹配缓解但不消除这些偏差。一个极端例子:综述论文通常引文极高,但其”科学品味”可能远低于一篇引文较少的突破性理论论文。

  2. 评估的自我循环风险:用 LLM(GPT-5.2, GLM-5, Gemini 3 Pro)评估 LLM 生成的研究想法,存在系统性偏差——LLM 可能偏好”LLM 风格”的想法(措辞工整、结构清晰但可能缺乏真正的创造性突破)。

  3. 2025 年”未来”数据的时间跨度有限:训练数据截至 2024,测试用 2025 年论文。引文的积累需要数年,所以 2025 年论文的引文数据可能只反映了 1 年内的影响,而非长期影响。

  4. Comparison-Based GRPO 的计算成本:每个训练步需要 (G2)\binom{G}{2} 次两两比较,当 G 较大时计算量可观。论文未详细讨论训练效率。

改进方向

  1. 多信号融合:引文 + 同行评审分数 + GitHub stars(对于有代码的论文)+ 社交媒体提及 + 后续引用工作的质量。多信号可以缓解单一引文信号的偏差。
  2. 长期引文动态建模:不仅看总引文,还看引文随时间的变化模式(如”sleeping beauty”论文——初期少引但后来爆发)。
  3. 全文理解:目前只用标题和摘要。方法部分和实验部分往往包含更多关于论文质量的信号。
  4. 实验验证:选择 Scientific Thinker 生成的若干想法,实际执行实验(如使用 AI Scientist 框架),用真实结果验证。

独立观察

  1. 与 Schwartz “Taste” 论述的完美呼应:同一天发布的 Anthropic Science Blog 中,Matthew Schwartz 指出 LLM 缺少的关键能力是”Taste”——判断哪些研究方向值得追求。这篇论文正是在技术上回应这个问题。Schwartz 从上到下(专家指导),RLCF 从下到上(社区反馈)——两种路径可能需要结合。

  2. RLCF 的泛化性:这个框架不局限于科学。任何有大规模社区反馈的领域都可以用类似方法:代码质量(GitHub stars)、设计审美(Dribbble likes)、产品判断(App Store ratings)。

  3. 对 AI for Science 的路径影响:如果 AI 可以学会判断”什么值得研究”,那 AI Scientist 的架构就可以从”生成-验证”变成”品味引导的生成-验证”——先用 Scientific Judge 筛选方向,再用执行能力完成研究。

  4. 复旦 OpenMOSS 团队的持续输出:继 ChatGLM、Moss 等项目后,这个团队在 AI for Science 方向又交出了有影响力的工作。

对领域的影响

短期: 为 AI 辅助科研提供了一个新的训练范式——RLCF。预计很快会出现在引文预测、论文推荐、自动审稿等系统中。

中期: 如果 Scientific Thinker 的创意能力持续提升,它可能改变”研究选题”的方式——AI 辅助研究者在海量可能的方向中快速筛选高潜力方向。

长期: 这篇论文提出了一个根本性的问题:科学品味到底是什么?如果它可以从引文中学习,那么科学进步的驱动力是否比我们想象的更可形式化?