News

AI Can Learn Scientific Taste

原文链接：https://arxiv.org/abs/2603.14473 作者：Jingqi Tong, Mingzhe Li, Hangcheng Li 等（复旦大学、上海创新研究院、OpenMOSS 团队、清华大学）机构：复旦大学 NLP 组 (Xipeng Qiu 组) 发布日期：2026-03-15

速查卡

项目	内容
一句话总结	用 70 万篇论文的引文对比信号训练 AI 判断和生成高影响力研究想法
大白话版	像品酒师通过品鉴大量酒来培养”品味”一样，让 AI 通过对比 70 万对”高引 vs 低引”论文来学习”什么是好的研究”，然后用这种品味来指导生成新的研究想法
核心数字	• SciJudge-30B 在 SciJudgeBench 上准确率 80.6%，超越所有闭源模型 • SciThinker-30B 对基线策略的域内胜率 81.5% • 跨时间泛化（训练 2024 以前，测试 2025）表现强劲 • SciThinker-30B 击败 GPT-5.2 和 GLM-5
评级	B+ — 重要进展。提出了一个优雅的训练范式，直接回应了”AI 缺乏科学品味”的核心批评
代码	暂未开源
关键词	RLCF, Scientific Taste, Preference Modeling, Citation Feedback, GRPO, Scientific Judge, Scientific Thinker, AI Scientist

核心 Insight

“科学品味”不是神秘的人类直觉，而是一个可学习的目标。

这篇论文的核心洞察是将一个看似抽象、主观的概念——“科学品味”——形式化为两个具体的、可训练的能力：

判断力（Judgement）：给两篇论文，判断哪篇影响力更大
创意力（Ideation）：给一篇种子论文，生成一个高影响力的后续研究想法

这个形式化的巧妙之处在于：它不需要人工标注（这在科研评估中几乎不可能做到规模化），而是利用引文——科学共同体已有的大规模反馈信号——作为监督信号。

为什么这个想法 work？

关键的哲学基础来自 Hume 和 Kant 的品味理论：品味不是个人的任意偏好，而是一种”sensus communis”——通过合格判断者的共同裁决涌现出来的标准。在科学中，这种共同体裁决通过引文表达。

引文作为监督信号的优势：

规模巨大：数百万篇论文，每篇都有引文数据
隐含偏好：高引论文 = 社区认为有价值的工作
自然匹配：同领域、同时间的论文对比消除了混淆因素
无需人工标注：完全可扩展

当然，引文是一个有噪声的信号（马太效应、领域偏差、自引等）。但论文通过领域和时间匹配（field- and time-matched pairs）在很大程度上缓解了这些问题。

方法详解

整体架构

引文数据（2.1M arXiv 论文）
    ↓
[Stage 1: 构建社区偏好]
同领域同年份配对 → 70 万对 (高引 vs 低引)
    ↓                              ↓
[Stage 2: 偏好建模]           [Stage 3: 偏好对齐]
训练 Scientific Judge          训练 Scientific Thinker
(GRPO, 判断哪篇更好)          (Comparison-Based GRPO)
    ↓                              ↑
  作为奖励模型 ─────────────────→

关键技术组件

组件 1: SciJudgeBench（数据构建）

做什么： 从 arXiv 的 2.1M 论文中构建 696,758 对”高引 vs 低引”论文对。

怎么做：

只用标题和摘要（不用全文）
每对论文来自同一子领域（subcategory）和同一发表年份
覆盖计算机科学、数学、物理等多个领域
偏好标签来自引文计数的显著差异

测试集设计（三套互补测试）：

测试集	规模	测试目标
Main (In-domain)	728 对	域内引文偏好预测
Temporal OOD	514 对 (2025 年论文)	时间外推——能预测未来论文的影响力吗？
Metric OOD (ICLR)	611 对	跨指标迁移——引文训练能迁移到同行评审分数吗？

组件 2: Scientific Judge（偏好建模）

做什么： 接收两篇论文的标题和摘要，判断哪篇引文更高。

怎么做： 使用 GRPO 训练，奖励信号是二值正确性：

$r_i = \begin{cases} 1, & \text{if } \hat{y}(o_i) = y \\ 0, & \text{otherwise} \end{cases}$

模型生成推理链 + 预测（A 或 B）
对每个输入采样 G 个输出
组内优势归一化： $\hat{A}_i = (r_i - \text{mean}(\mathbf{r})) / \text{std}(\mathbf{r})$
策略用裁剪代理目标 + KL 惩罚更新

关键创新： Scientific Judge 是一个生成式奖励模型（Generative Reward Model）——它先推理、再判断。这让它能够解释自己的判断（如 Table 2 中的案例所示），而不是简单输出一个分数。

评估方法： 为缓解位置偏差，每对论文评估两次（交换 A/B 顺序），只有两次都一致才算正确。

组件 3: Scientific Thinker（偏好对齐）

做什么： 给定一篇种子论文，生成一个高影响力的后续研究想法。

怎么做： 创新性地使用 Comparison-Based GRPO：

给定种子论文，策略模型采样 G 个候选研究想法
对 G 个想法进行循环赛（round-robin tournament），每对都由 Scientific Judge 判断
每个想法的奖励 = 其在组内的胜率

$r_i = \frac{1}{G-1} \sum_{j \neq i} s(o_i, o_j)$

其中 $s(o_i, o_j) \in \{0, 1\}$ 表示想法 $o_i$ 是否击败 $o_j$ 。

直觉解释： 这是一个优雅的设计。单个研究想法很难绝对评分（什么是”好的”研究想法？），但两个想法之间的比较更自然、更可靠。循环赛将两两比较聚合为全局排序，然后用排名作为奖励信号。

训练策略

项目	详情
Judge 基模型	Qwen2.5-Instruct 系列 (1.5B-32B) + Qwen3-4B/30B + Llama-3.1-8B
Thinker 基模型	Qwen3-30B-A3B-Thinking, Qwen3-4B-Thinking
训练数据	696,758 对（Judge）; 4,000 篇高引论文（Thinker）
训练算法	GRPO（Judge）; Comparison-Based GRPO（Thinker）
奖励模型	SciJudge-Qwen3-4B（用于训练 Thinker）
评估器	GPT-5.2-high, GLM-5, Gemini 3 Pro 多数投票（评估 Thinker）

与现有方法的关键区别

维度	RLHF	RLVR	RLCF (本文)
反馈来源	人工标注者	可验证的正确答案	社区反馈（引文）
可扩展性	低（标注成本高）	中（需要 ground truth）	高（引文数据自然存在）
适用任务	对齐、安全	数学、编码	开放式科学判断和创意
偏好来源	个人偏好	客观正确性	社区共识

实验结果

主实验：Scientific Judge

In-domain 测试（SciJudgeBench）：

模型	CS	Math	Physics	Others	平均
GPT-5.2-high	62.3	60.1	61.5	64.0	62.0
Gemini 3 Pro	65.4	63.7	64.8	66.2	65.0
SciJudge-Qwen3-4B	74.1	73.8	76.2	77.0	75.3
SciJudge-Qwen3-30B	79.5	78.9	81.2	82.8	80.6
SciJudge-Qwen2.5-32B	82.5	81.3	84.1	87.0	83.7

解读： SciJudge-Qwen3-30B（3B 激活参数的 MoE 模型）就已经超越了所有闭源模型。最大的 SciJudge-Qwen2.5-32B 达到 83.7%。这意味着专门训练的中等模型可以超越通用大模型。

Scaling 趋势

两个维度的 scaling 都有效：

数据 scaling：性能与数据量呈近似对数线性关系。SciJudge-Qwen3-30B 从 66.3 提升到 80.6（+14.3pp）。
模型 scaling：Qwen2.5 系列从 72.1 (1.5B) → 73.2 (3B) → 76.9 (7B) → 80.6 (14B) → 83.7 (32B)。

泛化能力

泛化测试	效果
时间泛化（2025 年论文）	最高 +55.1pp 提升
领域泛化（仅 CS 训练→Math/Physics/Others）	显著跨领域迁移
指标泛化（引文→ICLR 同行评审分数）	最高 +72.0pp 提升
生物学领域（bioRxiv，完全未见）	有效迁移

这是最重要的结果。 尤其是：

时间泛化说明引文捕捉的是稳定的社区价值信号，而不仅是训练期的模式
跨领域泛化说明存在通用的科学价值模式——好的研究在不同领域有共同特征
引文→同行评审的迁移说明两种评价体系虽然不同，但背后有共享的偏好结构

Scientific Thinker 结果

模型	域内胜率	域外胜率
SciThinker-30B (vs 基线策略)	81.5%	83.0%
SciThinker-4B (vs 基线策略)	76.5%	76.0%
SciThinker-30B vs GPT-5.2	>50%	>50%
SciThinker-30B vs GLM-5	>50%	>50%

SciThinker-30B 对三个 SOTA 模型的平均胜率为 54.2%。

消融实验

变体	域内胜率	域外胜率
SciThinker-30B + SciJudge 奖励	81.5%	83.0%
SciThinker-30B + 基线奖励 (Qwen3-4B-Instruct)	73.0%	70.5%

关键发现： SciJudge 作为奖励模型比通用 LLM 显著更有效（+8.5pp 域内，+12.5pp 域外）。这验证了专门的科学判断能力训练的价值。

复现评估

维度	评分(1-5)	详细说明
数据可得性	⭐⭐⭐⭐	基于公开的 arXiv 数据，构建方法论清晰，SciJudgeBench 是否开源待确认
代码可得性	⭐⭐	论文未提及开源计划，无 GitHub 链接
算力需求	⭐⭐⭐	Qwen3-30B 的 GRPO 训练需要较强 GPU 集群，但 4B 模型已能取得不错效果
工程复杂度	⭐⭐⭐	GRPO 实现已有开源参考（DeepSeekMath），Comparison-Based GRPO 需要额外实现
预期收益	⭐⭐⭐⭐	对 AI 科研辅助系统有直接价值

复现建议： 从 Qwen3-4B 开始，用公开的 arXiv 元数据构建 SciJudgeBench，使用开源 GRPO 框架（如 veRL）进行训练。

批判性分析

局限性

论文自述：

引文是不完美的社区反馈——有些高潜力论文初期引文少
领域分类粒度有限
创意评估依赖 LLM 评估器，未经实验验证
Scientific Judge 只使用标题和摘要

我们额外发现的问题：

“好论文”≠“高引论文”的矛盾：引文计数受多种非质量因素影响——作者知名度、机构声誉、领域热度、自引网络、发表在热门会议 vs 冷门期刊等。论文的领域和时间匹配缓解但不消除这些偏差。一个极端例子：综述论文通常引文极高，但其”科学品味”可能远低于一篇引文较少的突破性理论论文。
评估的自我循环风险：用 LLM（GPT-5.2, GLM-5, Gemini 3 Pro）评估 LLM 生成的研究想法，存在系统性偏差——LLM 可能偏好”LLM 风格”的想法（措辞工整、结构清晰但可能缺乏真正的创造性突破）。
2025 年”未来”数据的时间跨度有限：训练数据截至 2024，测试用 2025 年论文。引文的积累需要数年，所以 2025 年论文的引文数据可能只反映了 1 年内的影响，而非长期影响。
Comparison-Based GRPO 的计算成本：每个训练步需要 $\binom{G}{2}$ 次两两比较，当 G 较大时计算量可观。论文未详细讨论训练效率。

改进方向

多信号融合：引文 + 同行评审分数 + GitHub stars（对于有代码的论文）+ 社交媒体提及 + 后续引用工作的质量。多信号可以缓解单一引文信号的偏差。
长期引文动态建模：不仅看总引文，还看引文随时间的变化模式（如”sleeping beauty”论文——初期少引但后来爆发）。
全文理解：目前只用标题和摘要。方法部分和实验部分往往包含更多关于论文质量的信号。
实验验证：选择 Scientific Thinker 生成的若干想法，实际执行实验（如使用 AI Scientist 框架），用真实结果验证。

独立观察

与 Schwartz “Taste” 论述的完美呼应：同一天发布的 Anthropic Science Blog 中，Matthew Schwartz 指出 LLM 缺少的关键能力是”Taste”——判断哪些研究方向值得追求。这篇论文正是在技术上回应这个问题。Schwartz 从上到下（专家指导），RLCF 从下到上（社区反馈）——两种路径可能需要结合。
RLCF 的泛化性：这个框架不局限于科学。任何有大规模社区反馈的领域都可以用类似方法：代码质量（GitHub stars）、设计审美（Dribbble likes）、产品判断（App Store ratings）。
对 AI for Science 的路径影响：如果 AI 可以学会判断”什么值得研究”，那 AI Scientist 的架构就可以从”生成-验证”变成”品味引导的生成-验证”——先用 Scientific Judge 筛选方向，再用执行能力完成研究。
复旦 OpenMOSS 团队的持续输出：继 ChatGLM、Moss 等项目后，这个团队在 AI for Science 方向又交出了有影响力的工作。

对领域的影响

短期： 为 AI 辅助科研提供了一个新的训练范式——RLCF。预计很快会出现在引文预测、论文推荐、自动审稿等系统中。

中期： 如果 Scientific Thinker 的创意能力持续提升，它可能改变”研究选题”的方式——AI 辅助研究者在海量可能的方向中快速筛选高潜力方向。

长期： 这篇论文提出了一个根本性的问题：科学品味到底是什么？如果它可以从引文中学习，那么科学进步的驱动力是否比我们想象的更可形式化？