deep goodpoint constructive feedback.md
2026-04-17 · 深度解读 · 编辑:Lighthouse
原文:arxiv.org/abs/2604.11924 — GoodPoint: Learning Constructive Scientific Paper Feedback from Author Responses
作者:Jimin Mun¹, Chani Jung²(共同一作), Xuhui Zhou¹, Hyunwoo Kim³, Maarten Sap¹(共同通讯) ¹ Carnegie Mellon University ² Independent Researcher ³ NVIDIA
速查卡
| 维度 | 内容 |
|---|---|
| 一句话总结 | 用”作者在 rebuttal 里有没有承认 + 有没有承诺改”作为反馈质量的金标准,把一个 8B 小模型训练成在 precision 上反超 GPT-5.2 / Gemini-3-flash 的论文 reviewer |
| 大白话版 | 别再让 LLM 模仿”评审者”了——直接看作者在 OpenReview 回复里是不是同意、是不是动手改。把这两个信号变成监督,再用 SFT + DPO 双段训练,小模型也能给出有用的批评 |
| 核心数据 | 19,534 篇 ICLR 论文(2020–2026)、18,936 篇有效(4,419 接收 / 14,517 拒收)、SFT 用 6K papers,DPO 用 9K papers + 5 维 corruption pair |
| 基线对比规模 | 测试集 1,198 篇(600 篇 ICLR 2020–2025 + 598 篇 ICLR 2026 时序保留集);human consensus 评测用 943 篇(人均 5.97 条 consensus 反馈) |
| 核心数字 | GoodPoint-DPO 相对 Qwen3-8B base 在 combined success rate 提升 83.7%(8.0% → 14.7%);GoodPoint-SFT precision 0.138,超过 GPT-5.2 (0.130) 与 Gemini-3-flash (0.128) |
| 人评结果(N=13 作者评自己论文) | Gemini-3-flash 全维度第一;GoodPoint-DPO 全面超越 Qwen3-8B base,并显著缩小与 Gemini 的差距 |
| 影响评级 | B+ — 核心贡献不是模型架构,而是”以作者反馈为信号”的数据集 + 训练 recipe + 双重自动评测,对 LLM 用作 research assistant 提供了可复用的方法论 |
核心 Insight
论文里真正反直觉的发现有三个:
① 反馈质量该由”作者是否愿意行动”定义,而不是由”看起来是否专业”定义。 作者在 §3.1 给出形式化定义:
We define a feedback item f_i as successful if the author acknowledges it as both valid and actionable. Formally, 𝟙_success(f_i, r_i) = 1 if 𝒱(f_i, r_i) = 1 and 𝒜(f_i, r_i) = 1.
— 即 validity(作者是否同意这条批评是合理的)和 author action(作者是否承诺修改 / 列入 future work)两轴都要满足。这个定义跳出了既往”用 LLM judge 给 review 打分”的循环,直接拿真实 OpenReview 讨论作为 ground truth。
② 小模型在”选择性”指标上反超大模型,靠的是 SFT 数据本身的”惜墨”。 Table 2 给出最反直觉的结果:GoodPoint-SFT 的 precision 是 0.138,超过 GPT-5.2 (0.130) 与 Gemini-3-flash (0.128)。原因在 §6.1 解释:
human reviewer generated 5.66 feedback units across GoodPoint-ICLR while LLM generated feedback numbers varied with highest number generated by Qwen-3-8B (20.85), followed by GPT-5.2 (20.72), Llama3.1-8B-Instruct (11.96), and Gemini-3-flash (10.79).
而 GoodPoint-SFT 和 GoodPoint-DPO 平均只生成 4.15 和 5.71 条——和 human 接近。模型没有变得”更聪明”,只是学会了少而精地批评。
③ DPO 与 SFT 在”对齐 vs 创新”上分工明显。 作者在 §6.2 把 success rate 提升拆成 aligned(与 human consensus 相符)与 novel(不在 consensus 内但仍 valid + actionable)两类:
| 指标提升 | GoodPoint-SFT | GoodPoint-DPO |
|---|---|---|
| Aligned feedback rate | +0.64 | +0.93 |
| Novel feedback rate | +0.24 | +0.88 |
SFT 直接模仿 human 成功反馈,结果就是”更对齐 + 更不新颖”;DPO 通过 5 维 corruption 学的是质量维度的偏好,结果在 Add Ablations Experiments / Algorithm Efficiency / Theoretical Soundness 等多个 aspect 上 novel 提升均匀(Table 13)。
★ Insight ─────────────────────────────────────
论文在 §3.2 用了一个非常聪明的 trick:corruption 的”反向偏好对”不是从随机噪声构造,而是只在一个维度劣化(generic / vague / inaccurate / non-essential / unsupportive 五选一),其余维度保持原样。这让 DPO 能”剥离地”学到每一维质量信号——而不是被一坨综合差异淹没。
─────────────────────────────────────────────────
方法详解
1. 双轴反馈质量定义
GoodPoint 把每条 reviewer feedback f_i 用两个二元函数刻画(§3.1):
| 维度 | 函数 | 判定来源 |
|---|---|---|
| Validity | 𝒱(f_i, r_i) ∈ {0, 1} | 作者回复 r_i 是否承认 f_i 在事实上正确且与论文相关 |
| Author Action | 𝒜(f_i, r_i) ∈ {0, 1} | 作者回复是否承诺修改(will_revise)或纳入 future work |
只有两轴都为 1,feedback 才被标为 successful。论文还区分了6 类 author action(§3.2):
- actionable 类:will_revise / defer_future_work
- 非 actionable 类:point_to_existing_content / no_revision_accept / no_revision_contest / no_action_other / unclear_or_no_response
We process each review thread with GPT-4.1 (gpt-4.1-2025-04-14), parsing it into self-contained feedback units paired with author responses.
GPT-4.1 解析的人工验证准确率:validity 0.936,action 0.941;inter-annotator PABAK 分别为 0.747(中等) 与 0.837(强)(§3.2,附录 B Table 4)。
2. GoodPoint-ICLR 数据集构造
数据来源(§3.2):
| 时间区间 | 来源 | 用途 |
|---|---|---|
| 2020–2023 | Re² 数据集(Zhang et al. 2025) | 训练 / 验证 / 测试 |
| 2024–2025 | arXiv 通过题名匹配 | 训练 / 验证 / 测试 |
| 2026 | OpenReview 直接 PDF 抓取 | 时序保留测试集(contamination-free,所有 baseline knowledge cutoff 早于 Aug 2025) |
PDF 全部用 Marker 转为 markdown。最终 18,936 篇 = 14,517 拒收 + 4,419 接收。
3. 三种训练数据切分
论文从 GoodPoint-ICLR 中切出三个不重叠子集(§3.3 + 附录 E.1):
| 用途 | 规模 | 说明 |
|---|---|---|
| SFT 训练 | 6K papers | 仅保留 valid + actionable 的反馈,按 (paper, aggregated feedback) 配对,单 reviewer 内全部反馈聚合以学习一致风格 |
| DPO 训练(valid vs invalid) | 9K papers | 同一篇论文的 chosen 和 rejected 集,要求 chosen 的 acceptance ratio 比 rejected 至少高 2 条 feedback |
| DPO 训练(corruption pairs) | 同上 | 在 valid+actionable 反馈上做 5 维 corruption 作为 rejected |
DPO 阶段对多个 reviewer 给同一篇论文的反馈做 embedding 去重(OpenAI text-embedding-3-small,余弦相似度 > 0.5 视为重复,随机保留一条)。
4. 五维 Feedback Corruption(§3.2 + 附录 C)
用 GPT-5 mini(gpt-5-mini-2025-08-07,medium reasoning,4096 tokens)对原始好反馈做单维度劣化:
| Corruption 维度 | 描述 | 验证准确率 | 目标降级分(1-3) | 旁路保留分(1-3) |
|---|---|---|---|---|
| Generic | 抽掉论文具体细节,变成行业 boilerplate | 0.625 | 1.83 | 2.92 |
| Vague | 保留 paper-specific 引用但去掉具体问题/示例 | 0.945 | 1.86 | 2.98 |
| Inaccurate | 引入听起来合理但事实错误的论断 | 0.992 | 2.98 | 2.48 |
| Non-essential | 把焦点从核心可修复问题转向边角问题 | 0.969 | 3.00 | 2.56 |
| Unsupportive | 把建设性、 hedged 语气改成生硬 / 命令式 | 0.982 | 2.68 | 2.88 |
注意 Generic 维度的 verification accuracy 只有 0.625——作者在 §3.2 直接说:
prediction accuracy > 0.94 for all dimensions except generic, 0.62.
并据此过滤掉错误识别的样本及降级 / 保留分低于 2 的样本。
5. 训练超参数(附录 D Table 6)
| 超参 | SFT | DPO |
|---|---|---|
| Base | Qwen3-8B | GoodPoint-SFT |
| Max sequence length | 30,000 | 30,000 |
| Train batch size | 128 | 128 |
| Micro batch size | 8 | 4 |
| Learning rate | 5×10⁻⁶ | 5×10⁻⁶ |
| Epochs | 1 | 1 |
| Precision | BF16 | BF16 |
| β(KL penalty) | — | 0.1 |
| NLL loss coefficient | — | 0.2 |
GPU 优化:ZeRO stage 3 + flash-attention-2,ring attention size 8,head stride 2。DPO 在 step 50 早停以防过拟合。整个训练框架使用 OpenRLHF(Hu et al. 2024)。
评估方法:两套自动 + 一套人评
GoodPoint 设计了三层评测(§4),相互补充:
1. Author Response Prediction(§4.1)
把”作者是否会同意 / 行动”转成预测任务:训练另一个 Qwen3-8B 作为 evaluator,输入 paper + feedback,输出 (validity, action, response)。
- 训练数据:3K papers 的 feedback(人工平衡 valid/invalid,用 SFT 阶段过滤掉的 invalid 样本补足)
- 测试集:1,000 条(864 valid,136 invalid)
- 性能(附录 E Table 7):
| 任务 | Precision | Recall | F1 | Accuracy |
|---|---|---|---|---|
| Validity | 0.815 | 0.717 | 0.754 | 0.717 |
| Action | 0.779 | 0.706 | 0.741 | 0.650 |
2. Quality Dimension Scoring(§4.1)
用 GPT-5 mini 对 feedback 在 4 个维度上打 1-5 Likert 分(accuracy / paper-specific grounding / constructive tone / prioritization),用 2K human-reviewer 反馈得到的均分作为阈值过滤。
设计动机(§4.1 原文):
while author response prediction captures bottom-up signals for feedback validity, it is trained on human-only data and may thus fail out-of-distribution on model-specific error patterns.
人类反馈在五维上的均分(附录 E.2):accuracy 4.37 / prioritisation 4.44 / constructive tone 4.62 / paper-specific grounding 4.36 / actionability 3.49——actionability 在人类自己里也是最低的。
3. Human Consensus-Based Feedback Evaluation(§4.2)
定义”重要反馈”= 多位 reviewer 都提且 successful 的反馈。匹配流程:
- Embedding 过滤:余弦相似度阈值——human-human 0.55, human-LLM 0.45(基于 140 对人工标注校准,excluding strata where match rate < 0.1)
- GPT-5.2 判 match:基于 Targeted part / Deficiency / Quality dimension / Action requested 四个 aspect 是否有共同点
- 性能验证:GPT-5.2 vs human majority vote 的 F1 = 0.867 (h-h) / 0.906 (h-LLM)
度量定义(附录 F.2 Table 8):
| 指标 | 公式 |
|---|---|
| Precision | |ℳ| / |ℱ_LLM| —— LLM 反馈中匹配 consensus 的比例 |
| Recall | |𝒢 ∩ 𝒞| / |𝒢| —— consensus 反馈中被 LLM 覆盖的比例 |
| F1 | 调和平均 |
4. Human Evaluation(§4.3)
- N=13 作者,多数为 PhD 学生(35.3% 2 年研究经验,23.5% 6 年),主要 NLP 背景
- 论文来源:10 篇 *CL,2 篇 ICML,2 篇 ICLR
- 每条反馈打 4 个维度:validity(binary)、specificity(1-5)、author action(六选一)、helpfulness(1-5)
- 每模型随机抽 5 条反馈以控制评测疲劳
与现有方法的关键区别
| 维度 | 既有 LLM peer review 工作 | GoodPoint |
|---|---|---|
| 目标 | 模仿 reviewer 行为 / 预测分数 | 生成作者愿意行动的反馈 |
| 监督信号 | reviewer review 文本 / 论文是否 accept | 作者 rebuttal 中的 validity + action 标签 |
| 典型方法 | OpenReviewer (Idahl & Ahmadi 2025) 在专家 review 上 SFT;SEA (Yu et al. 2024) 标准化多 reviewer 监督;DeepReview (Zhu et al. 2025) 用结构化分析 + 文献检索 | SFT on author-acknowledged feedback + DPO on (valid vs invalid) + (original vs corrupted) |
| 评测维度 | aspect coverage / score prediction | author response prediction + consensus match + 真实作者人评 |
| 基础模型规模 | 多为 7B–70B 或 GPT-4 类 | 仅 8B(Qwen3-8B) |
| 缺陷诊断 | 普遍 over-positive、缺 specificity | 直接靠 corruption 维度针对性削弱 |
论文在 §2 的总结:
unlike these systems that prioritize mimicking reviewer behavior, GoodPoint focuses specifically on constructive feedback. By leveraging author responses as an explicit training signal, we prioritize feedback that is both valid and actionable from the researcher’s perspective.
实验结果
设置(§5)
- 测试集:1,198 篇(600 from 2020–2025 + 598 from 2026 时序保留)
- Subsampling:每模型每篇论文随机抽 5 条反馈,避免长度偏置
- Bootstrap:B=1000 次,报告 95% CI 半宽
- Baseline:开源 Llama-3.1-8B-Instruct, Qwen3-8B;闭源 GPT-5.2 (gpt-5.2-2025-12-11), Gemini-3-flash (gemini-3-flash-preview)
- Decoding:所有模型 temperature 0.7;Llama/Qwen 4096 max tokens;GPT-5.2 8192 max_completion_tokens;Gemini 默认上限
- Prompt 一致:“You are an expert researcher. Please review the following research paper and generate a set of constructive feedback to improve it.”
5.1 Author Response Prediction(Table 1)
| Model | Combined Success Rate (%) | Validity Only (%) | Author Action Only (%) |
|---|---|---|---|
| Gemini-3-flash | 37.9 ± 0.9 | 39.4 ± 0.9 | 37.9 ± 0.9 |
| GPT-5.2 | 45.8 ± 1.0 | 46.3 ± 1.0 | 45.8 ± 1.0 |
| Llama3.1-8b-Instruct | 1.8 ± 0.3 | 1.8 ± 0.3 | 1.8 ± 0.3 |
| Qwen3-8b (Base) | 8.0 ± 0.6 | 8.1 ± 0.6 | 8.0 ± 0.6 |
| GoodPoint-DPO | 14.7 (+6.7) ± 0.5 | 14.9 (+6.8) ± 0.5 | 14.7 (+6.7) ± 0.5 |
| GoodPoint-SFT | 9.2 (+1.2) ± 0.5 | 9.7 (+1.6) ± 0.5 | 9.2 (+1.2) ± 0.5 |
Δ 相对 Qwen3-8B base。
GoodPoint-DPO 相对 base 提升 83.7%(8.0 → 14.7),但与 GPT-5.2 / Gemini-3-flash 仍有 23–31 个百分点差距。
5.2 Human Consensus-Based Match(Table 2)
| Model | Precision | Recall | F1 |
|---|---|---|---|
| Gemini-3-flash | 0.128 | 0.169 | 0.131 |
| GPT-5.2 | 0.130 | 0.165 | 0.130 |
| Llama3.1-8b-Instruct | 0.047 | 0.053 | 0.044 |
| Qwen3-8b (Base) | 0.069 | 0.084 | 0.068 |
| GoodPoint-DPO | 0.093 (+0.024) | 0.107 (+0.023) | 0.087 (+0.019) |
| GoodPoint-SFT | 0.138 (+0.069) | 0.112 (+0.028) | 0.108 (+0.040) |
所有 CI 半宽 < 0.001。
关键发现:GoodPoint-SFT 的 precision (0.138) 超过两个闭源大模型——这是论文最 striking 的结果。F1 较 base 提升 58.8%(0.068 → 0.108),precision 几乎翻倍。
5.2.1 时序分区结果(附录 F.5 Table 11)
| Model | ICLR 2020–2025 (n=424) | ICLR 2026 (n=519) |
|---|---|---|
| Gemini-3-flash | P 0.10 / R 0.15 / F1 0.11 | P 0.15 / R 0.18 / F1 0.15 |
| GPT-5.2 | P 0.12 / R 0.16 / F1 0.12 | P 0.14 / R 0.17 / F1 0.14 |
| Llama3.1-8B | P 0.05 / R 0.06 / F1 0.05 | P 0.04 / R 0.04 / F1 0.04 |
| Qwen3-8B (Base) | P 0.08 / R 0.10 / F1 0.08 | P 0.06 / R 0.07 / F1 0.06 |
| GoodPoint-DPO | P 0.07 / R 0.08 / F1 0.07 | P 0.11 (+0.046) / R 0.13 (+0.058) / F1 0.10 (+0.044) |
| GoodPoint-SFT | P 0.13 / R 0.11 / F1 0.10 | P 0.15 (+0.083) / R 0.12 (+0.050) / F1 0.11 (+0.055) |
时序保留的 ICLR 2026 上,GoodPoint-SFT 的 precision (0.145) 超过 GPT-5.2 (0.141),逼近 Gemini-3-flash (0.149)——确认增益不是 contamination 带来的。
5.3 Human Evaluation(Table 3)
| Model | Validity Rate | Actionability Rate | Specificity (Mean ± SD) | Helpfulness (Mean ± SD) | n |
|---|---|---|---|---|---|
| Gemini-3-flash | 72.3% †‡ | 56.9% ‡ | 4.42 ± 0.86 †‡ | 3.40 ± 1.40 †‡ | 65 |
| GoodPoint-DPO | 58.1% | 40.3% | 3.50 ± 1.16 ‡ | 2.77 ± 1.29 ‡ | 62 |
| Qwen3-8B | 41.5% | 32.3% | 2.89 ± 1.28 | 2.25 ± 1.24 | 65 |
† vs GoodPoint-DPO,‡ vs Qwen3-8B;ordinal 用 Kruskal–Wallis + Mann–Whitney U,binary 用 χ² + Fisher’s exact。
GoodPoint-DPO 在所有维度上显著超过 Qwen3-8B base:validity +16.6 pp、actionability +8.0 pp、specificity +0.61、helpfulness +0.52。但仍显著落后 Gemini-3-flash(除了 specificity 与 helpfulness 在 GoodPoint-DPO vs Gemini 间的差异检验未达 †)。
消融与分析
1. LLM 反馈失效模式(§6.1)
长度差异巨大:
| 来源 | 平均反馈条数 |
|---|---|
| 人类 reviewer | 5.66 |
| Qwen3-8B | 20.85 |
| GPT-5.2 | 20.72 |
| Llama3.1-8B-Instruct | 11.96 |
| Gemini-3-flash | 10.79 |
| GoodPoint-SFT | 4.15 |
| GoodPoint-DPO | 5.71 |
LLM 容易”指着已有内容当批评”(point to existing content 比例):
| 来源 | Valid 时的 PtEC% | Invalid 时的 PtEC% |
|---|---|---|
| Human reviewer | 2.1% | 1.3% |
| LLMs(范围) | 3.1–8.1% | 4.6–24.2% |
论文在 §6.1 推断:
This could indicate that models struggle to handle and provide feedback for long-context input, highlighting a key improvement area.
人评时 P5 直接说 Gemini-3-flash 的某条反馈”reads as LLM-hallucinated feedback”。
2. 训练带来的质量分提升
GoodPoint 训练后在 GPT-5 mini judge 评分上:
| 维度 | 提升来源 | 增量 |
|---|---|---|
| Specificity(paper-specific grounding) | GoodPoint-DPO | +0.75 |
| Prioritization | GoodPoint-SFT | +0.7 |
——把 7-8B 开源模型从”显著低于人类参考”拉回到接近 valid reviewer 水平(Figure 3 / 5)。
3. SFT vs DPO 在 aspect-level novel feedback 上的差异(附录 I Table 13)
各 aspect 相对 Qwen3-8B base 在 novel / aligned feedback rate 上的提升(粗体表示该模型内 novel vs aligned 较大者):
| Aspect | GoodPoint-SFT (Novel) | GoodPoint-SFT (Aligned) | GoodPoint-DPO (Novel) | GoodPoint-DPO (Aligned) |
|---|---|---|---|---|
| Add Experiments on More Datasets | 0.88 | 0.04 | 1.73 | 0.56 |
| Add Ablations Experiments | 0.06 | 0.38 | 1.08 | 0.53 |
| Algorithm Efficiency | -0.30 | -0.10 | 0.08 | 0.05 |
| Theoretical Soundness | -0.37 | 0.16 | 0.14 | 0.09 |
| Implications of the Research | 0.45 | 0.81 | 2.48 | 1.98 |
| Ethical Aspects | 1.58 | N/A | 1.49 | N/A |
| Missing Citations | 11.50 | N/A | 6.85 | N/A |
| Novelty | -0.55 | -0.18 | -1.00 | -1.00 |
| Clarity and Presentation | 0.31 | 0.74 | 0.88 | 0.96 |
| Comparison to Previous Studies | 0.30 | 0.23 | 0.66 | 1.19 |
| Reproducibility | -0.20 | 0.93 | 0.39 | 2.66 |
| Overall | 0.24 | 0.64 | 0.88 | 0.93 |
观察:
- Missing Citations 在 SFT 上提升 +11.50 是异常值——很可能 base Qwen3-8B 几乎不提 citation,所以基数极小
- Novelty 在两个 GoodPoint 模型上反而下降(-0.55 / -1.00)——这个反直觉值得追问,作者未细说原因
- Reproducibility 是 DPO 的最大 aligned 提升(+2.66),呼应人评里 specificity 的改善
★ Insight ─────────────────────────────────────
DPO 的 novel 跨 aspect 均匀提升(Add Ablations / Efficiency / Theoretical Soundness 都在涨),SFT 集中在 Add Datasets 与 Implications。这暗示:DPO 的 corruption-based preference learning 学到的是反馈质量的元特征(具体性、可执行性),而 SFT 学的是人类反馈的内容模式——前者更迁移、后者更照搬。
─────────────────────────────────────────────────
复现评估
| 复现维度 | 难度 | 备注 |
|---|---|---|
| Qwen3-8B SFT | 中 | 框架 OpenRLHF 开源,但需要能装下 30K 序列长度的 GPU 集群(ZeRO-3 + flash-attn-2) |
| Qwen3-8B DPO | 中–高 | 同上,且 corruption pair 生成依赖 GPT-5 mini API(5 维 × 5K+ 反馈) |
| GoodPoint-ICLR 数据集 | 中 | 论文承诺 upon acceptance 释放数据/代码/模型;目前需自行用 GPT-4.1 重做 parsing |
| Author Response Predictor | 中 | 同样基于 Qwen3-8B;3K paper 训练,1K 测试 |
| GPT-5.2 / Gemini-3-flash baseline | 低 | 通过 OpenAI / Gemini API |
| Human evaluation | 高 | 需要 13 位真实论文作者评估自己论文,很难复现 |
| Embedding similarity 校准 | 中 | 需要 140 对人工标注(每 stratum 20 对),3 个标注员 |
已知挑战:
- Generic corruption 的 verification accuracy 只有 0.625,意味着此维度的训练信号噪声较大
- Author response 作为 ground truth 受 rebuttal 时间压力 / 社区规范 / 礼貌性 acceptance 影响(论文在 Limitations 自承)
- Subsampling 5 条反馈虽然控制了长度偏置,但对长尾型模型(如 Qwen3 base 平均 20.85 条)等于丢弃 75%+ 输出——评测的并非模型完整能力
API / 算力成本估算(粗):
- GoodPoint-ICLR parsing:18,936 篇 × 一个 review thread → GPT-4.1 调用,预估 数千美元
- 5 维 corruption × 6K SFT 反馈 + 9K DPO 反馈 → GPT-5 mini,数千美元
- Match 自动评测:GPT-5.2 调用对每对 (h-h, h-LLM),943 篇 × 6 模型 → 数百到上千美元
- Qwen3-8B SFT + DPO 训练:以 8×A100 / H100 估算,几百到一千 GPU 小时
批判性分析
GoodPoint 的方法论严谨,但仍有几处需要谨慎对待:
1. Author response 作为质量信号本身有偏
论文在 Limitations 自承:
these are an imperfect proxy for feedback quality, as replies can be shaped by time constraints, community norms, and rebuttal incentives.
具体偏差包括:(a) 临近 deadline 作者更可能 “will revise” 走过场;(b) 礼貌性 acknowledgment 在 accept 边缘的论文更多;(c) 非英文母语作者的 rebuttal 可能更 defensive。论文用 DPO + quality filtering 部分缓解,但残留偏差未量化。
2. 数据规模口径不一致
§3.2 说 “18,936 papers with 14,517 rejected papers and 4,419 accepted papers”,但 abstract 与 §1 说 “19,534 papers”——差 598 篇。最可能的解释是 19,534 是 ICLR 2026 抓取前的总样本,18,936 是去重 / 过滤后实际可用。论文未明确说明这个差距。
3. Author Response Predictor 的 invalid 样本来源问题
附录 E.1 写道:
Due to the lack of invalid feedback samples, we supplement our 3K paper set with filtered out unused invalid feedback samples from SFT data.
——也就是说 evaluator 的训练集与 SFT 模型的训练集存在数据来源重叠。虽然两者标签对象不同(一个学生成、一个学预测),但都源自同一篇论文的同一组 review,可能产生间接 contamination。论文未做 leave-one-out 验证。
4. Combined success rate 的 13–14% 仍然很低
GoodPoint-DPO 的 14.7% 听起来比 base 翻倍,但绝对值意味着:85% 的反馈仍然不被作者认为既 valid 又 actionable。论文用百分比变化讲故事可能掩盖了”系统整体表现仍远未到实用水平”的事实。
5. Validity Only 与 Author Action Only 数字几乎相同
Table 1 中 Validity Only (14.9%) 和 Author Action Only (14.7%) 在 GoodPoint-DPO 上几乎一样,且两者都接近 Combined Success (14.7%)。这暗示两个轴在数据中高度相关——即 valid 的反馈几乎都被认为 actionable,反之亦然。如果是这样,把 validity 和 actionability 拆成两轴的理论必要性就被弱化了。
6. 5 条反馈的 subsampling 可能扭曲对比
GoodPoint-SFT 平均只生成 4.15 条,意味着 5 条 subsample 时几乎全部反馈都被评测;而 GPT-5.2 平均 20.72 条,subsample 5 条等于丢 76%。这两种情况下”precision”的可比性需要仔细论证——更精细的做法是控制 LLM 生成数量到与 human 相当再比,论文未做。
7. Novelty 指标在 GoodPoint 上反而下降
Table 13 显示 GoodPoint-SFT 在 Novelty aspect 上 -0.55,DPO 上 -1.00(aligned 也同步下降)。作者未在正文讨论这一现象。可能的解释:训练数据偏向”具体可执行”问题,从而抑制了”这个想法是否 novel”这种相对抽象的批评。但这恰恰可能是科研批评中最关键的维度。
8. 人评样本太小
N=13 作者,每模型大约 60+ 条反馈点。Likert 上的差异检验(Mann-Whitney U)在小样本下功效有限,且 13 人无法覆盖跨学科多样性——论文样本里 10 篇 *CL,2 ICML,2 ICLR,对系统、视觉、机器人等领域无验证。
9. 与 OpenReviewer / SEA / DeepReview 的直接对比缺失
§2 提到这三类工作但未在 Tables 1/2/3 里直接对比。考虑到这些是同一问题领域的 SOTA,缺少直接对比让”GoodPoint 是更好的方法”这个论断有些悬空——读者无法判断增益是来自”以 author response 为信号”还是来自”任意特化训练 recipe”。
10. ICLR 单一来源限制泛化
论文也在 Limitations 承认 ICLR 的反馈规范并不代表所有学科。化学 / 生物 / 医学 论文的反馈模式(更强调实验复现 / 临床有效性)可能完全不同——GoodPoint 现成模型直接用到这些领域可能不可靠。
写在最后
GoodPoint 的真正贡献不在模型规模上的 SOTA,而在三件事:
- 重定义 feedback 质量:从”看起来像 reviewer”切换到”作者真的会改”——这个监督信号转换具有可迁移到其他 LLM-as-research-assistant 任务的潜力(grant 建议、code review、教学评语)。
- 小模型靠目标对齐反超大模型的特化指标:Qwen3-8B 在 precision 上压过 GPT-5.2,再次证明”模型对齐目标”的杠杆比”模型规模”大——尤其在领域定义清晰的任务里。
- DPO 用合成 corruption 学到泛化质量信号:5 维针对性劣化是个干净的实验设计,让 DPO 的偏好优化目标变得”可解释”——这种思路可以借鉴到任何”质量有多个独立维度”的任务。
Our findings highlight the importance of grounding LLMs in human-centric signals. —— §7 Conclusion
如果你正在做 LLM 辅助科研、AI tutor、code review 等任务,GoodPoint 提供的不仅是一个数据集,而是一种**“用人类下游行为定义质量”**的方法范式。
延伸阅读
- OpenReviewer(Idahl & Ahmadi, NAACL 2025)—— 在专家 review 上 SFT 的 LLM reviewer 起点
- SEA(Yu et al., EMNLP 2024 Findings)—— 用多 reviewer 标准化作为监督
- DeepReview(Zhu et al. 2025, arXiv:2503.08569)—— 用结构化分析 + 文献检索的 review 生成
- Re²(Zhang et al. 2025, arXiv:2505.07920)—— GoodPoint-ICLR 2020-2023 数据来源
- ALFA(Li et al., COLM 2025)—— GoodPoint 的 corruption 设计借鉴自此(在临床推理 question 生成中已验证)
- The Delta Learning Hypothesis(Geng et al., COLM 2025)—— 解释为何”差信号上做偏好 tuning”也能产生强增益(呼应 corruption pair 思路)
- Liang et al. 2024(NEJM AI)—— GoodPoint 用其 11 类 aspect 分类与”LLM-generated review 质量分析”为基础对照