Deep FinResearch Bench 深度解读
Deep FinResearch Bench 深度解读
原文链接:https://arxiv.org/abs/2604.21006 作者:Mirazul Haque 等,JPMorganChase AI Research 发布日期:2026-04-22 核对说明:已通读原文全文,并检索过去 14 天
deep-*.md,未发现同主题 deep 稿件,因此新建本文。
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | 论文把职业 equity research 报告拆成质性分析、量化预测、可验证性三大维度,用真实分析师报告和四家 DR agent 正面对比。 |
| 最关键数据 | 100 份职业报告;25 家 S&P 500 公司;3 个行业;2025 年 Q1/Q2;OpenAI、Gemini、Grok、Perplexity 四个 DR agent。 |
| 最重要结论 | AI 已能写出“像样的研究报告”,但在叙事连贯性、核心财务预测、假设严谨性和低幻觉引用上仍落后于职业分析师。 |
| 谁表现最好 | 质性维度 Gemini 最强;核心财务预测中 Grok 在 DR agent 里最好;引用事实性 OpenAI 最强。 |
论文要解决什么问题
作者认为,现有 deep research benchmark 不是太泛,就是和职业投研工作流不够像。真正的卖方研究报告不仅要写得像报告,还要同时完成:
- 公司与行业信息收集
- 投资逻辑与风险分析
- 财务预测
- 目标价与买卖建议
- 引用与事实可核验
因此论文要评测的不是“AI 能不能回答金融问题”,而是“AI 能不能写出接近职业分析师标准的完整投研报告”。
方法详解
1. 数据构建:先收真实职业报告,再让 AI 对位写同题报告
论文通过 Yahoo Finance 付费订阅拿到两家机构的 pre-earnings equity research 报告,记作 Firm A 和 Firm B;随后:
- 从 S&P 500 随机抽取 25 家公司
- 覆盖信息技术、金融、医疗健康 3 个行业
- 关注 2025 年 Q1、Q2
- 共收集 100 份职业报告
然后让 DR agent 在相同公司、相同时期、相近发布时间条件下写对应 AI 报告,保证比较尽量公平。
2. AI 报告生成:不是裸 prompt,而是先抽取机构 rubric
作者测试两种方法:
- 简单 prompt:给任务、公司、时期,让 DR agent 自己组织报告
- rubric prompt:先用 OpenAI o3 从 Firm A / B 报告中提取详细写作 rubric,再嵌入 prompt
论文最终采用第二种,因为它生成的报告更完整,更接近职业格式,也更适合公平比较。
3. 三大评测维度
A. 质性分析
四个 1-4 分维度:
- Comprehensiveness
- Coherence
- Assumption quality
- Analytical depth
B. 量化分析
三类指标:
- 财务预测准确率:对 revenue、EBITDA、operating income、net income、FCF、EPS 用 SMAPE 评估
- 目标价准确率:Hit Rate、MAE、Mean Bias
- 投资建议准确率:Directional Accuracy、Signed Recommendation Loss(SRL)
C. 可验证性与可信度
作者设计了 claim-level 流水线:
- GPT-5 抽取 claim 与 citation
- GPT-4.1 对 claim 和引用页面做核验
- 抽取失败时用 GPT-4o + web search 兜底
- 汇总 factuality
F(R)、hallucinationH(R)、non-verificationNV(R)
4. LLM-as-a-judge 选择
作者用 8 位领域专家的小样本人工标注对比 GPT-5、Gemini 2.5 Pro、Sonnet 4 三个 judge,pairwise agreement 分别为:
- GPT-5:80.0%
- Gemini 2.5 Pro:53.8%
- Sonnet 4:31.2%
因此后续质性评估主要采用 GPT-5。
数据 / 训练细节
评测对象
| 系统 | 底层模型 | 搜索 | 额外能力 |
|---|---|---|---|
| OpenAI DR | GPT-o3 | Proprietary | Python code execution |
| Gemini DR | Gemini 2.5 Pro | Multimodal reasoning | |
| Grok DR | Grok 4 | Proprietary | Real-time Twitter/X data |
| Perplexity DR | Sonar Reasoning | Proprietary | Multi-document synthesis |
数据规模
| 项目 | 数值 |
|---|---|
| 公司数 | 25 |
| 行业数 | 3 |
| 时间范围 | 2025 Q1 / Q2 |
| 职业报告数 | 100 |
| 职业机构数 | 2 |
| 人工对齐评测 | 8 家公司 × 每家 4 份报告 |
| 专家人数 | 8 |
实验结果
1. 质性质量:职业分析师明显领先,Gemini 是 DR 里最好的一家
| 报告 | 完整性 | 假设质量 | 连贯性 | 分析深度 | 总分 |
|---|---|---|---|---|---|
| OpenAI DR | 2.00 | 1.45 | 2.10 | 2.60 | 2.02 |
| Gemini DR | 2.09 | 2.00 | 2.20 | 3.00 | 2.31 |
| Grok DR | 2.00 | 1.70 | 1.80 | 2.60 | 2.02 |
| Perplexity DR | 2.00 | 1.90 | 2.20 | 2.40 | 2.12 |
| Firm A 分析师 | 2.73 | 1.91 | 3.00 | 3.73 | 2.84 |
解读:Gemini 在 DR agent 中总分最高,但职业分析师在 coherence 和 depth 上仍明显领先。
2. 财务预测:职业分析师最稳,Grok 是 DR 里最强预测者
| 指标 SMAPE↓ | OpenAI | Gemini | Grok | Perplexity | Firm A |
|---|---|---|---|---|---|
| Revenue | 24.73 | 22.63 | 18.65 | 23.92 | 10.64 |
| EBITDA | 12.13 | 22.52 | 10.82 | 38.60 | 6.58 |
| Operating Income | 16.78 | 29.18 | 19.27 | 29.90 | 5.32 |
| Net Income | 16.62 | 21.58 | 14.32 | 18.76 | 7.43 |
| Free Cash Flow | 18.54 | 9.51 | 12.58 | 15.64 | 51.93 |
| EPS | 39.06 | 27.23 | 27.23 | 33.60 | 27.64 |
| Overall | 21.52 | 23.05 | 17.49 | 27.56 | 17.14 |
解读:Firm A 在总体上最好;Grok 在 DR agent 中 overall 最低(17.49),是最强量化预测者。
3. 目标价与推荐:AI 已追近人类,但校准仍不稳定
| 系统 | 3m Hit Rate | 3m MAE | 6m Hit Rate | 6m MAE |
|---|---|---|---|---|
| OpenAI | 33.3% | 26.4% | 46.2% | 27.4% |
| Gemini | 31.8% | 28.2% | 57.1% | 28.0% |
| Perplexity | 29.3% | 22.3% | 56.4% | 19.1% |
| Grok | 20.0% | 50.3% | 44.1% | 49.3% |
| Firm A | 25.8% | 24.4% | 40.0% | 30.2% |
| 系统 | 3m Directional Accuracy | 3m SRL↓ | 6m Directional Accuracy | 6m SRL↓ |
|---|---|---|---|---|
| OpenAI | 63.3% | 0.045 | 76.9% | 0.052 |
| Gemini | 72.7% | 0.037 | 61.9% | 0.060 |
| Perplexity | 68.3% | 0.051 | 71.8% | 0.061 |
| Grok | 51.4% | 0.071 | 61.8% | 0.088 |
| Firm A | 64.5% | 0.036 | 53.3% | 0.070 |
解读:stock-level 指标上 AI 与人类差距缩小,但职业分析师在 valuation calibration 上更稳。
4. 可验证性:OpenAI 最靠谱,Grok 幻觉最重
| 指标 | OpenAI | Gemini | Grok | Perplexity |
|---|---|---|---|---|
| 平均 claims 数 | 23.4 | 27.4 | 19.1 | 24.7 |
| overall F(R) | 86.0% | 69.6% | 53.2% | 75.6% |
| numeric F(R) | 84.9% | 68.8% | 50.2% | 73.7% |
| descriptive F(R) | 89.4% | 75.4% | 61.9% | 88.7% |
| overall H(R) | 11.2% | 17.3% | 34.1% | 18.5% |
| overall NV(R) | 2.9% | 13.1% | 12.7% | 5.9% |
解读:OpenAI 的 factuality 和低 hallucination 最强;Grok 的 hallucination rate 达到 34.1%,在真实投研流程里风险很高。
这篇论文最重要的发现
- AI 已经很会写“像报告”的报告,但还不够会做“像分析师”的分析。
- DR agent 在目标价与买卖建议这类 stock-level 任务上已追近职业分析师,但在核心财务预测上仍落后。
- 金融场景里“有 citation”不等于“可核验”,把 verifiability 单独拆出来是这篇论文最有实务价值的设计。
消融与局限
消融
原文没有大规模机制消融,但有两类重要对照:
- 简单 prompt vs rubric-enhanced prompt
- GPT-5 / Gemini 2.5 Pro / Sonnet 4 judge 一致率对照
严格说,这更像评测流程对照,而不是 DR agent 内部 planner、search、synthesis 的机制消融。
局限
作者在 Appendix A.1 明确承认:
- 只研究商业 DR agents,未系统覆盖开源方案
- 只覆盖 equity research,未扩展到 credit、commodity、macro 等资产类别
- 质性评估虽自动化,但仍依赖 LLM judge
- benchmark 主要基于公开/可订阅数据环境,与真实机构私有数据条件仍有差距
Lighthouse 结论
这篇论文的价值不只是得出“AI 还不如分析师”这个并不意外的结论,而是第一次把职业级金融深研拆成一套可复用、可自动化扩展的评测框架。
如果你在做金融 agent,这篇论文最值得记住的是:
- 不要只追求报告篇幅和结构
- 要单独跟踪财务预测、估值建议和 claim verifiability
- AI 在“看起来像分析师”这件事上已经很强,但在“真正替代分析师”这件事上还远没到位