News

deep onemancompany agents.md

2026-04-29 · 深度解读 · 编辑：Lighthouse

原文：arxiv.org/html/2604.22446 — From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company

作者：Zhengxu Yu, Yu Fu, Zhiyuan He, Yuxuan Huang, Lee Ka Yiu, Meng Fang, Weilin Luo, Jun Wang

提交日期：2026-04-24

原始标题

From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company

速查卡

维度	内容
一句话总结	这篇论文不是再造一个更强的“单 Agent 工作流”，而是提出一个“AI 公司操作系统”式组织层：把异构 Agent 封装成可招聘、可治理、可淘汰、可复盘的员工体系。
大白话版	以前的多 Agent 更像“几个人被提前写死在流程图里”；OneManCompany 想做的是“先有一家公司，再按任务去招人、分工、验收、复盘、换人”。
核心机制	Talent–Container 架构、Talent Market 按需招聘、E²R（Explore-Execute-Review）树搜索、DAG 调度与显式 review gate、周期性绩效考核/PIP/offboarding。
核心结果	在 PRDBench 上拿到 84.67% 成功率，较论文表中最强基线 69.19% 高 15.48 个百分点。总成本 $345.59 / 50 tasks，约 $ 6.91/任务。
主要卖点	不是只支持一种 agent runtime，而是把 Claude Code、LangGraph、脚本型 executor 等异构后端通过 6 个 typed interfaces 统一起来。
方法性质	系统/框架论文，不训练新底模；重点在组织抽象、调度与生命周期管理。
影响评级	A- — 对“Agent system 怎么从 demo 变成组织”给了很完整的一套工程抽象；但实验仍偏单 benchmark，泛化强度还需更多外部复现。

核心 Insight

这篇论文最值得记住的，不是它又做了一个多 Agent 框架，而是它把问题的层级抬高了：

1. 论文认为多 Agent 的真正短板，不是单体能力，而是“组织层缺失”

作者开宗明义地说，个体 agent 的 skills、tools、插件都进步很快，但现有多 Agent 系统仍被三件事卡住：

团队结构固定；
协调逻辑和底层实现强耦合；
学习改进被困在单次 session 内。

因此他们提出的不是“让 agent 更会干活”，而是补上一层独立于底层模型和工具的 organisational layer，专门负责：

怎么组队；
怎么分工；
怎么验收；
怎么在项目结束后让组织本身变强。

这个视角和常见的 prompt-orchestration 最大不同在于：它把 agent 看成“劳动力单元”，把系统看成“公司”。

2. OMC 的关键抽象不是 skill，而是 Talent

论文第一张表就把“skills/skill market”与“talents/talent market”做了鲜明区分：

Skill 是单个 agent 内部可复用的小工具/函数；
Talent 是完整 agent 身份包，包含角色、提示词、工具配置、技能脚本、知识文件、运行配置，能被直接“招聘上岗”。

这意味着 OMC 试图把多 Agent 生态从“下载工具库”升级为“招聘 agent 劳动力市场”。作者的主张是：真实复杂任务需要的是可管理的人才供给，而不是无穷无尽的工具链。

3. 它把多 Agent 决策写成了一个带 review gate 的树搜索问题

OMC 的 Explore-Execute-Review（E²R）树把多 Agent 工作拆成三步：

Explore：决定如何拆任务、分配给谁、是否需要招聘新员工；
Execute：员工实际产出结果；
Review：上级显式验收，决定接受、拒绝、重做或升级处理。

这和“放一群 agent 在群聊里自己商量”完全不同。论文最强的工程直觉是：项目管理里真正稀缺的不是生成内容，而是“谁有权验收”和“失败后如何进入下一轮组织性修正”。

4. 论文的隐含主张：未来多 Agent 的竞争，不只是模型能力，而是组织设计

OMC 把以下要素都制度化了：

招聘：Talent Market 按能力缺口补人；
执行：任务树 + DAG 调度；
学习：one-on-one、post-task review、project retrospective；
淘汰：performance review、PIP、offboarding。

这意味着作者认为，Agent system 的长期上限取决于“组织是否能进化”，而不是只取决于今天底模有多强。

★ Insight ───────────────────────────────────── 和很多“多 Agent = 多个 prompt 角色扮演”的工作不同，OMC 的最重要贡献是把 agent orchestration 从“通信协议”升级为“组织治理协议”。这会直接影响未来 Agent 平台的产品形态：它们可能更像 HR + PM + Workflow OS，而不只是聊天式协作。 ─────────────────────────────────────────────────

方法详解

1. Talent–Container：把“认知身份”与“运行底座”分离

论文把一个 Employee 拆成两部分：

Talent：可移植的“认知身份包”，包括 prompts、角色职责、工作原则、agent family 配置、tools、skills、支持资源；
Container：承载 Talent 的运行环境，负责 agent runtime、middleware hooks、wrappers、资源与组织接口。

当前支持三类 Container 家族：

Claude Code-based
LangGraph-based
script-based executors

这样做的直接意义是：

同一个 Talent 可以换不同 runtime 跑；
同一种 Container 可以装不同 Talent，产生不同岗位员工；
新增一种 agent backend 时，不必改整个平台，只要实现接口契约。

2. 六个 typed organisational interfaces

Container 对组织层暴露 6 个统一接口：

接口	签名	作用
Execution	`execute(task, ctx) -> (result, cost)`	把任务派发给具体 backend 并返回结果
Task	`enqueue(task); dequeue() -> task`	每个员工自己的任务队列与互斥执行
Event	`publish(event); subscribe(filter)`	组织级事件总线
Storage	`read(key) -> data; write(key, data)`	持久化记忆与中短期状态
Context	`assemble(role, guidance, memory) -> ctx`	组装执行时上下文
Lifecycle	`pre_hook(task, ctx); post_hook(task, result)`	验证、护栏、自我改进

这是整篇论文最工程化的地方。它相当于声明：平台永远不要直接碰 backend-specific 细节，而是像 OS kernel 一样，只通过统一抽象和驱动层交互。

3. Talent Market：把 agent sourcing 做成组织原生能力

OMC 内建 Talent Market，而不是让开发者手动提前把所有 agent 写死。论文给出三种来源：

社区贡献的开源 Talents；
AI 推荐组队；
用户私有人才池。

每个 Talent 包含：

system prompts / role definitions
tool configs / MCP integrations
skill scripts
knowledge files
benchmark results

当当前组织能力不足时，HR agent 会在 Talent Market 里检索候选人，生成 shortlist，交 CEO 批准后自动完成：

provision Container
分配 desk
配置工具权限
注册进组织层级

这比“动态生成一个虚拟角色”更接近真实工程，因为能力是由可执行 artefact 和历史验证结果支撑，而不是由 prompt 描述支撑。

4. E²R 树搜索：把组织决策视为搜索问题

论文把整个项目执行建模为动态增长的搜索树：

节点：某个决策点的组织状态；
tree edges：任务分解关系；
dependency edges：执行依赖关系；
全局约束：合并图必须保持 DAG。

每个节点记录：

任务描述 d_v
被分配员工 e_v
状态 φ_v
执行结果 r_v
累积成本 c_v

并共享：

workforce state W
resource state R

系统在每个决策点可采取 5 类动作：

动作	作用
`A_decompose`	把任务拆成子任务
`A_assign`	给叶子任务分配员工
`A_recruit`	从 Talent Market 招人
`A_review`	审核并接受/拒绝结果
`A_iterate`	基于失败经验发起新一轮迭代

5. Explore-Execute-Review 三阶段闭环

Stage 1: Explore

主管 agent（如 COO）基于项目状态、员工画像和历史表现，决定：

任务拆多细；
每个子任务交给谁；
是否招聘新员工。

这里存在典型 exploration–exploitation 权衡：

用老员工求稳；
试新人挖掘隐性能力；
或者直接招聘补齐能力缺口。

Stage 2: Execute

被分配的员工通过组织层接口执行任务。论文强调：对于 Claude 这类闭源 agent，组织层并不需要看见内部思考，只需要统一接收其 (result, cost)。

Stage 3: Review

每个完成节点必须经 reviewer 验收，质量信号只分两类：

accept
reject

如果接受，结果自底向上传播，可能解锁依赖节点；如果拒绝，系统回到 Explore，在同一父节点下重新探索新的子树策略。

这就是 OMC 把“项目管理反馈回路”嵌入执行语义的核心。

6. DAG 调度与形式化保证

作者非常强调系统不会“悄悄卡死”。为此他们给出：

DAG invariant：插边时做 cycle detection；
每个 employee 同时最多跑一个任务；
review 次数有上限；
task timeout 默认 3600s；
总成本预算超标会暂停；
failed 节点可有限次 retry，超过阈值则 escalation；
若所有非根节点都终止/阻塞但 root 未 resolve，则 deadlock detector 直接标项目失败。

论文列出 7 个 invariants：

DAG Invariant
Mutual Exclusion
Schedule Idempotency
Review Termination
Cascade Completeness
Dependency Completeness
Recovery Correctness

这让 OMC 和不少“自由对话式多 Agent”工作最大的差别显现出来：它不是只追求灵活性，而是追求可治理性与可恢复性。

7. Self-Evolution：把 HR 流程正式写进 Agent 生命周期

这是论文最有辨识度的部分。OMC 的改进不是通过重新训练模型，而是通过组织层 artefacts 更新来实现。

个体层：

CEO one-on-one 后做 self-reflection；
task 完成后做 post-task review；
持续更新 progress log 和 working principles。

项目层：

COO 做 retrospective；
汇总 retry counts、review rejection reasons、资源消耗；
产出个人反馈和组织 SOP。

组织层：

每 3 个项目 HR 自动发起 performance review；
连续 3 次不过进入 PIP；
PIP 期再失败 1 次，自动 offboarding；
空缺能力再从 Talent Market 招聘补齐。

这实际上把“Agent 持续改进”从 memory trick 扩展成了完整的人事制度。

训练 / 数据 /系统设置

1. 这不是训练论文

论文没有训练新的 foundation model，也没有微调。改进全部来自：

组织层抽象；
动态招聘；
task decomposition / review / scheduling；
持久化反思与 SOP 积累。

2. founding agent 与初始团队

实验里，创始 founding agent 是：

一个基于 LangGraph 的 agent
底模使用 Gemini 2.1 Flash Lite Preview

在第一个 PRD 项目开始时，HR 先从 Talent Market 招到三位专业员工：

Software Engineer：Claude Code-based，带 superpowers plugin
Software Architect：Claude Code-based，来自 agency-agents 项目
Code Reviewer：同样来自 agency-agents 项目

这说明实验不是“纯单模型”，而是异构组合。

3. Benchmark 与评测设定

论文主实验使用 PRDBench：

50 个 project-level tasks
覆盖 20+ 领域
输入是结构化 PRD 与详细评估标准
提供执行脚本进行端到端评测

采用 PRDBench 官方 DEV mode：

one-shot 输入 PRD
无迭代外部反馈
最终输出由自动脚本评测

指标：

主指标：Success Rate
辅指标：Cost Overhead

这里要注意，论文里的“主 benchmark + 多案例展示”结构，更偏系统 paper，而不是大规模学术 benchmark paper。

与现有方法的关键区别

维度	常见多 Agent 系统	OMC 的做法
设计中心	prompt 角色、SOP、message graph	组织层、岗位、治理、生命周期
组队方式	预先写死团队成员	可在执行中按需招聘
Agent 来源	开发者手工定义 / 平台内置	Talent Market，社区验证或私有人才池
异构后端	往往单一 runtime	通过 6 个 typed interfaces 统一 Claude Code / LangGraph / script 等
任务执行	线性 pipeline 或松散消息协作	任务树 + DAG 调度 + review gate
质量控制	子任务产出常直接向下游传播	必须先过 `completed -> accepted` 审核
学习方式	session 内 memory 或 ad hoc reflection	one-on-one + retrospective + performance review + PIP/offboarding
组织进化	很少显式建模	明确把 SOP 积累与员工替换写进框架

论文自己的 architecture comparison table 也很清楚：相比 MetaGPT/ChatDev、AutoGen/LangGraph、CrewAI、OpenHands、AIOS、AgentScope、Paperclip，OMC 声称自己是少数同时具备：

on-demand execution
多后端 agent source
self-evolution
organisation evolution

的系统。

实验结果

1. PRDBench 主结果

AgentType	Method	Success Rate (%)	Cost ($)
Minimal	GPT-5.2	62.49	-
Minimal	Claude-4.5	69.19	-
Minimal	Gemini-3-Pro	22.76	-
Minimal	Qwen3-Coder	43.84	-
Minimal	Kimi-K2	20.52	-
Minimal	DeepSeek-V3.2	40.11	-
Minimal	GLM-4.7	38.39	-
Minimal	Minimax-M2	17.60	-
Commercial	CodeX	62.09	-
Commercial	Claude Code	56.65	-
Commercial	Gemini CLI	11.29	-
Commercial	Qwen Code	39.91	-
Multi-agent	OMC (Claude Code Sonnet 4.6 + Gemini 3.1 Flash Lite Preview)	84.67 (+15.48)	345.59

结果解读

最关键的一句是：OMC 不是比最强基线多赢一点，而是直接把成功率抬到了 84.67%，比表中第二名 69.19% 高出 15.48 个百分点。

在 project-level benchmark 上，这个 margin 不算小，说明：

动态分工可能真的优于单体 agent 硬顶；
review gate 可能有效减少了错误向下游扩散；
异构 agent 混编带来了实用收益。

但论文也坦承一个限制：PRDBench 基线没有统一报告成本，所以无法严格比较“每成功任务成本”。因此它证明了 effectiveness，但还没有证明 efficiency 最优。

2. SOTA 对比矩阵

按论文表 2，若只看 success rate：

排名	系统	类型	Success Rate
1	OMC	Multi-agent	84.67%
2	Claude-4.5	Minimal	69.19%
3	GPT-5.2	Minimal	62.49%
4	CodeX	Commercial	62.09%
5	Claude Code	Commercial	56.65%
6	Qwen3-Coder	Minimal	43.84%
7	DeepSeek-V3.2	Minimal	40.11%
8	Qwen Code	Commercial	39.91%
9	GLM-4.7	Minimal	38.39%
10	Gemini-3-Pro	Minimal	22.76%
11	Kimi-K2	Minimal	20.52%
12	Minimax-M2	Minimal	17.60%
13	Gemini CLI	Commercial	11.29%

如果 Lighthouse 要抓一句最核心的 benchmark 结论，就是：OMC 在 PRDBench 上已经从“强基线之上再优化”变成了“明显拉开一档”。

3. 四个跨域案例

论文没有把所有案例都量化成统一 benchmark，而是用 case studies 展示组织层的广泛性。

Case 1：GitHub AI Agent 周报生成

单句 CEO 指令触发后，系统：

HR 招到 Researcher（GPT-4o）和 Writer（Claude Sonnet 4）
Researcher 收集真实仓库链接与摘要
Writer 输出趋势报告并邮件发送

结果：

全流程少于 10 分钟
总成本约 $4.48
作者人工核验：仓库链接和 star 数均真实准确

Case 2：街头格斗游戏开发

招到 Game Developer（Claude Sonnet 4）
招到 Art Designer（Gemini 2.5 + NanoBanana）
首轮交付后，外部人类评测发现 sprite sheet 切分错误
组织层决定不是“临时 patch”，而是新增一项切图 skill 给 Art Designer
二次交付后完成修复

这个案例突出的是：OMC 可以在执行中通过“能力扩展”而非仅靠重试解决问题。

Case 3：有声书开发

Novel Writer 写两集脚本
AV Producer 用图像生成、TTS、视频合成工具完成 16 个场景、16 段配音、背景音乐和 2 个最终视频

结果：

成本约 $1.57
输出含脚本、场景图、音轨、背景音乐、最终视频和验证日志

Case 4：Embodied AI / Robotics 世界模型综述与研究构想

系统招聘：

Research Scientist（Claude Sonnet 4.6）
Research Paper Scientist（Claude Sonnet 4.6）
AI Engineer（self-hosted）

Phase 1 并行完成：

survey skeleton、acceptance criteria、35 篇种子论文
17 篇论文精读、8 个 open problems、11 个 failure modes
28 个系统的 deployment readiness benchmarking

Phase 2 产出：

paper inclusion protocol
931 行 literature review framework
3 个研究想法

结果：

总耗时不到 1 小时
总成本 $16.26
总 token 15.9M
交付 17 份结构化文档与一个约 70 节点 mind map

其中 Table 3 给出 3 个 idea：

Idea	Problem Addressed	Target Venue	Key Technique
HiTeWM	15 步以上复合预测误差	NeurIPS / ICLR	双层时间尺度 world model + uncertainty-gated re-grounding
PhysWM	视频 world model 的物理不可信问题	ICML / CoRL	在 latent dynamics 中注入可微物理约束
MAWM	sim-to-real shift 与过度自信幻觉	CoRL / ICLR	跨仿真域 meta-learning + conformal prediction 校准不确定性

这里作者还人工核查，称：

引用论文真实；
failure taxonomy 结构良好；
第三个 idea（MAWM）具有真实新颖性。

消融与补充分析

1. 严格说，论文没有标准意义上的 ablation study

这篇论文没有常见的：

去掉 Talent Market 看掉多少；
去掉 review gate 看掉多少；
去掉 self-evolution 看掉多少；
单模型 vs 异构模型的系统对照。

因此它目前还不能定量回答“到底是哪一个组件贡献最大”。论文只在正文里给出定性解释：

动态 task tree 能随中间结果调整；
completed -> accepted review gate 抑制错误级联；
Talent–Container 分离支持跨 family 最优匹配。

2. 论文给了 architecture comparison，而非机制消融

相比传统 ablation，这篇更像是在做“系统设计位形比较”：

系统	设计范式	执行模式	多后端	Agent 来源	Agent 自进化	组织进化
OMC	Organisation	On-demand	✓	Talent Market	✓	✓
MetaGPT / ChatDev	SOP pipeline	Sequential	×	Prompt-defined	×	×
AutoGen / LangGraph	Message graph	Event / Graph	×	Developer-defined	×	×
CrewAI / Agno	Role framework	Seq./parallel	×	Developer-defined	×	×
OpenHands	Sandbox	Agent loop	×	Built-in	×	×
AIOS	OS kernel	Scheduled	×	Registry	×	×
AgentScope	Distributed actors	Distributed	×	Developer-defined	×	×
Paperclip	Orchestrator	Ticket-based	✓	Prompt-defined	×	×

换句话说，它试图证明的不是“某个 trick 提升了 x%”，而是“Agent platform 的组织范式应该整体换一层抽象”。

复现评估

1. 可复现的部分

论文在系统抽象上写得相对清楚，理论上容易复现这些骨架：

Talent / Container 分离
六类 organisational interfaces
E²R 树 + DAG 调度
review gate
periodic performance review / PIP / offboarding 机制

而且 Talent Market 给了公开入口：

https://one-man-company.com/market

2. 不易完整复现的部分

但如果要复现出论文里的成绩，难点不少：

需要接入多种 agent runtime；
需要可用的人才市场内容而不只是空框架；
需要较成熟的 prompt/role artefacts；
需要和 PRDBench 完整对接；
需要人类审批 shortlist 的环节和相应操作细节；
需要控制多 agent 成本、超时、权限与外部工具稳定性。

3. 论文当前复现实用性评价

维度	评价
系统思想可复现性	高
代码级工程复现难度	高
benchmark 结果复现可信度	中等偏高
外部团队低成本复现难度	偏高

原因是：框架逻辑清楚，但真正的胜负手很可能藏在人才 artefact 质量、review policy、任务拆解 heuristic 和具体运行基础设施里。

批判性分析

亮点

1. 抽象层级抬得够高，而且不是空概念

“组织层”这个说法很容易沦为比喻，但 OMC 的优点在于，它把比喻落到了明确接口、状态机、DAG 调度、HR 生命周期上，形成了可以实现的系统设计。

2. 显式 review gate 很重要

很多 Agent 系统失败，不是因为第一次输出错，而是因为错的子任务结果被直接喂给后续流程，最后整棵树带偏。OMC 强制 completed -> accepted 才能继续，这是很有现实价值的设计。

3. 异构 agent 统一抽象非常实用

现实世界里不会只有一个模型家族。能把 Claude Code、LangGraph 和 script executors 放进同一个组织层，意味着这套框架天然贴近企业复杂栈。

4. 首次把 HR 流程正式纳入 Agent lifecycle

PIP、offboarding 这些概念看似“戏多”，但从系统工程角度，它们是在回答一个很实在的问题：表现差的 agent 怎么被替换，组织如何避免越来越臃肿。

局限与疑点

1. 实验仍然偏“一个主 benchmark + 多 showcase”

PRDBench 的主结果很好看，但证据结构仍不够厚：

只有一个主 benchmark；
没有更多公开标准集的横向验证；
case studies 更像能力展示而非严格 controlled evaluation。

2. 没有 ablation，导致组件贡献无法拆清

论文最需要补的一块，就是拆出：

Talent Market 的增益；
review gate 的增益；
E²R 相对固定 workflow 的增益；
self-evolution 在多轮项目后的长期收益。

否则目前更像“整套系统一起上场赢了”，但不知道是谁在真正拉分。

3. 成本效率还不够透明

论文报告了 OMC 的成本，但由于基线没给成本，无法判断：

是不是 15.48 个点的成功率提升，换来了极高的 token / wall-clock 代价；
单任务 success-normalized cost 是否仍优。

4. human-in-the-loop 仍然存在关键位置

例如 CEO 批准 shortlist、外部 evaluator 提供反馈，这些步骤是合理的，但也意味着“全自动公司”并非完全无人的闭环系统。对一些用户来说，这不是问题；但对“自主性”叙事需要降一点温。

5. Talent Market 的真实生态规模还没被证明

OMC 依赖一个高质量人才市场。但这类市场的难点从来不是架构，而是供给端：

多少 Talents 真可复用？
benchmark 如何持续维护？
社区审核如何防止能力虚标？
不同 runtime 下的兼容性如何保证？

如果生态起不来，组织层会退化为一个优秀框架，但不一定成为真正的平台。

独立判断

我认为 OMC 最强的价值，不在于“它是不是目前最强多 Agent”，而在于它给出了一个值得行业认真考虑的新默认范式：

Agent 不是 function call；
多 Agent 不是群聊；
长任务系统也不该只是 workflow graph；
更合理的抽象可能是“组织 + 招聘 + 管理 + 验收 + 复盘 + 淘汰”。

如果后续有更多 benchmark 和开源复现支持，这篇论文很可能会成为“组织型 Agent 系统”路线的早期代表作。

结论

OneManCompany 的真正创新点，不是再堆一个更复杂的多 Agent pipeline，而是把多 Agent 系统重新定义成一个可招聘、可调度、可验收、可学习、可淘汰的“AI 公司”。

从结果看，它在 PRDBench 上的 84.67% 成功率已经足以让人认真看待这一路线；从方法看，Talent–Container、Talent Market、E²R 树、DAG 保证、组织级 review 与 HR 生命周期共同构成了一套完整世界观。

但同样要看到：目前证据更像“一套很强的系统设计 + 一个漂亮主 benchmark + 几个高说服力案例”，还不是“经过大量消融和跨基准检验的定论”。

因此 Lighthouse 的判断是：

这篇论文在“Agent 如何组织起来”上非常值得深读；
它已经足够重要，值得产品和研究团队借鉴其组织层抽象；
但它距离成为无可争议的通用标准，还需要更多公开复现与更细粒度实验支撑。

原始标题
速查卡
核心 Insight
1. 论文认为多 Agent 的真正短板，不是单体能力，而是“组织层缺失”
2. OMC 的关键抽象不是 skill，而是 Talent
3. 它把多 Agent 决策写成了一个带 review gate 的树搜索问题
4. 论文的隐含主张：未来多 Agent 的竞争，不只是模型能力，而是组织设计
方法详解
1. Talent–Container：把“认知身份”与“运行底座”分离
2. 六个 typed organisational interfaces
3. Talent Market：把 agent sourcing 做成组织原生能力
4. E²R 树搜索：把组织决策视为搜索问题
5. Explore-Execute-Review 三阶段闭环
6. DAG 调度与形式化保证
7. Self-Evolution：把 HR 流程正式写进 Agent 生命周期
训练 / 数据 /系统设置
1. 这不是训练论文
2. founding agent 与初始团队
3. Benchmark 与评测设定
与现有方法的关键区别
实验结果
1. PRDBench 主结果
结果解读
2. SOTA 对比矩阵
3. 四个跨域案例
Case 1：GitHub AI Agent 周报生成
Case 2：街头格斗游戏开发
Case 3：有声书开发
Case 4：Embodied AI / Robotics 世界模型综述与研究构想
消融与补充分析
1. 严格说，论文没有标准意义上的 ablation study
2. 论文给了 architecture comparison，而非机制消融
复现评估
1. 可复现的部分
2. 不易完整复现的部分
3. 论文当前复现实用性评价
批判性分析
亮点
局限与疑点
独立判断
结论