AI Research / Agent

Agent 研究总览

这里收录 Lighthouse 里和 Agent 相关的工程实践、框架分析、评测方法与训练方向文章。如果你关心 coding agent、context engineering、memory、skills、evaluator 或长运行 harness，基本都从这里进。

🔬 Claude Code 源码研究

基于 2026 年 3 月 npm source map 泄漏事件，对 Anthropic Claude Code CLI 的全方位源码级深度分析。1884 个 TypeScript 文件、51 万行代码的完整拆解。

Claude Code 深读（一）：系统总览与启动序列

基于 1884 个 TypeScript 源文件，对 Claude Code 的入口编排、启动序列、全局状态、模块依赖与五层架构做代码级拆解。

查看文章 →

Claude Code 深读（二）：QueryEngine 与 query.ts 如何驱动 Agent Runtime

逐行拆解 Claude Code 的 QueryEngine、query.ts 状态机、三级压缩体系、API 集成与输入处理管线。

查看文章 →

Claude Code 深读（三）：Tool 协议、权限系统与工具调度

逐行拆解 Claude Code 的 Tool.ts 协议、23 种 Bash 攻击检测、6 层权限管道、并发调度与 StreamingToolExecutor。

查看文章 →

Claude Code 深读（四）：Skills、Commands 与 MCP 如何共同注入 Runtime

逐行拆解 Claude Code 的 Skills 加载器、Command 注册流程、MCP transport 实现与能力分层架构。

查看文章 →

深度解读 | Anthropic 内部如何使用 Claude Code Skills：9 类模式、写作技巧与分发策略

Thariq（Anthropic Claude Code 团队）分享了 Anthropic 内部数百个 Skills 的实战经验：9 种 Skill 分类体系、7 条写作最佳实践、分发与市场管理策略。这是目前最权威的 Agent Skill 工程实践指南。

查看文章 →

Claude Code 源码泄漏深度技术解读：1884 个文件、51 万行代码揭示的 AI 编程工具架构全貌

Claude Code, npm source map 泄漏, 深度分析, 工具系统, Agent Loop, 多Agent协调, 安全架构, Buddy电子宠物, Kairos长期记忆, Ultraplan

查看文章 →

Engineering

Agent 工程实践、终端 runtime、上下文工程、harness 设计与源码分析。

1M 上下文 GA — 长上下文如何重塑 Agent 架构

查看文章 →

Codex Context Compaction 机制深度分析

查看文章 →

深度解读：Harness Design for Long-Running Application Development

Anthropic 工程博客深度解读——多 Agent Harness 架构的完整技术演进，从两 Agent 到三 Agent，从 Context Reset 到 Compaction，从 Sprint 分解到自由构建

查看文章 →

Leanstral 深度解读：6B 活跃参数如何在形式化证明上超越百倍成本的闭源模型

Mistral 发布首个专为 Lean 4 设计的开源形式化证明 Agent——Leanstral。119B 总参数 / 6.5B 活跃参数的稀疏 MoE 架构，以 $36 的成本在 FLTEval 上超越 $549 的 Claude Sonnet。本文从架构设计、训练范式、评测方法论、效率曲线、工程实践到产业影响进行全面深度分析。

查看文章 →

MiniMax Skills 深度源码分析

对 MiniMax-AI/skills 项目的完整源码分析，涵盖 11 个 AI 编程 Skill 的架构设计、Office 四件套深度解读、质量控制体系和多平台适配策略

查看文章 →

OpenCode/Crush 深度解析 — 终端里的开源 AI 编程 Agent

查看文章 →

阿里 PageAgent 源码深度分析

查看文章 →

Pi Agent 框架深度上下文：为什么它重要、它怎么设计、它和 Claude Code / Codex 有何不同

从 Pi Coding Agent 的设计哲学、运行模型、上下文管理、工具调用、安全边界到与主流 coding agent 的对比，系统梳理这个轻量终端 Agent 框架的工程实践价值。

查看文章 →

Framework

Agent 框架、技能系统、记忆系统与基础抽象。

BAVT：预算感知树搜索——让 Agent 花 1/4 的钱做得更好

Budget-Aware Value Tree Search 用剩余预算比例作为探索-利用的缩放指数，在 1/4 预算下超越暴力并行采样 4× 资源的表现

查看文章 →

Memory in the Age of AI Agents：当 Agent 学会"记忆

对 Agent 记忆系统的全景式综述论文的深度解读。从形式、功能、动态三个维度剖析 Agent 记忆的前沿研究。覆盖 300+ 篇论文。

查看文章 →

SkillNet：给 AI Agent 建一个技能仓库

查看文章 →

Superpowers 深度解析 — 如何用 Skill 系统驯服 AI Coding Agent

查看文章 →

Evaluation

Agent 评测、奖励建模、技能 benchmark 与文档推理测试。

ExeVRM：用执行视频取代手工脚本，为 CUA 构建可扩展的奖励模型

USC/UW/Amazon AGI 联合提出 ExeVRM，通过执行视频而非内部推理 trace 来评估 Computer-Use Agent 任务完成度。8B 模型在跨平台评估中达到 84.7% 准确率，超越 GPT-5.2 和 Gemini-3 Pro。

查看文章 →

MADQA：Agent 文档推理还是暴力搜索？18% 的 Oracle 差距

Snowflake 联合多机构发布 2,250 题 × 800 篇 PDF 的 Agent 文档推理 benchmark，用 Classical Test Theory 驱动设计，首次系统对比人类与 Agent 的文档搜索行为——结论是 Agent 靠暴力搜索而非策略规划

查看文章 →

SkillsBench 深度解读：7308 条轨迹告诉你，Agent Skills 到底有多大用

查看文章 →

Training

Agent 训练、自进化、环境合成、持续学习与 RL 方向。

Hyperagents：能改进自身改进机制的自引用 AI Agent

Meta（Facebook Research）联合 Jeff Clune 等人提出 Hyperagents 框架，将任务 Agent 和元 Agent 融合为单一可编辑程序，实现 metacognitive self-modification——不仅改进任务表现，还改进改进策略本身。

查看文章 →

KARL：用多任务 RL 训练企业搜索 Agent，成本优于 Claude 4.6

Databricks 提出 KARL 系统：通过合成数据 + 多任务 off-policy RL 训练知识搜索 Agent，在 6 种搜索任务上 Pareto 优于 Claude 4.6 和 GPT 5.2。

查看文章 →

OpenClaw-RL：让 Agent 边用边学——用 Next-State Signal 统一所有交互类型的在线 RL 训练

查看文章 →

OpenSWE：$1.47M 打造 45K SWE 环境——用规模和质量重新定义 Agent 训练

查看文章 →

RetroAgent：从"解题"到"进化"——回顾式双重内在反馈驱动 Agent 在线 RL

查看文章 →

XSkill：多模态 Agent 的双流持续学习框架——经验与技能的统一积累

XSkill 提出 experience + skill 双流知识框架，使多模态 Agent 无需参数更新即可从历史轨迹中持续学习，在五个 benchmark 上持续显著超越基线。

查看文章 →