AI Research / Agent
Agent 研究总览
这里收录 Lighthouse 里和 Agent 相关的工程实践、框架分析、评测方法与训练方向文章。 如果你关心 coding agent、context engineering、memory、skills、evaluator 或长运行 harness,基本都从这里进。
🔬 Claude Code 源码研究
基于 2026 年 3 月 npm source map 泄漏事件,对 Anthropic Claude Code CLI 的全方位源码级深度分析。1884 个 TypeScript 文件、51 万行代码的完整拆解。
Claude Code 深读(一):系统总览与启动序列
基于 1884 个 TypeScript 源文件,对 Claude Code 的入口编排、启动序列、全局状态、模块依赖与五层架构做代码级拆解。
查看文章 →Claude Code 深读(二):QueryEngine 与 query.ts 如何驱动 Agent Runtime
逐行拆解 Claude Code 的 QueryEngine、query.ts 状态机、三级压缩体系、API 集成与输入处理管线。
查看文章 →Claude Code 深读(三):Tool 协议、权限系统与工具调度
逐行拆解 Claude Code 的 Tool.ts 协议、23 种 Bash 攻击检测、6 层权限管道、并发调度与 StreamingToolExecutor。
查看文章 →Claude Code 深读(四):Skills、Commands 与 MCP 如何共同注入 Runtime
逐行拆解 Claude Code 的 Skills 加载器、Command 注册流程、MCP transport 实现与能力分层架构。
查看文章 →深度解读 | Anthropic 内部如何使用 Claude Code Skills:9 类模式、写作技巧与分发策略
Thariq(Anthropic Claude Code 团队)分享了 Anthropic 内部数百个 Skills 的实战经验:9 种 Skill 分类体系、7 条写作最佳实践、分发与市场管理策略。这是目前最权威的 Agent Skill 工程实践指南。
查看文章 →Claude Code 源码泄漏深度技术解读:1884 个文件、51 万行代码揭示的 AI 编程工具架构全貌
Claude Code, npm source map 泄漏, 深度分析, 工具系统, Agent Loop, 多Agent协调, 安全架构, Buddy电子宠物, Kairos长期记忆, Ultraplan
查看文章 →Engineering
Agent 工程实践、终端 runtime、上下文工程、harness 设计与源码分析。
1M 上下文 GA — 长上下文如何重塑 Agent 架构
查看文章 →Codex Context Compaction 机制深度分析
查看文章 →深度解读:Harness Design for Long-Running Application Development
Anthropic 工程博客深度解读——多 Agent Harness 架构的完整技术演进,从两 Agent 到三 Agent,从 Context Reset 到 Compaction,从 Sprint 分解到自由构建
查看文章 →Leanstral 深度解读:6B 活跃参数如何在形式化证明上超越百倍成本的闭源模型
Mistral 发布首个专为 Lean 4 设计的开源形式化证明 Agent——Leanstral。119B 总参数 / 6.5B 活跃参数的稀疏 MoE 架构,以 $36 的成本在 FLTEval 上超越 $549 的 Claude Sonnet。本文从架构设计、训练范式、评测方法论、效率曲线、工程实践到产业影响进行全面深度分析。
查看文章 →MiniMax Skills 深度源码分析
对 MiniMax-AI/skills 项目的完整源码分析,涵盖 11 个 AI 编程 Skill 的架构设计、Office 四件套深度解读、质量控制体系和多平台适配策略
查看文章 →OpenCode/Crush 深度解析 — 终端里的开源 AI 编程 Agent
查看文章 →阿里 PageAgent 源码深度分析
查看文章 →Pi Agent 框架深度上下文:为什么它重要、它怎么设计、它和 Claude Code / Codex 有何不同
从 Pi Coding Agent 的设计哲学、运行模型、上下文管理、工具调用、安全边界到与主流 coding agent 的对比,系统梳理这个轻量终端 Agent 框架的工程实践价值。
查看文章 →Framework
Agent 框架、技能系统、记忆系统与基础抽象。
BAVT:预算感知树搜索——让 Agent 花 1/4 的钱做得更好
Budget-Aware Value Tree Search 用剩余预算比例作为探索-利用的缩放指数,在 1/4 预算下超越暴力并行采样 4× 资源的表现
查看文章 →Memory in the Age of AI Agents:当 Agent 学会"记忆
对 Agent 记忆系统的全景式综述论文的深度解读。从形式、功能、动态三个维度剖析 Agent 记忆的前沿研究。覆盖 300+ 篇论文。
查看文章 →SkillNet:给 AI Agent 建一个技能仓库
查看文章 →Superpowers 深度解析 — 如何用 Skill 系统驯服 AI Coding Agent
查看文章 →Evaluation
Agent 评测、奖励建模、技能 benchmark 与文档推理测试。
ExeVRM:用执行视频取代手工脚本,为 CUA 构建可扩展的奖励模型
USC/UW/Amazon AGI 联合提出 ExeVRM,通过执行视频而非内部推理 trace 来评估 Computer-Use Agent 任务完成度。8B 模型在跨平台评估中达到 84.7% 准确率,超越 GPT-5.2 和 Gemini-3 Pro。
查看文章 →MADQA:Agent 文档推理还是暴力搜索?18% 的 Oracle 差距
Snowflake 联合多机构发布 2,250 题 × 800 篇 PDF 的 Agent 文档推理 benchmark,用 Classical Test Theory 驱动设计,首次系统对比人类与 Agent 的文档搜索行为——结论是 Agent 靠暴力搜索而非策略规划
查看文章 →SkillsBench 深度解读:7308 条轨迹告诉你,Agent Skills 到底有多大用
查看文章 →Training
Agent 训练、自进化、环境合成、持续学习与 RL 方向。
Hyperagents:能改进自身改进机制的自引用 AI Agent
Meta(Facebook Research)联合 Jeff Clune 等人提出 Hyperagents 框架,将任务 Agent 和元 Agent 融合为单一可编辑程序,实现 metacognitive self-modification——不仅改进任务表现,还改进改进策略本身。
查看文章 →KARL:用多任务 RL 训练企业搜索 Agent,成本优于 Claude 4.6
Databricks 提出 KARL 系统:通过合成数据 + 多任务 off-policy RL 训练知识搜索 Agent,在 6 种搜索任务上 Pareto 优于 Claude 4.6 和 GPT 5.2。
查看文章 →OpenClaw-RL:让 Agent 边用边学——用 Next-State Signal 统一所有交互类型的在线 RL 训练
查看文章 →OpenSWE:$1.47M 打造 45K SWE 环境——用规模和质量重新定义 Agent 训练
查看文章 →RetroAgent:从"解题"到"进化"——回顾式双重内在反馈驱动 Agent 在线 RL
查看文章 →XSkill:多模态 Agent 的双流持续学习框架——经验与技能的统一积累
XSkill 提出 experience + skill 双流知识框架,使多模态 Agent 无需参数更新即可从历史轨迹中持续学习,在五个 benchmark 上持续显著超越基线。
查看文章 →