The Karpathy Loop: autoresearch 与自主 AI 研究的未来
The Karpathy Loop: autoresearch 与自主 AI 研究的未来
原文链接:https://github.com/karpathy/autoresearch 来源:Andrej Karpathy(前 OpenAI/Tesla AI 负责人,Eureka Labs 创始人) 交叉验证:Fortune / VentureBeat / The New Stack / No Priors Podcast 发布日期:2026-03-07
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | 630 行 Python 脚本让 AI Agent 在两天内自主运行 700 个 ML 实验,发现 20 个改进使训练速度提升 11% |
| 大白话版 | Karpathy 写了一个简单的脚本,让 AI 自己当研究员——它读代码、提出假设、改参数、跑实验、看结果、再改。一晚上跑了几百个实验,找到了人类研究员两年都没发现的优化 |
| 核心数字 | 700 个实验/2 天,20 个有效优化,11% 训练速度提升 |
| 影响评级 | A — 预示了 AI 研究方法论的根本转变 |
| 代码 | https://github.com/karpathy/autoresearch(MIT 许可) |
事件全貌
发生了什么?
2026 年 3 月 7 日,Andrej Karpathy 在 X 上发布了 autoresearch——一个 630 行的 Python 脚本。它的运作方式极其简单:
AI Agent(如 Claude/GPT)
├→ 读取训练脚本源代码
├→ 形成改进假设(如"调整学习率"或"改变架构深度")
├→ 修改代码
├→ 运行实验(固定 5 分钟 GPU 预算)
├→ 评估结果(验证损失 val_bpb)
├→ 如果改善 → 保留改动
├→ 如果未改善 → 回滚
└→ 重复
结果数据
第一次过夜运行(~12 小时):
- 完成 126 个实验
- 验证损失从 0.9979 降到 0.9697
两天持续运行:
- 完成约 700 个自主实验
- 发现约 20 个可叠加的改进
- 将 “Time to GPT-2” 基准从 2.02 小时降到 1.80 小时(11% 提升)
- Agent 发现了注意力缩放和正则化方面的疏忽——Karpathy 本人在”20 年的工作中”都没注意到
病毒式传播
Karpathy 的帖子获得 860 万+ 浏览。多个知名人物立即复现和扩展:
Shopify CEO Tobias Lütke:
- 用 autoresearch 优化内部 AI 模型
- 过夜运行 37 个实验
- 获得 19% 性能提升
Hyperspace AI(Varun Mathur):
- 将单 Agent 循环扩展到点对点网络
- 35 个 Agent 同时运行,一夜完成 333 个实验
- 发现 Kaiming 初始化使损失降低 21%,通过 GossipSub 协议在 Agent 间传播
- 不同硬件(H100 vs CPU 笔记本)产生了不同但互补的优化策略
营销领域(Eric Siu,Single Grain 创始人):
- 提出将 autoresearch 应用于营销优化
- “当前营销团队每年 ~30 个实验,下一代将运行 36,500+”
- 将训练脚本替换为营销资产(落地页、广告创意),将 val_bpb 替换为”正向回复率”
Karpathy 的关键引用
“看到 Agent 完全自主地完成这整个工作流……太疯狂了。”
“所有前沿 LLM 实验室都会这样做。这是最终的 Boss 战。”
“下一步是让 autoresearch 变成异步的、大规模协作的 Agent 系统。目标不是模拟单个博士生,而是模拟一个博士生研究社区。”
“主要瓶颈不再是技术实现,而是你能多快表达你想要什么。”
在 No Priors 播客中,Karpathy 描述自己处于”AI 精神病”(AI psychosis)状态——不再直接编码,花数小时”向 AI 系统表达意图”。
技术解析
”Karpathy Loop” 的三要素
Janakiram MSV 在 The New Stack 中将其提炼为三个核心组件:
- Agent + 单文件:Agent 有权限读写一个代码文件
- 单一可测指标:一个客观可评估的优化目标(如 val_bpb)
- 固定时间预算:每次实验的运行时间上限(如 5 分钟)
Karpathy 给 Agent 的指令文件包含:
- Instructions:做什么
- Constraints:不做什么 / 不改什么
- Stopping criteria:何时停止循环并报告结果
与 AutoML 的关键区别
批评者认为 autoresearch 不过是 AutoML 的翻版。Karpathy 的回应:
| 维度 | 传统 AutoML/NAS | autoresearch |
|---|---|---|
| 搜索方式 | 随机变异 / 进化算法 | LLM 阅读代码、理解语义、形成假设 |
| 知识利用 | 无(blind search) | 可阅读研究论文、利用训练经验 |
| 修改范围 | 预定义的超参空间 | 任意代码修改 |
| 推理能力 | 无 | 可从之前实验中学习 |
| 互联网访问 | 无 | 可搜索和参考文献 |
Karpathy 的原话:
“Neural architecture search 作为存在过的东西,与此相比完全无用,根本不在一个类别。这是一个 真正的 LLM 在写任意代码、从之前的实验中学习、还能上网。根本不是一回事。“
自我改进的边界
autoresearch 的一个微妙之处:它不是在改进自身。 Agent 改进的是一个独立的、更小的语言模型的训练代码——不是 Agent 自己的代码或训练过程。
但 Karpathy 指出,从 autoresearch 到”前沿模型自我优化”只是工程规模的差异:
“在规模上当然复杂得多——我的 autoresearcher 只需要处理 630 行 Python 代码,而前沿 AI 模型的训练代码库大了几个数量级。但做到这一点’只是工程问题’,而且它会奏效。“
批判性分析
过拟合风险
最重要的批评来自 alexisthual:
“运行这么多实验,最终不会’污染’验证集吗?”
700 个实验都在同一个验证集上评估——这在统计学上可能导致间接的过拟合(选择偏差)。Karpathy 回应:“我们只是在优化每单位计算的性能……这些是真实和实质性的提升。” 但这个担忧在更大规模上会更加突出。
“11% 提升” 的含金量
在一个 Karpathy 自己认为”已经调好了”的基准上提升 11%——这本身就说明了手动调参的局限性和自动化的潜力。但需要注意:
- 这些优化是否迁移到更大模型?Karpathy 说迁移了(“20 个改进完美迁移到更大模型”)
- 是否迁移到不同架构?未验证
- 是否迁移到不同任务?未验证
社会影响
Karpathy 在 No Priors 播客中的描述——“AI 精神病”、“不再直接编码”——与 Sam Altman 被嘲讽的”感谢程序员”推文形成呼应。编程从”手工活”变为”意图表达”的趋势正在加速,但这对程序员就业的影响是真实的担忧。
独立观察
- autoresearch 的真正革命性不在于它做了什么,而在于它多么简单。630 行代码就够了——这意味着任何有 API 访问权限的人都可以做同样的事。“AI 研究的民主化”从未如此触手可及
- 与 OpenAI 收购 Astral 结合来看:如果 Codex + Astral 的工具链 + autoresearch 的循环模式整合在一起,AI 不仅能写代码,还能自主优化代码——形成闭环
- Karpathy 提出的”模拟研究社区”愿景——多 Agent 异步协作探索不同优化路径——与 Hyperspace AI 的 35 Agent 实验已经初步验证了可行性
- “任何可高效评估的指标都可以被 Agent 群自动研究”——这句话的含义远超 ML:药物筛选、材料设计、算法优化……只要能定义”好”的客观标准,autoresearch 范式就适用