OpenMythos:这是 Claude Mythos 的开源复原,还是一场工程化猜想?
OpenMythos:这是 Claude Mythos 的开源复原,还是一场工程化猜想?
原仓库:https://github.com/kyegomez/OpenMythos
动动侧 fork:https://github.com/DongDongBear/OpenMythos
核对说明:本文基于源码、GitHub 元数据、issues/PR、Anthropic 官方 Glasswing/Mythos 公开材料做交叉核验,不把 README 自述直接当事实。
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | OpenMythos 不是 Anthropic Mythos 的“已证实开源复原”,而是一个踩中信息真空的工程化理论重建:代码里确实做了一个能跑的循环深度 Transformer 原型,但 README 对能力、成熟度和与真实 Mythos 的接近程度明显讲得比代码更满。 |
| 最重要的判断 | 值得研究,不值得盲信。 它的价值在于把“looped / recurrent-depth transformer 能否解释 Mythos”这条研究线做成了可检查代码;它的问题在于工程质量、发布治理和核心 claim 验证都还没跟上热度。 |
| 价值评级 | A- 作为研究线索和行业情报值得跟;作为可直接复用的成熟开源底座,只能给 B- 甚至更低。 |
| 真正可验证的部分 | 仓库存在、代码存在、确实实现了 Prelude + Recurrent Block + Coda 的循环结构,也确实写了 GQA、MLA、MoE、ACT、LTIInjection 等模块;仓库 1 周内爆到 1 万 star+。 |
| 不能直接当真的部分 | “Mythos 就是这种架构”“更多 loops 一定带来更强推理”“MLA 在这些配置下显著省 cache”“ACT 已实现 token 级动态省算”“这套 recipe 已被大规模训练验证”。这些都没有被 Anthropic 官方证实,且部分被社区实验直接挑战。 |
| 最值得盯的风险点 | 文档和包元数据不一致、外部 PR 大量积压但 0 merge、无 release/tag/CI、核心 depth-extrapolation 叙事被 issue #28 的系统实验公开质疑。 |
为什么 OpenMythos 会突然爆
OpenMythos 的传播,不是因为它真的“破解了 Anthropic 内部架构”,而是因为它正好出现在一个极其适合爆红的窗口:
- Anthropic 先把 Mythos 的能力热度点燃了。 Project Glasswing 和 Claude Mythos Preview 官方公开材料已经让市场知道 Mythos 很强,尤其是在代码、agent 和网络安全方向,但几乎没有公开底层架构细节。
- 市场天然会追问:它到底为什么这么强? 当官方只给能力,不给机制,社区就会自动进入“架构侦探模式”。
- OpenMythos 提供了一个可运行的答案。 不是一条 X 帖子,不是纸上猜想,而是一套 PyTorch 实现、训练脚本、变体配置和 README 叙事,足够让人转发、引用、二次传播。
所以它火的核心,不是“证据”,而是“解释力”。
更准确地说,OpenMythos 是一个 可执行的猜想载体。它填补的是信息真空,而不是官方披露。
先把边界钉死:Anthropic 官方到底公开了什么,没公开什么
先把官方层面的“真”和“猜”切开,否则后面所有讨论都会滑坡。
官方确实公开了的
Anthropic 官方 Glasswing 页面、Mythos Preview system card、risk report 与安全博客,可以确认以下几点:
- Mythos Preview 真实存在,而且是 general-purpose, unreleased frontier model;
- 它被限制在受限研究预览和防御性网络安全合作场景中,而不是普通公开产品发布;
- 在多项代码、browser、terminal、网络安全相关 benchmark 上强于公开的 Claude Opus 4.6;
- 它具有更强的 agentic/autonomous 使用能力;
- 官方公开了较宽泛的训练信息,如 proprietary mix of public internet、public/private datasets、synthetic data,以及大量 post-training;
- 官方评估重点集中在能力、安全、限制部署与风险缓解,而不是底层架构细节。
官方没有公开确认的
Anthropic 公开材料里 没有直接确认 以下说法:
- Mythos 是 recurrent-depth transformer / looped transformer;
- Mythos 的内部结构是 Prelude + Recurrent Block + Coda;
- 它核心依赖 MoE;
- 它使用 MLA 或 GQA 作为关键注意力机制;
- 它采用 ACT halting、LTI stable injection、loop-index embedding、depth-wise LoRA 等机制;
- “更多 loops = 更深推理 = Mythos 的核心秘密”。
所以,OpenMythos 最重要的前提必须写清楚:
它是 理论重建,不是 官方证实架构。
OpenMythos 实际实现了什么
如果只看代码,不看 README 自吹,它并不空心。相反,它确实做了一个相当完整的研究型原型。
1. 三段式循环深度结构是真的
源码里的 OpenMythos 主体,确实是:
- Prelude:若干普通 transformer block;
- RecurrentBlock:一个共享权重的循环块,多次运行;
- Coda:若干普通 transformer block;
- 最后接 norm 和 lm head。
也就是说,OpenMythos 不是打着“循环深度”旗号、代码却还是普通堆叠 transformer。它在结构层面真的做了“同一块权重重复调用”的 looped / recurrent-depth 形态。
2. 它确实写了 GQA 和 MLA 两条注意力路径
仓库里不是只提名词:
GQAttention做了 grouped query attention;MLAttention做了压缩 KV latent、运行时重建的 MLA 风格实现;- 还做了 flash-attn 可选支持。
这说明项目作者不是只会讲故事,至少把主要机制写进了代码。
3. 它也确实写了 MoE、LTIInjection 和 ACT
循环块里有:
- token-level top-k routed experts;
- always-on shared experts;
LTIInjection负责A·h + B·e + trans_out这类稳定注入;ACTHalting提供每轮 halting score;- 再加 loop-index embedding 和 depth-wise LoRA 这些让“每次循环不完全一样”的设计。
如果你把它看成一个“把近期 latent reasoning / looped transformer 论文线索拼成统一 PyTorch 原型”的仓库,这个完成度并不低。
但问题来了:代码能支撑多少 README 的大话?
答案是:支撑一部分,但远远支撑不了全部。
这也是 OpenMythos 最关键的分界线。
第一层问题:很多部件“有”,但不是 README 暗示的那个强度
1. ACT 更像“输出加权聚合”,不是真正 token 级省算
README 很容易让人理解成:
- 简单 token 提前停;
- 困难 token 多跑几轮;
- 同一个 batch 内能动态省算。
但从实现看,当前 ACT 的关键行为是:
- 每轮还是先完整跑 transformer block;
- 然后再计算 halting score;
- halted 主要影响输出累计权重;
- 只有“整个 batch 全部 halt”时才可能提前 break。
这意味着它没有真正做到“已经 halt 的 token 不再参与后续 attention/FFN 计算”。
翻成人话:
它更像一种 ACT 风格的表示聚合机制,不是 README 那种 token 级按需省算 runtime。
所以,如果有人把 OpenMythos 当成“已经实现 continuous depth-wise batching”的工程实现,那就是读过头了。
2. MoE 有架子,但更像教学版/研究版,不是工业级可训练 MoE
MoE 的路由是存在的,但 dispatch 还是明显依赖 Python 层的双重循环与小张量切片。没有看到大型 MoE 训练里常见的:
- 高效 grouped dispatch;
- all-to-all 通信;
- capacity 管理;
- 真正完整的负载均衡闭环。
更关键的是,代码里虽然有 router_bias,文档也暗示它是动态平衡路由的一部分,但主训练脚本并没有真正把这套机制跑起来。
这就导致一种典型状态:
- 概念上,MoE 在;
- 模块上,MoE 在;
- 真正训练级别的稳定与效率闭环,不在。
3. MLA 的实现存在,但 README 的 cache 优势表述站不太住
这是个很值得注意的点。
README 会让人感觉 MLA 在这些大模型变体里天然更省 cache,甚至有很显著的 cache 降低收益。但按仓库自己给的 variant 配置推算,情况没那么美:
- 在小配置下,MLA 可能确实比 GQA 更省;
- 但从更大的 10B+ 变体开始,按当前参数设定,MLA cache 不一定比 GQA 小,甚至在一些配置下更大。
这不等于 MLA 思想错了,而是说明:
README 的性能叙事,并没有被当前这套配置稳稳支撑。
第二层问题:训练脚本更像 skeleton,不像被充分打磨过的 recipe
仓库里确实有训练脚本,比如针对 FineWeb-Edu 的示例训练文件。但如果你从“这能不能作为严肃训练方案”去看,它明显更像一个研究骨架:
- 有 FSDP/DDP、streaming dataset、checkpoint 这些框架元素;
- 但缺完整评估闭环;
- 缺更成熟的大规模混精与容错处理;
- 缺清晰的 loop 训练策略验证;
- 缺 MoE balance 的完整实现;
- 对 README 里很多更强的 scaling / extrapolation 说法,没有仓库级别的自证。
所以它比较准确的定位是:
一个为了验证架构想法而搭起来的研究原型,不是一个被实战锤过的大规模训练框架。
第三层问题:仓库健康度明显落后于热度
这部分反而是 OpenMythos 最危险的信号,因为它说明项目现在的问题不是“还年轻”,而是“热度已经远超维护吞吐”。
GitHub 面上的情况很夸张
从公开元数据看:
- 仓库创建于 2026-04-18;
- 到 2026-04-25 就冲到大约 1 万 star、2200+ forks;
- 代码主线提交主要集中在 4 月 18 日到 4 月 22 日;
- 没有 GitHub release;
- 没有 tag;
- 没看到成型的 CI 工作流。
这是一种非常典型的“叙事先爆、工程还没站稳”的状态。
更刺眼的是:社区在帮它修,主仓库却几乎不吸收
目前这个 repo 的 PR 区给出的信号很明确:
- 外部贡献者提交了大量高质量 PR;
- 包括修 README 错误、修 bf16 dtype、修 install、补测试、补 benchmark 实验、修 API 导出等;
- 但已合并 PR 约等于 0;
- 大量 PR 长时间 open 或直接 closed 而非 merge。
这说明什么?
说明这个项目不是没人帮,而是:
社区贡献速度 > 维护者吸收速度。
一旦这个状态持续,就会出现两个后果:
- 外界继续把 star 当成熟度;
- 真正认真看代码的人,会越来越把它当“高热度 prototype”。
文档和发布也有很明显的基础问题
仓库里已经暴露出的典型问题包括:
- README 中有可复现错误;
mythos_7b()这种不存在的示例曾出现在文档里;__all__里出现load_tokenizer/get_vocab_size这类幽灵导出;pyproject.toml、requirements.txt、training/requirements.txt对 torch 版本要求不一致,甚至出现明显可疑的版本号;- PyPI 已经有多个版本,但 GitHub 上没有对应 release/tag 路径,源码与包发布之间缺少清晰映射。
这些都不是“学术争论”,而是很朴素的工程质量问题。
最致命的一刀:社区已经开始质疑它的核心卖点,而且不是嘴炮,是带实验的
如果说上面那些还是“项目还年轻可以理解”,那真正需要敲钟的是这个:
社区已经有人系统性测试它的核心 depth-extrapolation claim,并得出了与 README 不完全一致、甚至相反的结果。
最典型的是 issue #28 那条线。
其中的核心争议,不是某个代码 bug,而是:
- README 暗示“更多 loops 可以带来更深推理”;
- 但社区实证结果显示,默认配置下这个叙事并没有稳定复现;
- 有些情况下表现更像 U-shape 或 plateau;
- 只有在某些特定 ablation/训练策略下,才出现更接近宣传口径的单调收益曲线。
这类反馈的重要性非常高,因为它已经触及项目最值钱的命题:
如果“loop depth 带来额外推理红利”没有在当前实现中被稳定验证,那 OpenMythos 的核心吸引力就会从“接近 Mythos 秘密”退回到“一个有意思的研究方向样机”。
这不代表它没价值,恰恰相反:它的价值要换个角度看
如果你把 OpenMythos 当成“Claude Mythos 的开源版”,那大概率会失望。
但如果你把它当成下面这个东西,它就非常值得跟:
一个把“looped / recurrent-depth / latent reasoning / adaptive compute / MoE breadth-depth 组合”这条研究线压缩成可执行代码的开源样机。
它真正的价值有三层:
1. 它让 Mythos 讨论从空谈变成可检查对象
以前大家聊 Mythos,很多时候只能转述官方宣传、转发论文、写长线程。OpenMythos 让人至少能开始问更具体的问题:
- 如果用共享循环块,真的能出现更深推理吗?
- ACT 在这里到底是省算,还是只是权重聚合?
- MoE + loop depth 是互补,还是叙事堆叠?
- MLA/GQA 在这种设计里到底怎么取舍?
这对行业讨论本身是有贡献的。
2. 它非常像 2026 年 AI 开源圈的一种新范式
即:
- 官方模型不公开架构;
- 社区围绕公开能力、论文趋势和系统行为做“可执行推测”;
- 然后把这些推测做成代码、文章、benchmark 和 PR;
- 最后形成一种半研究、半情报、半工程的“开源叙事层”。
OpenMythos 不是孤例,但它是这类项目里最典型、也最火的一例。
3. 它比很多“蹭热度 repo”认真得多
虽然我上面批了很多,但要说清楚:
- 它不是纯 PPT;
- 它不是 README-only;
- 它确实做了结构实现;
- 社区也确实投入了认真修复与实验;
- 争议不代表它空,反而说明有人把它当回事,愿意去复现、打脸、补洞。
这类项目最怕的是没人认真看。OpenMythos 不是这个状态。
那么,应该怎么给 OpenMythos 定位?
我觉得最准确的定位是:
它是一个高热度、高解释力、但低验证闭环的研究原型
拆开讲就是:
- 高热度:传播极强,踩中了 Mythos 架构猎奇与 latent reasoning 叙事;
- 高解释力:它提供了一套足够完整的理论结构,能让很多人“感觉这解释得通”;
- 低验证闭环:真正关键的工程、实验和发布治理还没跟上。
它不是“假的”,但也绝不是“破案了”
最需要警惕的不是它在说谎,而是外部传播很容易把它从:
- “community-driven theoretical reconstruction”
自动脑补成:
- “Anthropic Mythos 的秘密已经被基本还原”。
这两者差得非常远。
给 Lighthouse 的最终判断
如果从情报价值看
它很值得持续跟。
因为 OpenMythos 不只是一个仓库,它是一个观察窗口:
- 看社区如何试图解构闭源前沿模型;
- 看“looped transformer 能否解释更强推理”这条研究线会不会真正坐实;
- 看高热度 AI 开源项目如何在 star/fork 狂飙后暴露治理和验证短板;
- 看 Mythos 叙事会不会刺激更多同类“理论重建仓库”出现。
如果从工程复用看
现在不适合把它当稳定依赖。
原因很简单:
- 基础打包/文档/API surface 还有明显问题;
- 社区修复积压严重;
- release/tag/CI 缺位;
- 核心 claim 还在被社区实证挑战。
如果从研究角度看
值得 fork、值得跟、值得做二次实验。
尤其是下面几条,后续非常值得继续验证:
- 关闭或重写 ACT 后,loop scaling 曲线会不会更健康;
- MoE 路由和负载均衡如果补齐,训练稳定性会不会更像 README 的说法;
- MLA/GQA 的缓存与吞吐收益,在合理配置下到底谁更优;
- “loop depth 带来推理增益”是否需要特定数据、训练策略或任务分布才能显现;
- Anthropic 后续如果公开更多 Mythos 细节,哪些会打脸 OpenMythos,哪些会意外对上。
一句话结论
OpenMythos 不是 Claude Mythos 的开源实锤,而是 2026 年 AI 社区围绕“前沿闭源模型为什么突然更强”这道题交出的一份最完整、最工程化、也最容易被误读的答案。它最值得看的地方,不是它已经证明了什么,而是它把一条本来只能空谈的研究路线,变成了可以被验证、被质疑、被继续改写的对象。
信源与证据来源:
- https://github.com/kyegomez/OpenMythos
- https://github.com/DongDongBear/OpenMythos
- https://www.anthropic.com/news/project-glasswing
- https://www.anthropic.com/glasswing
- https://www.anthropic.com/system-cards/mythos-preview
- https://www.anthropic.com/news/mythos-preview-alignment-risk-update
- https://red.anthropic.com/2026/04/07/mythos-preview-for-cybersecurity-research/
kyegomez/OpenMythos仓库源码、issues、PR、GitHub API 元数据交叉核验