News

OpenMythos：这是 Claude Mythos 的开源复原，还是一场工程化猜想？

原仓库：https://github.com/kyegomez/OpenMythos

动动侧 fork：https://github.com/DongDongBear/OpenMythos

核对说明：本文基于源码、GitHub 元数据、issues/PR、Anthropic 官方 Glasswing/Mythos 公开材料做交叉核验，不把 README 自述直接当事实。

速查卡

项目	内容
一句话总结	OpenMythos 不是 Anthropic Mythos 的“已证实开源复原”，而是一个踩中信息真空的工程化理论重建：代码里确实做了一个能跑的循环深度 Transformer 原型，但 README 对能力、成熟度和与真实 Mythos 的接近程度明显讲得比代码更满。
最重要的判断	值得研究，不值得盲信。它的价值在于把“looped / recurrent-depth transformer 能否解释 Mythos”这条研究线做成了可检查代码；它的问题在于工程质量、发布治理和核心 claim 验证都还没跟上热度。
价值评级	A- 作为研究线索和行业情报值得跟；作为可直接复用的成熟开源底座，只能给 B- 甚至更低。
真正可验证的部分	仓库存在、代码存在、确实实现了 Prelude + Recurrent Block + Coda 的循环结构，也确实写了 GQA、MLA、MoE、ACT、LTIInjection 等模块；仓库 1 周内爆到 1 万 star+。
不能直接当真的部分	“Mythos 就是这种架构”“更多 loops 一定带来更强推理”“MLA 在这些配置下显著省 cache”“ACT 已实现 token 级动态省算”“这套 recipe 已被大规模训练验证”。这些都没有被 Anthropic 官方证实，且部分被社区实验直接挑战。
最值得盯的风险点	文档和包元数据不一致、外部 PR 大量积压但 0 merge、无 release/tag/CI、核心 depth-extrapolation 叙事被 issue #28 的系统实验公开质疑。

为什么 OpenMythos 会突然爆

OpenMythos 的传播，不是因为它真的“破解了 Anthropic 内部架构”，而是因为它正好出现在一个极其适合爆红的窗口：

Anthropic 先把 Mythos 的能力热度点燃了。 Project Glasswing 和 Claude Mythos Preview 官方公开材料已经让市场知道 Mythos 很强，尤其是在代码、agent 和网络安全方向，但几乎没有公开底层架构细节。
市场天然会追问：它到底为什么这么强？ 当官方只给能力，不给机制，社区就会自动进入“架构侦探模式”。
OpenMythos 提供了一个可运行的答案。 不是一条 X 帖子，不是纸上猜想，而是一套 PyTorch 实现、训练脚本、变体配置和 README 叙事，足够让人转发、引用、二次传播。

所以它火的核心，不是“证据”，而是“解释力”。

更准确地说，OpenMythos 是一个 可执行的猜想载体。它填补的是信息真空，而不是官方披露。

先把边界钉死：Anthropic 官方到底公开了什么，没公开什么

先把官方层面的“真”和“猜”切开，否则后面所有讨论都会滑坡。

官方确实公开了的

Anthropic 官方 Glasswing 页面、Mythos Preview system card、risk report 与安全博客，可以确认以下几点：

Mythos Preview 真实存在，而且是 general-purpose, unreleased frontier model；
它被限制在受限研究预览和防御性网络安全合作场景中，而不是普通公开产品发布；
在多项代码、browser、terminal、网络安全相关 benchmark 上强于公开的 Claude Opus 4.6；
它具有更强的 agentic/autonomous 使用能力；
官方公开了较宽泛的训练信息，如 proprietary mix of public internet、public/private datasets、synthetic data，以及大量 post-training；
官方评估重点集中在能力、安全、限制部署与风险缓解，而不是底层架构细节。

官方没有公开确认的

Anthropic 公开材料里 没有直接确认 以下说法：

Mythos 是 recurrent-depth transformer / looped transformer；
Mythos 的内部结构是 Prelude + Recurrent Block + Coda；
它核心依赖 MoE；
它使用 MLA 或 GQA 作为关键注意力机制；
它采用 ACT halting、LTI stable injection、loop-index embedding、depth-wise LoRA 等机制；
“更多 loops = 更深推理 = Mythos 的核心秘密”。

所以，OpenMythos 最重要的前提必须写清楚：

它是 理论重建，不是 官方证实架构。

OpenMythos 实际实现了什么

如果只看代码，不看 README 自吹，它并不空心。相反，它确实做了一个相当完整的研究型原型。

1. 三段式循环深度结构是真的

源码里的 OpenMythos 主体，确实是：

Prelude：若干普通 transformer block；
RecurrentBlock：一个共享权重的循环块，多次运行；
Coda：若干普通 transformer block；
最后接 norm 和 lm head。

也就是说，OpenMythos 不是打着“循环深度”旗号、代码却还是普通堆叠 transformer。它在结构层面真的做了“同一块权重重复调用”的 looped / recurrent-depth 形态。

2. 它确实写了 GQA 和 MLA 两条注意力路径

仓库里不是只提名词：

GQAttention 做了 grouped query attention；
MLAttention 做了压缩 KV latent、运行时重建的 MLA 风格实现；
还做了 flash-attn 可选支持。

这说明项目作者不是只会讲故事，至少把主要机制写进了代码。

3. 它也确实写了 MoE、LTIInjection 和 ACT

循环块里有：

token-level top-k routed experts；
always-on shared experts；
LTIInjection 负责 A·h + B·e + trans_out 这类稳定注入；
ACTHalting 提供每轮 halting score；
再加 loop-index embedding 和 depth-wise LoRA 这些让“每次循环不完全一样”的设计。

如果你把它看成一个“把近期 latent reasoning / looped transformer 论文线索拼成统一 PyTorch 原型”的仓库，这个完成度并不低。

但问题来了：代码能支撑多少 README 的大话？

答案是：支撑一部分，但远远支撑不了全部。

这也是 OpenMythos 最关键的分界线。

第一层问题：很多部件“有”，但不是 README 暗示的那个强度

1. ACT 更像“输出加权聚合”，不是真正 token 级省算

README 很容易让人理解成：

简单 token 提前停；
困难 token 多跑几轮；
同一个 batch 内能动态省算。

但从实现看，当前 ACT 的关键行为是：

每轮还是先完整跑 transformer block；
然后再计算 halting score；
halted 主要影响输出累计权重；
只有“整个 batch 全部 halt”时才可能提前 break。

这意味着它没有真正做到“已经 halt 的 token 不再参与后续 attention/FFN 计算”。

翻成人话：

它更像一种 ACT 风格的表示聚合机制，不是 README 那种 token 级按需省算 runtime。

所以，如果有人把 OpenMythos 当成“已经实现 continuous depth-wise batching”的工程实现，那就是读过头了。

2. MoE 有架子，但更像教学版/研究版，不是工业级可训练 MoE

MoE 的路由是存在的，但 dispatch 还是明显依赖 Python 层的双重循环与小张量切片。没有看到大型 MoE 训练里常见的：

高效 grouped dispatch；
all-to-all 通信；
capacity 管理；
真正完整的负载均衡闭环。

更关键的是，代码里虽然有 router_bias，文档也暗示它是动态平衡路由的一部分，但主训练脚本并没有真正把这套机制跑起来。

这就导致一种典型状态：

概念上，MoE 在；
模块上，MoE 在；
真正训练级别的稳定与效率闭环，不在。

3. MLA 的实现存在，但 README 的 cache 优势表述站不太住

这是个很值得注意的点。

README 会让人感觉 MLA 在这些大模型变体里天然更省 cache，甚至有很显著的 cache 降低收益。但按仓库自己给的 variant 配置推算，情况没那么美：

在小配置下，MLA 可能确实比 GQA 更省；
但从更大的 10B+ 变体开始，按当前参数设定，MLA cache 不一定比 GQA 小，甚至在一些配置下更大。

这不等于 MLA 思想错了，而是说明：

README 的性能叙事，并没有被当前这套配置稳稳支撑。

第二层问题：训练脚本更像 skeleton，不像被充分打磨过的 recipe

仓库里确实有训练脚本，比如针对 FineWeb-Edu 的示例训练文件。但如果你从“这能不能作为严肃训练方案”去看，它明显更像一个研究骨架：

有 FSDP/DDP、streaming dataset、checkpoint 这些框架元素；
但缺完整评估闭环；
缺更成熟的大规模混精与容错处理；
缺清晰的 loop 训练策略验证；
缺 MoE balance 的完整实现；
对 README 里很多更强的 scaling / extrapolation 说法，没有仓库级别的自证。

所以它比较准确的定位是：

一个为了验证架构想法而搭起来的研究原型，不是一个被实战锤过的大规模训练框架。

第三层问题：仓库健康度明显落后于热度

这部分反而是 OpenMythos 最危险的信号，因为它说明项目现在的问题不是“还年轻”，而是“热度已经远超维护吞吐”。

GitHub 面上的情况很夸张

从公开元数据看：

仓库创建于 2026-04-18；
到 2026-04-25 就冲到大约 1 万 star、2200+ forks；
代码主线提交主要集中在 4 月 18 日到 4 月 22 日；
没有 GitHub release；
没有 tag；
没看到成型的 CI 工作流。

这是一种非常典型的“叙事先爆、工程还没站稳”的状态。

更刺眼的是：社区在帮它修，主仓库却几乎不吸收

目前这个 repo 的 PR 区给出的信号很明确：

外部贡献者提交了大量高质量 PR；
包括修 README 错误、修 bf16 dtype、修 install、补测试、补 benchmark 实验、修 API 导出等；
但已合并 PR 约等于 0；
大量 PR 长时间 open 或直接 closed 而非 merge。

这说明什么？

说明这个项目不是没人帮，而是：

社区贡献速度 > 维护者吸收速度。

一旦这个状态持续，就会出现两个后果：

外界继续把 star 当成熟度；
真正认真看代码的人，会越来越把它当“高热度 prototype”。

文档和发布也有很明显的基础问题

仓库里已经暴露出的典型问题包括：

README 中有可复现错误；
mythos_7b() 这种不存在的示例曾出现在文档里；
__all__ 里出现 load_tokenizer / get_vocab_size 这类幽灵导出；
pyproject.toml、requirements.txt、training/requirements.txt 对 torch 版本要求不一致，甚至出现明显可疑的版本号；
PyPI 已经有多个版本，但 GitHub 上没有对应 release/tag 路径，源码与包发布之间缺少清晰映射。

这些都不是“学术争论”，而是很朴素的工程质量问题。

最致命的一刀：社区已经开始质疑它的核心卖点，而且不是嘴炮，是带实验的

如果说上面那些还是“项目还年轻可以理解”，那真正需要敲钟的是这个：

社区已经有人系统性测试它的核心 depth-extrapolation claim，并得出了与 README 不完全一致、甚至相反的结果。

最典型的是 issue #28 那条线。

其中的核心争议，不是某个代码 bug，而是：

README 暗示“更多 loops 可以带来更深推理”；
但社区实证结果显示，默认配置下这个叙事并没有稳定复现；
有些情况下表现更像 U-shape 或 plateau；
只有在某些特定 ablation/训练策略下，才出现更接近宣传口径的单调收益曲线。

这类反馈的重要性非常高，因为它已经触及项目最值钱的命题：

如果“loop depth 带来额外推理红利”没有在当前实现中被稳定验证，那 OpenMythos 的核心吸引力就会从“接近 Mythos 秘密”退回到“一个有意思的研究方向样机”。

这不代表它没价值，恰恰相反：它的价值要换个角度看

如果你把 OpenMythos 当成“Claude Mythos 的开源版”，那大概率会失望。

但如果你把它当成下面这个东西，它就非常值得跟：

一个把“looped / recurrent-depth / latent reasoning / adaptive compute / MoE breadth-depth 组合”这条研究线压缩成可执行代码的开源样机。

它真正的价值有三层：

1. 它让 Mythos 讨论从空谈变成可检查对象

以前大家聊 Mythos，很多时候只能转述官方宣传、转发论文、写长线程。OpenMythos 让人至少能开始问更具体的问题：

如果用共享循环块，真的能出现更深推理吗？
ACT 在这里到底是省算，还是只是权重聚合？
MoE + loop depth 是互补，还是叙事堆叠？
MLA/GQA 在这种设计里到底怎么取舍？

这对行业讨论本身是有贡献的。

2. 它非常像 2026 年 AI 开源圈的一种新范式

即：

官方模型不公开架构；
社区围绕公开能力、论文趋势和系统行为做“可执行推测”；
然后把这些推测做成代码、文章、benchmark 和 PR；
最后形成一种半研究、半情报、半工程的“开源叙事层”。

OpenMythos 不是孤例，但它是这类项目里最典型、也最火的一例。

3. 它比很多“蹭热度 repo”认真得多

虽然我上面批了很多，但要说清楚：

它不是纯 PPT；
它不是 README-only；
它确实做了结构实现；
社区也确实投入了认真修复与实验；
争议不代表它空，反而说明有人把它当回事，愿意去复现、打脸、补洞。

这类项目最怕的是没人认真看。OpenMythos 不是这个状态。

那么，应该怎么给 OpenMythos 定位？

我觉得最准确的定位是：

它是一个高热度、高解释力、但低验证闭环的研究原型

拆开讲就是：

高热度：传播极强，踩中了 Mythos 架构猎奇与 latent reasoning 叙事；
高解释力：它提供了一套足够完整的理论结构，能让很多人“感觉这解释得通”；
低验证闭环：真正关键的工程、实验和发布治理还没跟上。

它不是“假的”，但也绝不是“破案了”

最需要警惕的不是它在说谎，而是外部传播很容易把它从：

“community-driven theoretical reconstruction”

自动脑补成：

“Anthropic Mythos 的秘密已经被基本还原”。

这两者差得非常远。

给 Lighthouse 的最终判断

如果从情报价值看

它很值得持续跟。

因为 OpenMythos 不只是一个仓库，它是一个观察窗口：

看社区如何试图解构闭源前沿模型；
看“looped transformer 能否解释更强推理”这条研究线会不会真正坐实；
看高热度 AI 开源项目如何在 star/fork 狂飙后暴露治理和验证短板；
看 Mythos 叙事会不会刺激更多同类“理论重建仓库”出现。

如果从工程复用看

现在不适合把它当稳定依赖。

原因很简单：

基础打包/文档/API surface 还有明显问题；
社区修复积压严重；
release/tag/CI 缺位；
核心 claim 还在被社区实证挑战。

如果从研究角度看

值得 fork、值得跟、值得做二次实验。

尤其是下面几条，后续非常值得继续验证：

关闭或重写 ACT 后，loop scaling 曲线会不会更健康；
MoE 路由和负载均衡如果补齐，训练稳定性会不会更像 README 的说法；
MLA/GQA 的缓存与吞吐收益，在合理配置下到底谁更优；
“loop depth 带来推理增益”是否需要特定数据、训练策略或任务分布才能显现；
Anthropic 后续如果公开更多 Mythos 细节，哪些会打脸 OpenMythos，哪些会意外对上。

一句话结论

OpenMythos 不是 Claude Mythos 的开源实锤，而是 2026 年 AI 社区围绕“前沿闭源模型为什么突然更强”这道题交出的一份最完整、最工程化、也最容易被误读的答案。它最值得看的地方，不是它已经证明了什么，而是它把一条本来只能空谈的研究路线，变成了可以被验证、被质疑、被继续改写的对象。

信源与证据来源：

https://github.com/kyegomez/OpenMythos
https://github.com/DongDongBear/OpenMythos
https://www.anthropic.com/news/project-glasswing
https://www.anthropic.com/glasswing
https://www.anthropic.com/system-cards/mythos-preview
https://www.anthropic.com/news/mythos-preview-alignment-risk-update
https://red.anthropic.com/2026/04/07/mythos-preview-for-cybersecurity-research/
kyegomez/OpenMythos 仓库源码、issues、PR、GitHub API 元数据交叉核验

速查卡
为什么 OpenMythos 会突然爆
先把边界钉死：Anthropic 官方到底公开了什么，没公开什么
官方确实公开了的
官方没有公开确认的
OpenMythos 实际实现了什么
1. 三段式循环深度结构是真的
2. 它确实写了 GQA 和 MLA 两条注意力路径
3. 它也确实写了 MoE、LTIInjection 和 ACT
但问题来了：代码能支撑多少 README 的大话？
第一层问题：很多部件“有”，但不是 README 暗示的那个强度
1. ACT 更像“输出加权聚合”，不是真正 token 级省算
2. MoE 有架子，但更像教学版/研究版，不是工业级可训练 MoE
3. MLA 的实现存在，但 README 的 cache 优势表述站不太住
第二层问题：训练脚本更像 skeleton，不像被充分打磨过的 recipe
第三层问题：仓库健康度明显落后于热度
GitHub 面上的情况很夸张
更刺眼的是：社区在帮它修，主仓库却几乎不吸收
文档和发布也有很明显的基础问题
最致命的一刀：社区已经开始质疑它的核心卖点，而且不是嘴炮，是带实验的
这不代表它没价值，恰恰相反：它的价值要换个角度看
1. 它让 Mythos 讨论从空谈变成可检查对象
2. 它非常像 2026 年 AI 开源圈的一种新范式
3. 它比很多“蹭热度 repo”认真得多
那么，应该怎么给 OpenMythos 定位？
它是一个高热度、高解释力、但低验证闭环的研究原型
它不是“假的”，但也绝不是“破案了”
给 Lighthouse 的最终判断
如果从情报价值看
如果从工程复用看
如果从研究角度看
一句话结论