News

Poolside Laguna 深度解读

原文链接：https://poolside.ai/blog/introducing-laguna-xs2-m1 来源：Poolside 官方博客发布日期：2026-04-28 核对说明：已通读官方发布博文全文，并据文中 benchmark 说明与产品描述整理本文。

速查卡

项目	内容
一句话总结	Poolside 这次不是单发模型，而是把大模型、小模型、终端 coding agent 与云端 dev sandbox 一次性打包成 agentic coding 产品栈。
大白话版	他们想卖的不是“我们也有一个模型”，而是“你可以直接拿我们的模型在终端里写代码，或者在云端沙箱里开工”。
核心要点	• Laguna M.1：225B 总参数 / 23B 激活 • Laguna XS.2：33B / 3B 激活、Apache 2.0 开权重、单卡可跑 • pool + Shimmer 同日进入 preview
价值评级	A — 对欧洲 AI 公司来说，这比“发论文”更重要，因为它是完整面向开发者工作流的产品化动作。
适用场景	coding agent、长链路软件任务、希望本地/云端混合试模型的开发者与团队

文章背景

Poolside 过去的外部形象更像一家“拿到大额融资、强调 model factory 与 agent RL 的欧洲/北美混合新锐实验室”。这次发布是它第一次真正把成果公开卖给外部开发者。时点也很微妙：2026 年上半年的 coding agent 竞争，已经从“谁能做代码补全”升级到“谁能占住终端、工作区和长任务执行层”。

因此这篇博文的意义，不是一个实验室终于对外放模型，而是 Poolside 终于决定正面参与 agentic coding 的产品战。

完整内容还原

1. 一次放出两个 foundation model + 两个产品

原文开头直接把信息讲透了：

发布 Laguna M.1，225B 总参数、23B 激活参数，定位是最强模型，面向 agentic coding 与 long-horizon work；
发布 Laguna XS.2，33B 总参数、3B 激活参数，Apache 2.0 开权重，可在单 GPU 运行；
两个产品同步 preview：终端 coding agent pool，以及云端开发体验 Shimmer。

这件事非常关键。很多模型公司发布模型时，开发者要自己找推理服务、自己配工具链、自己写 agent harness。Poolside 这里反过来：先给模型，再把“最佳使用方式”一并打包。

2. Laguna M.1：大模型负责长链路 coding

官方对 M.1 的叙述比较克制，但指向很明确：

225B total / 23B active，说明它走的是 MoE 方向；
明确服务 agentic coding 和 long-horizon work，而不是通用闲聊；
Benchmark 里把它拿去和 Devstral 2、GLM-4.7、DeepSeek-V4-Flash、Qwen3.5、Claude Sonnet 4.6 这类强 coding 对手同台比较。

这说明 Poolside 自己对标的不是“欧洲模型里最好”，而是直接对标全球 coding 模型主力梯队。

3. Laguna XS.2：真正更有意思的小模型

原文把 XS.2 称作 “(Extra) Small model, big story”，这个表述挺准。因为 XS.2 的亮点不在绝对参数，而在组合属性：

33B total / 3B active；
单 GPU 可跑；
Apache 2.0 开权重；
同时号称在 agentic coding 上能站住脚。

官方还补了一个很硬的信息：XS.2 从 5 周前开始预训练，到今天已完成后训练并公开发布。意思是 Poolside 想传达两件事：

他们的 model factory 已经能跑出快速迭代节奏；
他们愿意把开源开放生态当成真实增长路径，而不只是 API 营销漏斗。

4. 为什么要给 XS.2 开权重

原文这一段几乎是在公开表达战略选择：

他们想看社区会拿 XS.2 做什么；
认为西方 open-weight 生态还处在早期；
希望通过把模型放到外部开发者手里，加速自身迭代和 frontier 进展。

这跟很多“只开小模型做品牌曝光”的公司不一样。Poolside 这里更像是在赌：只要 agentic coding 的最佳产品形态还没定型，社区反馈本身就是研发资产。

5. 产品层：pool 与 Shimmer

原文对产品层给得不短，说明这不是附属品。

pool：

定位是 terminal-based coding agent；
官方明确说“for the best agent experience with our models”；
本地侧甚至给出 ollama launch pool --model laguna-xs.2 这类上手路径。

Shimmer：

定位是 instant-on VM sandbox；
用来迭代 web apps、APIs、CLIs；
预装 Poolside Agent，直接把模型与工作区绑定起来。

这意味着 Poolside 的野心不是只做“模型 API 供应商”，而是要占住两个入口：本地终端入口 + 云端隔离开发环境入口。

6. 基准说明和工程口径

原文脚注给了几个很重要的工程信号：

benchmark 采用 Laude Institute 的 Harbor Framework；
使用自家 agent harness；
最大 500 steps；
默认沙箱为 8GB RAM / 2 CPUs，Terminal-Bench 2.0 例外用 48GB RAM / 32 CPUs；
sampling 统一 temperature=0.7 与 top_k=20；
部分 task images 和 verifiers 做过基础设施补丁，以修复第三方依赖限流等问题。

这段话很值钱，因为它至少说明 Poolside 意识到了 agent benchmark 的环境敏感性，并没有把结果写成脱离执行条件的营销数字。

核心技术洞察

模型层与产品层同步发布，才说明团队真的要打工作流入口。 只发模型，说明还在研究阶段；模型、CLI agent、cloud sandbox 一起发，才说明要争日用位置。
小模型开权重，比大模型封闭 API 更适合拉动 agent 生态。 coding agent 场景太依赖本地迭代、sandbox 控制、工具定制。XS.2 这种单卡可跑且 Apache 2.0 的模型，更容易被开发者拿去魔改、塞进自定义工作流。
Poolside 在卖“组织化研发能力”，不只是在卖某个分数。 文中多次提到 model factory、pre-training、post-training、agent RL、Titan training codebase、async on-policy RL、synthetic data、automixing。真正想传达的是：他们有一套能持续迭代 coding 模型与 agent 产品的机器。

实践指南

🟢 立即可用

如果你想测试欧洲阵营在 coding agent 上的真实可用性，XS.2 是最值得试的入口。
如果你要本地跑，单 GPU + Ollama 的路径比大多数 frontier coding 模型更友好。
如果你想看产品完成度，不要只测 API，直接测 pool 和 Shimmer 的工作流完整性。

🟡 需要继续验证

M.1 的真实长链路表现要看第三方复评，不只看自家 Harbor Framework。
Shimmer 能否形成壁垒，取决于权限、审计、状态持久化、协作能力，而不只是“能开个云端 VM”。
开源 XS.2 能否形成社区网络效应，要看后续 examples、微调、部署与 issue 活跃度。

横向对比

话题	Poolside 本次动作	典型闭源模型厂	典型开源模型厂
模型发布	大模型 + 小模型同发	常常只发旗舰闭源 API	常只发权重，缺产品入口
产品入口	终端 agent + 云端 sandbox	倾向做 web/chat 入口或 IDE 插件	往往需要社区自搭
开放策略	小模型 Apache 2.0	更强调 API 锁定	更强调社区，但产品层较弱
战略重点	agentic coding 工作流	通用模型商业化	开源生态扩散

批判性分析

局限性

官方博文本质仍是发布稿，外部验证还不充分。
M.1 与 XS.2 的 benchmark 细节不如完整技术报告丰富。
pool 与 Shimmer 的企业级权限、审计、多人协作信息仍少。

适用边界

如果你的目标是本地或半本地 coding agent，XS.2 很有吸引力。
如果你的目标是超复杂企业开发流程，真正的成败不在模型，而在产品层控制面。

独立观察

Poolside 这次最重要的，不是证明“欧洲也能做模型”，而是证明“欧洲公司也能做完整开发者产品栈”。如果它后续能把 XS.2 社区拉起来，再用 M.1 承接更复杂的长链路任务，那它会比很多单纯拼 leaderboard 的模型厂更危险。