Qwen3.6-Plus:百万 Token 上下文企业级 AI 旗舰
Qwen3.6-Plus:百万 Token 上下文企业级 AI 旗舰
主要信源:https://www.aibase.com/zh/news/26810 交叉验证:https://www.cnblogs.com/sing1ee/p/19813683 / https://news.aibase.com/zh/news/26805 事件日期:2026-04-02
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | 阿里发布 Qwen3.6-Plus,定位”编程能力最强国产模型”,100 万 Token 原生上下文 |
| 大白话版 | 阿里出了个新 AI 模型,能一次性”看”完一整个代码仓库(75 万字),然后自主规划、写代码、测试、修 bug |
| 核心数字 | 100 万 Token 上下文窗口;<100B 参数量;兼容 Claude Code / OpenClaw / Cline 等主流 Agent 框架 |
| 影响评级 | B+ — 重要进展。国产编程模型的标杆,但缺少完整技术报告和独立评测数据 |
| 利益相关方 | 受益:国内 Agent 开发者、阿里云企业客户;关注:Claude Code / Codex 用户(多了一个选择) |
事件全貌
发生了什么?
2026 年 4 月 2 日,阿里云通义千问实验室正式发布 Qwen3.6-Plus——Qwen 系列的最新旗舰模型。这不是一个简单的版本迭代,而是阿里在”Agentic AI”方向上的一次战略定义性发布。
核心定位:不是参数量竞赛的参与者,而是”在企业生产环境中真正能干活的 AI 编程智能体”。
关键规格:
- 100 万 Token 原生上下文窗口(非后处理扩展)
- 混合 MoE 设计,参数量不到 Kimi K2.5(1T)或 GLM-5(745B)的一半
- 原生多模态推理(视觉+文本+代码)
- Agentic Coding 核心能力:自主规划→执行→测试→优化闭环
- 兼容 Anthropic API 协议,直接适配 Claude Code 工作流
时间线
- 2025 年 12 月 — Qwen3-Coder-480B 发布(480B MoE,35B 激活,编程专用)
- 2026 年 2 月 — Qwen3.5 系列发布,Qwen 3.5 权重在 HuggingFace 开放
- 2026 年 3 月 30 日 — Qwen3.6-Plus 在 OpenRouter 上免费预览
- 2026 年 4 月 2 日 — Qwen3.6-Plus 正式发布,通过阿里云百炼 API、千问 App、悟空平台开放
- 同日 — Google Gemma 4 发布(Apache 2.0 开源,直接竞争对手)
关键声明
阿里官方定位其为”当下最强编程国产模型”,在系列编程能力权威评测中稳居国产模型首位。
技术解析
技术方案
Qwen3.6-Plus 的技术架构围绕三个核心设计原则:
1. 百万 Token 原生上下文
这不是通过 RoPE 外推或位置编码插值实现的”扩展”上下文——而是模型训练阶段就原生支持 100 万 Token。实际意义:
| 上下文长度 | 能处理的内容 |
|---|---|
| 4K(GPT-3.5 时代) | 单个文件 |
| 128K(GPT-4 时代) | 中等项目 |
| 200K(Claude / GLM-5) | 大型文档 |
| 1M(Qwen3.6-Plus / Kimi K2.5) | 整个代码仓库(约 75 万字) |
2. 高效混合架构
阿里未公开完整架构细节,但从已知信息推断:
- 采用类似 Qwen3-Coder-480B 的 MoE(混合专家)设计
- 总参数量远小于 Kimi K2.5(1T)和 GLM-5(745B),但每 Token 只激活必要的参数子集
- 这种设计使得推理成本与模型总参数量解耦——用 Dense 模型一小部分的计算成本达到前沿性能
3. Agentic Coding 作为核心能力
与传统的”代码补全”或”代码建议”不同,Qwen3.6-Plus 将自主编程作为核心设计目标:
输入(自然语言需求/代码库)
↓
[规划器] — 分析需求,拆解多文件改动方案
↓
[执行器] — 在理解依赖关系的前提下编写/修改代码
↓
[测试器] — 运行测试,收集反馈
↓
[优化器] — 根据测试结果和 lint 反馈迭代优化
↓
输出(可合并的 PR / 可部署的代码)
新特性 preserve_thinking: 允许保留前序轮次的推理链,对长程 Agent 任务(跨多轮的代码审查、迭代调试)特别关键。这解决了标准 API 调用中推理链在新轮次丢失的问题。
关键指标
| 指标 | Qwen3.6-Plus | Kimi K2.5 | GLM-5 | Claude Sonnet 4.6 |
|---|---|---|---|---|
| 上下文窗口 | 1M Token | 1M Token | 200K Token | 1M Token |
| 总参数量 | <100B(推测) | 1T | 745B | 未公开 |
| 激活参数量 | 低(MoE) | ~45B(推测) | 全量 | 未公开 |
| Agentic Coding | ✅ 核心内置 | ✅ | ✅ | ✅ |
| 视觉编程 | ✅ 设计稿→代码 | 部分 | ✅(GLM-5V-Turbo) | ✅ |
| Agent 框架兼容 | Claude Code, OpenClaw, Cline | — | AutoClaw | Claude Code 原生 |
| API 协议 | 兼容 Anthropic | 自定义 | 自定义 | Anthropic 原生 |
与之前版本的关键区别
| 维度 | Qwen3.5 | Qwen3.6-Plus |
|---|---|---|
| 上下文 | 128K-256K | 1M(4-8x 提升) |
| 设计理念 | 通用大模型 | Agentic Coding 优先 |
| 多模态 | 文本为主 | 原生视觉编程(设计稿→代码) |
| 思维链 | 标准 | preserve_thinking(跨轮保留) |
| 生态兼容 | 自有 API | 兼容 Anthropic 协议 |
产业影响链
Qwen3.6-Plus 发布
├→ 国产 Agent 框架(Qwen Code, OpenClaw 等)获得更强基座模型
│ └→ 国内 AI 编程生态加速成熟
├→ 兼容 Anthropic API → Claude Code 用户可低成本切换
│ └→ 中美 AI 编程工具的技术壁垒降低
├→ 100 万 Token 上下文 → 仓库级 AI 编程进入实用阶段
│ └→ 企业软件开发效率提升(自动化 PR 审查、测试生成等)
└→ 与 Gemma 4 同日发布 → 开源/商用模型竞争白热化
└→ 模型价格持续下降,开发者受益
谁受益?
- 国内 Agent 开发者:获得了一个 100 万上下文+兼容 Anthropic 协议的国产模型,降低了对海外 API 的依赖
- 阿里云企业客户:直接获得生产级 Agentic Coding 能力,与阿里云基础设施深度集成
- Claude Code 用户:多了一个 API 后端选择,特别是在需要降低成本或满足数据主权要求时
谁受损?
- Kimi K2.5 和 GLM-5:Qwen3.6-Plus 以更小的参数量+更低的推理成本对标,直接冲击其在国内编程模型市场的份额
- 小型国产编程模型:阿里的品牌效应+阿里云渠道优势可能挤压生存空间
对开发者/用户的影响
- 如果你已经在用 Claude Code:可以无缝切换 API 后端到 Qwen3.6-Plus 进行评估,协议兼容
- 如果你在做国产化适配:这是当前最强的国产编程模型选择
- 如果你需要处理大型代码库:100 万 Token 上下文使得仓库级操作真正可行
竞争格局变化
变化前(2026 年 3 月)
- 编程能力国际第一梯队:Claude Code(Anthropic)、Codex(OpenAI)
- 编程能力国产第一梯队:DeepSeek V3、Kimi K2.5、GLM-5
- Qwen 位置:Qwen3.5 在编程赛道处于国产中上游
变化后(2026 年 4 月 2 日)
- Qwen3.6-Plus 直接宣称”国产编程第一”,Kimi K2.5 和 GLM-5 面临被追赶压力
- 兼容 Anthropic 协议这一步棋使 Qwen 进入了全球 Agent 框架生态——不再只是”国产替代”,而是”全球可选”
- 与 Gemma 4 同日发布形成有趣对照:Google 走开源路线(Apache 2.0),阿里走商用 API+部分开源路线
预期各方反应
- DeepSeek:V4 预计 4 月发布,将是直接回应
- 智谱(GLM):GLM-5V-Turbo 同日发布(视觉编程方向),形成差异化竞争
- Kimi(月之暗面):K2.5 在参数规模上有优势,但成本劣势明显
- Anthropic:Qwen 兼容其 API 协议实际上扩大了 Claude Code 生态——表面竞争,实质互利
批判性分析
被忽略的风险
-
“编程国产第一”缺乏独立验证:阿里的评测数据大多来自自有或关联第三方,缺少 Arena AI、LiveCodeBench 等国际标准基准的独立评测。在这些基准结果出来之前,“最强”的声明需要打折扣
-
100 万 Token 上下文的实际效果存疑:虽然技术上支持 100 万 Token,但在如此长的上下文中保持一致的注意力质量(不丢失中间信息)是一个已知的工程挑战。需要看到 Needle-in-a-Haystack 测试在不同位置的详细结果
-
Agentic Coding 的 Token 消耗成本:自主编程(规划→执行→测试→优化)涉及大量内部推理和多轮调用,实际 Token 消耗可能远超单次代码生成。100 万上下文 × 多轮调用 = 单次任务的 API 成本可能非常高
乐观预期的合理性
阿里的叙事——“不追参数量,追企业落地价值”——是正确的战略方向。当 Kimi K2.5 用 1T 参数和 GLM-5 用 745B 参数竞争时,Qwen3.6-Plus 用不到一半的参数量达到可比性能,意味着更低的推理成本和更好的企业可承受度。
兼容 Anthropic API 协议是一个精明的生态策略——不需要开发者学习新 API,直接接入已有的 Claude Code 工作流。
悲观预期的合理性
完整技术报告的缺失是一个红旗。对于一个声称”国产编程第一”的模型,不公开架构细节、训练数据信息、完整评测结果,使得独立评估几乎不可能。社区可能持观望态度,直到独立评测结果出现。
独立观察
-
Qwen3.6-Plus 与 Gemma 4 的”隐性竞争”:两者同日发布,但走了完全不同的路线——Gemma 4 选择 Apache 2.0 开源+小模型(31B),Qwen3.6-Plus 选择商用 API+大上下文。这反映了 Google 和阿里对 AI 商业化路径的不同判断。
-
对 Lighthouse 工作流的直接意义:Qwen3.6-Plus 兼容 Anthropic 协议,理论上可以作为 Claude Code 的替代后端用于 Lighthouse 代码维护任务。值得在成本/质量/速度三个维度做对比评估——特别是在非编程的文本生成(如新闻采集写作)场景下的表现。
-
preserve_thinking功能可能是隐形杀手级特性:在长程 Agent 任务中,推理链的跨轮保留直接影响任务连续性和上下文一致性。如果这个功能真正 work,可能成为 Qwen3.6-Plus 在 Agent 框架中的核心竞争优势——比 100 万上下文本身更有实际价值。