News

Qwen3.6-Plus：百万 Token 上下文企业级 AI 旗舰

主要信源：https://www.aibase.com/zh/news/26810 交叉验证：https://www.cnblogs.com/sing1ee/p/19813683 / https://news.aibase.com/zh/news/26805 事件日期：2026-04-02

速查卡

项目	内容
一句话总结	阿里发布 Qwen3.6-Plus，定位”编程能力最强国产模型”，100 万 Token 原生上下文
大白话版	阿里出了个新 AI 模型，能一次性”看”完一整个代码仓库（75 万字），然后自主规划、写代码、测试、修 bug
核心数字	100 万 Token 上下文窗口；<100B 参数量；兼容 Claude Code / OpenClaw / Cline 等主流 Agent 框架
影响评级	B+ — 重要进展。国产编程模型的标杆，但缺少完整技术报告和独立评测数据
利益相关方	受益：国内 Agent 开发者、阿里云企业客户；关注：Claude Code / Codex 用户（多了一个选择）

事件全貌

发生了什么？

2026 年 4 月 2 日，阿里云通义千问实验室正式发布 Qwen3.6-Plus——Qwen 系列的最新旗舰模型。这不是一个简单的版本迭代，而是阿里在”Agentic AI”方向上的一次战略定义性发布。

核心定位：不是参数量竞赛的参与者，而是”在企业生产环境中真正能干活的 AI 编程智能体”。

关键规格：

100 万 Token 原生上下文窗口（非后处理扩展）
混合 MoE 设计，参数量不到 Kimi K2.5（1T）或 GLM-5（745B）的一半
原生多模态推理（视觉+文本+代码）
Agentic Coding 核心能力：自主规划→执行→测试→优化闭环
兼容 Anthropic API 协议，直接适配 Claude Code 工作流

时间线

2025 年 12 月 — Qwen3-Coder-480B 发布（480B MoE，35B 激活，编程专用）
2026 年 2 月 — Qwen3.5 系列发布，Qwen 3.5 权重在 HuggingFace 开放
2026 年 3 月 30 日 — Qwen3.6-Plus 在 OpenRouter 上免费预览
2026 年 4 月 2 日 — Qwen3.6-Plus 正式发布，通过阿里云百炼 API、千问 App、悟空平台开放
同日 — Google Gemma 4 发布（Apache 2.0 开源，直接竞争对手）

关键声明

阿里官方定位其为”当下最强编程国产模型”，在系列编程能力权威评测中稳居国产模型首位。

技术解析

技术方案

Qwen3.6-Plus 的技术架构围绕三个核心设计原则：

1. 百万 Token 原生上下文

这不是通过 RoPE 外推或位置编码插值实现的”扩展”上下文——而是模型训练阶段就原生支持 100 万 Token。实际意义：

上下文长度	能处理的内容
4K（GPT-3.5 时代）	单个文件
128K（GPT-4 时代）	中等项目
200K（Claude / GLM-5）	大型文档
1M（Qwen3.6-Plus / Kimi K2.5）	整个代码仓库（约 75 万字）

2. 高效混合架构

阿里未公开完整架构细节，但从已知信息推断：

采用类似 Qwen3-Coder-480B 的 MoE（混合专家）设计
总参数量远小于 Kimi K2.5（1T）和 GLM-5（745B），但每 Token 只激活必要的参数子集
这种设计使得推理成本与模型总参数量解耦——用 Dense 模型一小部分的计算成本达到前沿性能

3. Agentic Coding 作为核心能力

与传统的”代码补全”或”代码建议”不同，Qwen3.6-Plus 将自主编程作为核心设计目标：

输入（自然语言需求/代码库）
    ↓
[规划器] — 分析需求，拆解多文件改动方案
    ↓
[执行器] — 在理解依赖关系的前提下编写/修改代码
    ↓
[测试器] — 运行测试，收集反馈
    ↓
[优化器] — 根据测试结果和 lint 反馈迭代优化
    ↓
输出（可合并的 PR / 可部署的代码）

新特性 preserve_thinking： 允许保留前序轮次的推理链，对长程 Agent 任务（跨多轮的代码审查、迭代调试）特别关键。这解决了标准 API 调用中推理链在新轮次丢失的问题。

关键指标

指标	Qwen3.6-Plus	Kimi K2.5	GLM-5	Claude Sonnet 4.6
上下文窗口	1M Token	1M Token	200K Token	1M Token
总参数量	<100B（推测）	1T	745B	未公开
激活参数量	低（MoE）	~45B（推测）	全量	未公开
Agentic Coding	✅ 核心内置	✅	✅	✅
视觉编程	✅ 设计稿→代码	部分	✅（GLM-5V-Turbo）	✅
Agent 框架兼容	Claude Code, OpenClaw, Cline	—	AutoClaw	Claude Code 原生
API 协议	兼容 Anthropic	自定义	自定义	Anthropic 原生

与之前版本的关键区别

维度	Qwen3.5	Qwen3.6-Plus
上下文	128K-256K	1M（4-8x 提升）
设计理念	通用大模型	Agentic Coding 优先
多模态	文本为主	原生视觉编程（设计稿→代码）
思维链	标准	preserve_thinking（跨轮保留）
生态兼容	自有 API	兼容 Anthropic 协议

产业影响链

Qwen3.6-Plus 发布
  ├→ 国产 Agent 框架（Qwen Code, OpenClaw 等）获得更强基座模型
  │   └→ 国内 AI 编程生态加速成熟
  ├→ 兼容 Anthropic API → Claude Code 用户可低成本切换
  │   └→ 中美 AI 编程工具的技术壁垒降低
  ├→ 100 万 Token 上下文 → 仓库级 AI 编程进入实用阶段
  │   └→ 企业软件开发效率提升（自动化 PR 审查、测试生成等）
  └→ 与 Gemma 4 同日发布 → 开源/商用模型竞争白热化
      └→ 模型价格持续下降，开发者受益

谁受益？

国内 Agent 开发者：获得了一个 100 万上下文+兼容 Anthropic 协议的国产模型，降低了对海外 API 的依赖
阿里云企业客户：直接获得生产级 Agentic Coding 能力，与阿里云基础设施深度集成
Claude Code 用户：多了一个 API 后端选择，特别是在需要降低成本或满足数据主权要求时

谁受损？

Kimi K2.5 和 GLM-5：Qwen3.6-Plus 以更小的参数量+更低的推理成本对标，直接冲击其在国内编程模型市场的份额
小型国产编程模型：阿里的品牌效应+阿里云渠道优势可能挤压生存空间

对开发者/用户的影响

如果你已经在用 Claude Code：可以无缝切换 API 后端到 Qwen3.6-Plus 进行评估，协议兼容
如果你在做国产化适配：这是当前最强的国产编程模型选择
如果你需要处理大型代码库：100 万 Token 上下文使得仓库级操作真正可行

竞争格局变化

变化前（2026 年 3 月）

编程能力国际第一梯队：Claude Code（Anthropic）、Codex（OpenAI）
编程能力国产第一梯队：DeepSeek V3、Kimi K2.5、GLM-5
Qwen 位置：Qwen3.5 在编程赛道处于国产中上游

变化后（2026 年 4 月 2 日）

Qwen3.6-Plus 直接宣称”国产编程第一”，Kimi K2.5 和 GLM-5 面临被追赶压力
兼容 Anthropic 协议这一步棋使 Qwen 进入了全球 Agent 框架生态——不再只是”国产替代”，而是”全球可选”
与 Gemma 4 同日发布形成有趣对照：Google 走开源路线（Apache 2.0），阿里走商用 API+部分开源路线

预期各方反应

DeepSeek：V4 预计 4 月发布，将是直接回应
智谱（GLM）：GLM-5V-Turbo 同日发布（视觉编程方向），形成差异化竞争
Kimi（月之暗面）：K2.5 在参数规模上有优势，但成本劣势明显
Anthropic：Qwen 兼容其 API 协议实际上扩大了 Claude Code 生态——表面竞争，实质互利

批判性分析

被忽略的风险

“编程国产第一”缺乏独立验证：阿里的评测数据大多来自自有或关联第三方，缺少 Arena AI、LiveCodeBench 等国际标准基准的独立评测。在这些基准结果出来之前，“最强”的声明需要打折扣
100 万 Token 上下文的实际效果存疑：虽然技术上支持 100 万 Token，但在如此长的上下文中保持一致的注意力质量（不丢失中间信息）是一个已知的工程挑战。需要看到 Needle-in-a-Haystack 测试在不同位置的详细结果
Agentic Coding 的 Token 消耗成本：自主编程（规划→执行→测试→优化）涉及大量内部推理和多轮调用，实际 Token 消耗可能远超单次代码生成。100 万上下文 × 多轮调用 = 单次任务的 API 成本可能非常高

乐观预期的合理性

阿里的叙事——“不追参数量，追企业落地价值”——是正确的战略方向。当 Kimi K2.5 用 1T 参数和 GLM-5 用 745B 参数竞争时，Qwen3.6-Plus 用不到一半的参数量达到可比性能，意味着更低的推理成本和更好的企业可承受度。

兼容 Anthropic API 协议是一个精明的生态策略——不需要开发者学习新 API，直接接入已有的 Claude Code 工作流。

悲观预期的合理性

完整技术报告的缺失是一个红旗。对于一个声称”国产编程第一”的模型，不公开架构细节、训练数据信息、完整评测结果，使得独立评估几乎不可能。社区可能持观望态度，直到独立评测结果出现。

独立观察

Qwen3.6-Plus 与 Gemma 4 的”隐性竞争”：两者同日发布，但走了完全不同的路线——Gemma 4 选择 Apache 2.0 开源+小模型（31B），Qwen3.6-Plus 选择商用 API+大上下文。这反映了 Google 和阿里对 AI 商业化路径的不同判断。
对 Lighthouse 工作流的直接意义：Qwen3.6-Plus 兼容 Anthropic 协议，理论上可以作为 Claude Code 的替代后端用于 Lighthouse 代码维护任务。值得在成本/质量/速度三个维度做对比评估——特别是在非编程的文本生成（如新闻采集写作）场景下的表现。
preserve_thinking 功能可能是隐形杀手级特性：在长程 Agent 任务中，推理链的跨轮保留直接影响任务连续性和上下文一致性。如果这个功能真正 work，可能成为 Qwen3.6-Plus 在 Agent 框架中的核心竞争优势——比 100 万上下文本身更有实际价值。