Esc
输入关键词开始搜索
News

Qwen3.6-Plus:百万 Token 上下文企业级 AI 旗舰

Qwen3.6-Plus:百万 Token 上下文企业级 AI 旗舰

主要信源:https://www.aibase.com/zh/news/26810 交叉验证:https://www.cnblogs.com/sing1ee/p/19813683 / https://news.aibase.com/zh/news/26805 事件日期:2026-04-02

速查卡

项目内容
一句话总结阿里发布 Qwen3.6-Plus,定位”编程能力最强国产模型”,100 万 Token 原生上下文
大白话版阿里出了个新 AI 模型,能一次性”看”完一整个代码仓库(75 万字),然后自主规划、写代码、测试、修 bug
核心数字100 万 Token 上下文窗口;<100B 参数量;兼容 Claude Code / OpenClaw / Cline 等主流 Agent 框架
影响评级B+ — 重要进展。国产编程模型的标杆,但缺少完整技术报告和独立评测数据
利益相关方受益:国内 Agent 开发者、阿里云企业客户;关注:Claude Code / Codex 用户(多了一个选择)

事件全貌

发生了什么?

2026 年 4 月 2 日,阿里云通义千问实验室正式发布 Qwen3.6-Plus——Qwen 系列的最新旗舰模型。这不是一个简单的版本迭代,而是阿里在”Agentic AI”方向上的一次战略定义性发布。

核心定位:不是参数量竞赛的参与者,而是”在企业生产环境中真正能干活的 AI 编程智能体”。

关键规格:

  • 100 万 Token 原生上下文窗口(非后处理扩展)
  • 混合 MoE 设计,参数量不到 Kimi K2.5(1T)或 GLM-5(745B)的一半
  • 原生多模态推理(视觉+文本+代码)
  • Agentic Coding 核心能力:自主规划→执行→测试→优化闭环
  • 兼容 Anthropic API 协议,直接适配 Claude Code 工作流

时间线

  • 2025 年 12 月 — Qwen3-Coder-480B 发布(480B MoE,35B 激活,编程专用)
  • 2026 年 2 月 — Qwen3.5 系列发布,Qwen 3.5 权重在 HuggingFace 开放
  • 2026 年 3 月 30 日 — Qwen3.6-Plus 在 OpenRouter 上免费预览
  • 2026 年 4 月 2 日 — Qwen3.6-Plus 正式发布,通过阿里云百炼 API、千问 App、悟空平台开放
  • 同日 — Google Gemma 4 发布(Apache 2.0 开源,直接竞争对手)

关键声明

阿里官方定位其为”当下最强编程国产模型”,在系列编程能力权威评测中稳居国产模型首位。

技术解析

技术方案

Qwen3.6-Plus 的技术架构围绕三个核心设计原则:

1. 百万 Token 原生上下文

这不是通过 RoPE 外推或位置编码插值实现的”扩展”上下文——而是模型训练阶段就原生支持 100 万 Token。实际意义:

上下文长度能处理的内容
4K(GPT-3.5 时代)单个文件
128K(GPT-4 时代)中等项目
200K(Claude / GLM-5)大型文档
1M(Qwen3.6-Plus / Kimi K2.5)整个代码仓库(约 75 万字)

2. 高效混合架构

阿里未公开完整架构细节,但从已知信息推断:

  • 采用类似 Qwen3-Coder-480B 的 MoE(混合专家)设计
  • 总参数量远小于 Kimi K2.5(1T)和 GLM-5(745B),但每 Token 只激活必要的参数子集
  • 这种设计使得推理成本与模型总参数量解耦——用 Dense 模型一小部分的计算成本达到前沿性能

3. Agentic Coding 作为核心能力

与传统的”代码补全”或”代码建议”不同,Qwen3.6-Plus 将自主编程作为核心设计目标:

输入(自然语言需求/代码库)

[规划器] — 分析需求,拆解多文件改动方案

[执行器] — 在理解依赖关系的前提下编写/修改代码

[测试器] — 运行测试,收集反馈

[优化器] — 根据测试结果和 lint 反馈迭代优化

输出(可合并的 PR / 可部署的代码)

新特性 preserve_thinking 允许保留前序轮次的推理链,对长程 Agent 任务(跨多轮的代码审查、迭代调试)特别关键。这解决了标准 API 调用中推理链在新轮次丢失的问题。

关键指标

指标Qwen3.6-PlusKimi K2.5GLM-5Claude Sonnet 4.6
上下文窗口1M Token1M Token200K Token1M Token
总参数量<100B(推测)1T745B未公开
激活参数量低(MoE)~45B(推测)全量未公开
Agentic Coding✅ 核心内置
视觉编程✅ 设计稿→代码部分✅(GLM-5V-Turbo)
Agent 框架兼容Claude Code, OpenClaw, ClineAutoClawClaude Code 原生
API 协议兼容 Anthropic自定义自定义Anthropic 原生

与之前版本的关键区别

维度Qwen3.5Qwen3.6-Plus
上下文128K-256K1M(4-8x 提升)
设计理念通用大模型Agentic Coding 优先
多模态文本为主原生视觉编程(设计稿→代码)
思维链标准preserve_thinking(跨轮保留)
生态兼容自有 API兼容 Anthropic 协议

产业影响链

Qwen3.6-Plus 发布
  ├→ 国产 Agent 框架(Qwen Code, OpenClaw 等)获得更强基座模型
  │   └→ 国内 AI 编程生态加速成熟
  ├→ 兼容 Anthropic API → Claude Code 用户可低成本切换
  │   └→ 中美 AI 编程工具的技术壁垒降低
  ├→ 100 万 Token 上下文 → 仓库级 AI 编程进入实用阶段
  │   └→ 企业软件开发效率提升(自动化 PR 审查、测试生成等)
  └→ 与 Gemma 4 同日发布 → 开源/商用模型竞争白热化
      └→ 模型价格持续下降,开发者受益

谁受益?

  1. 国内 Agent 开发者:获得了一个 100 万上下文+兼容 Anthropic 协议的国产模型,降低了对海外 API 的依赖
  2. 阿里云企业客户:直接获得生产级 Agentic Coding 能力,与阿里云基础设施深度集成
  3. Claude Code 用户:多了一个 API 后端选择,特别是在需要降低成本或满足数据主权要求时

谁受损?

  1. Kimi K2.5 和 GLM-5:Qwen3.6-Plus 以更小的参数量+更低的推理成本对标,直接冲击其在国内编程模型市场的份额
  2. 小型国产编程模型:阿里的品牌效应+阿里云渠道优势可能挤压生存空间

对开发者/用户的影响

  • 如果你已经在用 Claude Code:可以无缝切换 API 后端到 Qwen3.6-Plus 进行评估,协议兼容
  • 如果你在做国产化适配:这是当前最强的国产编程模型选择
  • 如果你需要处理大型代码库:100 万 Token 上下文使得仓库级操作真正可行

竞争格局变化

变化前(2026 年 3 月)

  • 编程能力国际第一梯队:Claude Code(Anthropic)、Codex(OpenAI)
  • 编程能力国产第一梯队:DeepSeek V3、Kimi K2.5、GLM-5
  • Qwen 位置:Qwen3.5 在编程赛道处于国产中上游

变化后(2026 年 4 月 2 日)

  • Qwen3.6-Plus 直接宣称”国产编程第一”,Kimi K2.5 和 GLM-5 面临被追赶压力
  • 兼容 Anthropic 协议这一步棋使 Qwen 进入了全球 Agent 框架生态——不再只是”国产替代”,而是”全球可选”
  • 与 Gemma 4 同日发布形成有趣对照:Google 走开源路线(Apache 2.0),阿里走商用 API+部分开源路线

预期各方反应

  • DeepSeek:V4 预计 4 月发布,将是直接回应
  • 智谱(GLM):GLM-5V-Turbo 同日发布(视觉编程方向),形成差异化竞争
  • Kimi(月之暗面):K2.5 在参数规模上有优势,但成本劣势明显
  • Anthropic:Qwen 兼容其 API 协议实际上扩大了 Claude Code 生态——表面竞争,实质互利

批判性分析

被忽略的风险

  1. “编程国产第一”缺乏独立验证:阿里的评测数据大多来自自有或关联第三方,缺少 Arena AI、LiveCodeBench 等国际标准基准的独立评测。在这些基准结果出来之前,“最强”的声明需要打折扣

  2. 100 万 Token 上下文的实际效果存疑:虽然技术上支持 100 万 Token,但在如此长的上下文中保持一致的注意力质量(不丢失中间信息)是一个已知的工程挑战。需要看到 Needle-in-a-Haystack 测试在不同位置的详细结果

  3. Agentic Coding 的 Token 消耗成本:自主编程(规划→执行→测试→优化)涉及大量内部推理和多轮调用,实际 Token 消耗可能远超单次代码生成。100 万上下文 × 多轮调用 = 单次任务的 API 成本可能非常高

乐观预期的合理性

阿里的叙事——“不追参数量,追企业落地价值”——是正确的战略方向。当 Kimi K2.5 用 1T 参数和 GLM-5 用 745B 参数竞争时,Qwen3.6-Plus 用不到一半的参数量达到可比性能,意味着更低的推理成本和更好的企业可承受度。

兼容 Anthropic API 协议是一个精明的生态策略——不需要开发者学习新 API,直接接入已有的 Claude Code 工作流。

悲观预期的合理性

完整技术报告的缺失是一个红旗。对于一个声称”国产编程第一”的模型,不公开架构细节、训练数据信息、完整评测结果,使得独立评估几乎不可能。社区可能持观望态度,直到独立评测结果出现。

独立观察

  • Qwen3.6-Plus 与 Gemma 4 的”隐性竞争”:两者同日发布,但走了完全不同的路线——Gemma 4 选择 Apache 2.0 开源+小模型(31B),Qwen3.6-Plus 选择商用 API+大上下文。这反映了 Google 和阿里对 AI 商业化路径的不同判断。

  • 对 Lighthouse 工作流的直接意义:Qwen3.6-Plus 兼容 Anthropic 协议,理论上可以作为 Claude Code 的替代后端用于 Lighthouse 代码维护任务。值得在成本/质量/速度三个维度做对比评估——特别是在非编程的文本生成(如新闻采集写作)场景下的表现。

  • preserve_thinking 功能可能是隐形杀手级特性:在长程 Agent 任务中,推理链的跨轮保留直接影响任务连续性和上下文一致性。如果这个功能真正 work,可能成为 Qwen3.6-Plus 在 Agent 框架中的核心竞争优势——比 100 万上下文本身更有实际价值。