Esc
输入关键词开始搜索
News

Qwen3.5-Omni & Qwen 3.6 Plus Preview: Alibaba’s Omni-Modal + Million-Token Dual Offensive

Qwen3.5-Omni & Qwen 3.6 Plus Preview: Alibaba’s Omni-Modal + Million-Token Dual Offensive

主要信源:https://www.ithome.com/0/934/257.htm ; https://www.ithome.com/0/934/546.htm 交叉验证:https://news.qq.com/rain/a/20260331A03HKY00 ; https://www.yiboot.com/article/userguide/qwen3-5-omni-01.html ; https://www.buildfastwithai.com/blogs/qwen-3-6-plus-preview-review ; https://help.aliyun.com/zh/model-studio/qwen-omni 事件日期:2026-03-31

速查卡

项目内容
一句话总结阿里在48小时内连发两款重量级模型:Qwen3.5-Omni以原生全模态+215项SOTA登顶音视频理解,Qwen 3.6 Plus Preview以百万token上下文静默上线OpenRouter
大白话版千问出了一个什么都能看/听/说的AI(Qwen3.5-Omni),在音频视频方面比Google的Gemini还强;同时悄悄放了一个能一次处理八本小说内容量的超长上下文模型(Qwen 3.6 Plus Preview),而且暂时免费
核心数字215项SOTA / 256K上下文(Omni) / 1M上下文(3.6) / 113种语言识别 / 36种语音合成 / 1亿小时训练数据 / 输入<0.8元/百万token
影响评级A- — 全模态架构创新显著,定价策略激进,但生态转化仍需观察
利益相关方Google(Gemini直接竞争)/ OpenAI(GPT-4o多模态对标)/ 开发者(低价API+免费预览)/ 企业客户(百炼平台部署)/ 语音交互赛道(ARIA技术冲击)

事件全貌

发生了什么?

2026年3月31日,阿里通义千问团队在不到48小时内连续发布两款模型,形成全模态能力与超长上下文的双线布局:

第一条线:Qwen3.5-Omni(全模态)

项目规格
定位新一代原生全模态大模型
输入模态文本 + 图像 + 音频 + 视频(原生理解,非拼接)
输出模态文本 + 自然语音
上下文窗口256K tokens
语音识别113种语言和方言(74语言 + 39方言)
语音合成36种语言变体(29语言 + 7方言),55种音色
音频输入上限10小时+(API限3小时)
视频输入上限1小时(720P/1FPS,400秒+音视频)
模型尺寸Plus / Flash / Light 三档
核心技术Thinker-Talker双模块 + Hybrid-Attention MoE + ARIA + TMRoPE
训练数据海量文本视觉数据 + 超1亿小时音视频
SOTA声明215项第三方评测取得最优

第二条线:Qwen 3.6 Plus Preview(超长上下文)

项目规格
定位下一代旗舰文本模型预览版
上下文窗口1,000,000 tokens(约8本小说/2000页文本)
最大输出65,536 tokens
架构高级混合架构(非标准MoE)
推理模式内置CoT,始终激活
工具调用原生Function Calling
发布平台OpenRouter(免费预览)
数据收集收集提示词和补全数据用于模型改进

为什么这两个发布要放在一起看?

表面上,Qwen3.5-Omni是全模态模型,Qwen 3.6 Plus Preview是文本模型,看似不同赛道。但这两个发布的时间窗口高度重合(间隔不到24小时),且形成了清晰的战略互补:

Qwen3.5-Omni → 模态广度(文本+图像+音频+视频的统一理解和生成)
Qwen 3.6 Plus Preview → 上下文深度(百万token的长程推理和Agent能力)

阿里的意图很明确:在Google Gemini和OpenAI GPT双线扩张的窗口期,同时补齐两个关键维度。Gemini-3.1 Pro已经在全模态上建立了标杆,GPT-5.4系列在Agent编程上不断推进,阿里选择用两款模型同时回应两个方向。

定价策略

Qwen3.5-Omni(百炼平台):

模型输入价格(元/百万token)输出价格(元/百万token)
Qwen3.5-Plus(文本)0.8(0-128K)/ 2(128K-256K)/ 4(256K-1M)4.8 / 12 / 24
Qwen3.5-Flash(基于35B-A3B)~0.2
新用户免费额度各100万token(90天有效)

关键对比:输入价格不到0.8元/百万token,不足Gemini-3.1 Pro的十分之一

Qwen 3.6 Plus Preview(OpenRouter): 当前完全免费,付费定价未公布。

时间线

  • 2026年3月30日:Qwen3.5-Omni技术博客和论文发布
  • 2026年3月31日:Qwen3.5-Omni在百炼平台正式上线(Plus/Flash/Light三档)
  • 2026年3月31日:Qwen 3.6 Plus Preview静默上线OpenRouter
  • 2026年4月1日:社区基准测试和评测陆续出现

技术深度解析

Thinker-Talker 双模块架构

Qwen3.5-Omni的核心创新在于其Thinker-Talker双轨架构设计。这不是简单的”理解模块+生成模块”拼接,而是一个端到端联合训练的统一系统。

                    ┌─────────────────────────┐
   文本 ─────────→ │                         │
   图像 → Vision   │                         │
          Encoder → │      T h i n k e r      │──→ 文本输出
   音频 → AuT ───→ │   (Hybrid-Attention MoE) │
   视频 → Vision   │                         │──→ 隐含表征
          Encoder + │                         │      │
          AuT ───→ │                         │      │
                    └─────────────────────────┘      │

                    ┌─────────────────────────┐      │
                    │                         │ ←────┘
                    │      T a l k e r        │
                    │   (Hybrid-Attention MoE) │──→ 语音输出
                    │      + ARIA 对齐        │    (RVQ编码)
                    │                         │
                    └─────────────────────────┘

Thinker(思考者): 负责处理所有输入模态。通过Vision Encoder接收图像和视频帧,通过AuT(Audio Transformer)接收音频信号。不同模态的信号通过interleave交织方式处理,使用TMRoPE(时间感知旋转位置编码)对齐不同模态的时间维度。Thinker的输出是文本和供Talker使用的隐含表征。

Talker(表达者): 接收Thinker的隐含表征,负责生成上下文相关的自然语音。语音表征采用RVQ(残差向量量化)编码而非传统的DiT运算,这是一个关键的效率优化决策。

两个模块都采用Hybrid-Attention MoE架构,这意味着它们共享同一套稀疏专家混合机制,但各自的注意力模式针对其任务进行了专门优化。

为什么这个设计比”拼接式”更优?

市面上大部分多模态模型采用的是”文本模型+视觉编码器+音频编码器”的拼接策略——各个模态独立编码后在最终层做融合。这种方式的根本问题是:跨模态对齐是后天习得的,而非原生的。当你看一段有人说话的视频时,拼接式模型需要在高层才能建立”嘴型动作”和”语音内容”的对应关系,而原生多模态模型从底层就在学习这种对齐。

Qwen3.5-Omni在超过1亿小时的音视频数据上进行原生多模态预训练,音频编码器本身就具备了传统文本优先模型缺乏的时间和声学细节理解。

TMRoPE:时间感知位置编码

多模态模型面临一个根本性的对齐难题:文本是离散的token序列,音频是连续的时间信号,视频是空间-时间的联合信号。如何让模型知道”第3秒的画面”和”第3秒的声音”是同一时刻?

TMRoPE(Temporal-aware Multi-modal Rotary Position Embedding)是千问的解决方案。它在标准RoPE的基础上引入了时间维度的编码,使不同模态的信号能够在位置编码层面就建立时间对齐关系。

标准RoPE:     position → rotation
TMRoPE:       (position, timestamp, modality) → rotation

这意味着:

  • 文本token根据序列位置编码
  • 音频帧根据时间戳编码
  • 视频帧根据帧时间编码
  • 三者在同一时刻的信号会获得相近的旋转角度,天然对齐

ARIA:自适应速率交错对齐

ARIA(Adaptive Rate Interleaved Alignment)是Qwen3.5-Omni中最值得关注的技术创新之一。它解决的是一个长期困扰语音大模型的难题:文本token和语音token的编码效率差异导致的语音不稳定问题

问题根源: 一个英文单词通常只需要1-3个文本token,但对应的语音可能需要数十个音频token。如果简单地将文本和语音token交替排列,会出现严重的速率失配——文本”跑得快”,语音”跟不上”,导致发音断续、不自然,甚至出错。

ARIA的解决方案:

传统方式:
  text:   [The] [price] [is] [$249.99]
  audio:  [ðə] [praɪs] [ɪz] [???—如何发音$249.99?]
  → 固定交错 → 语音不稳定

ARIA方式:
  text buffer → 前瞻读取 → 动态对齐
  → 识别"$249.99"需要读作"two hundred forty-nine dollars and ninety-nine cents"
  → 调整音素生成节奏
  → 交错排布后输出

ARIA的核心是在输出语音前,先在文本缓冲区中进行前瞻读取,动态对齐文本与语音单元后再进行交错排布。这使得”IPv6”、“$249.99”、“Qwen3.5-Omni”这类对传统TTS系统构成挑战的文本都能正确发音。

为什么这很重要? 语音大模型的实用化瓶颈往往不在”能不能说”,而在”说得自然不自然”。ARIA从根源上解决了速率失配问题,这是流式实时对话能力的关键前提。没有稳定的语音输出,实时语音交互就是空谈。

流式架构:Chunk-wise实时处理

Qwen3.5-Omni支持实时音视频流式输入和输出。这不是简单的”处理完再返回”,而是Chunk-wise(分块)的流式架构:

输入流:  [音频chunk 1] [视频chunk 1] [音频chunk 2] [视频chunk 2] ...
           ↓              ↓              ↓              ↓
Thinker: [处理]        [处理]         [处理]         [处理]
           ↓              ↓              ↓              ↓
Talker:  [生成语音 1]                [生成语音 2]
           ↓                            ↓
输出流:  [语音chunk 1]              [语音chunk 2]   ...

配合语义中断(Semantic Interruption)能力:模型能够区分用户的咳嗽、填充词(“嗯""啊”)和真正的打断意图。这意味着在实时对话中,模型不会因为用户清嗓子就停下来,而只在检测到真正的语义打断时才中止当前输出并响应新输入。

语音克隆与情感控制

用户可以上传录音样本,模型会学习其声音特征并生成具有相同音色的AI助手语音。官方声称”高自然度和稳定性”。此外,支持通过文本指令控制语音的情感和风格:

  • “请小声说” → 音量和语调调整
  • “用兴奋的语气” → 情感风格切换
  • “说慢一点” → 语速控制

55种预设音色覆盖了不同性别、年龄段和口音特征。

Audio-Visual Vibe Coding:涌现能力

一个值得特别关注的能力:Qwen3.5-Omni展现出了”Audio-Visual Vibe Coding”——即从音视频输入直接生成可执行代码的涌现能力。

具体表现: 用户可以对着模型展示一个UI界面的视频(或截图+语音描述),模型直接生成对应的前端代码或Python脚本。官方强调这个能力是”自然涌现”的,没有经过专门的Vibe Coding训练。

为什么说是”涌现”? 原生多模态预训练使模型在底层就建立了视觉理解、语音理解和代码生成之间的联系。当三个能力在同一个模型中共存时,“看着界面写代码”的能力自然浮现。这与拼接式多模态模型形成对比——后者的各个模态是独立编码器,很难产生这种跨模态的涌现行为。

215项SOTA声明的拆解

阿里声称Qwen3.5-Omni在215项第三方评测中取得最优结果。这个数字需要仔细拆解:

SOTA分布

评测类别子任务数量对标/超越对象
语种级ASR(语音识别)43项
语种级S2TT(语音翻译)156项
音频理解Benchmark5个超越Gemini-3.1 Pro
音视频理解Benchmark3个超越Gemini-3.1 Pro
ASR专项Benchmark8个
合计215项

关键观察

数字的构成逻辑: 215项中,156项语音翻译+43项语音识别 = 199项,占比92.6%。这199项本质上是同一类任务(语音理解)在不同语言上的重复测试。真正的独立Benchmark维度约为16个(5个音频+3个音视频+8个ASR),加上文本和视觉方向的测试。

这不意味着215项SOTA无意义—— 覆盖113种语言的语音识别确实需要极其全面的多语言训练数据和模型泛化能力,这是实打实的工程成果。但把”113种语言的ASR”计为113项独立SOTA,在统计口径上是偏激进的。

真正值得关注的核心声明:

  1. 音频理解超越Gemini-3.1 Pro: 这是含金量最高的声明。Gemini-3.1 Pro是当前多模态的标杆,在音频理解上被超越意味着Qwen3.5-Omni在这个细分领域确实达到了一流水平。
  2. 音视频理解达到Gemini-3.1 Pro水平: 注意措辞是”达到”而非”超越”,这说明在视觉+音频联合理解上,两者处于同一梯队。
  3. 文本和视觉能力匹配标准Qwen3.5: 这意味着全模态能力没有以牺牲单模态能力为代价,模型在文本和视觉任务上保持了基础模型的水准。

缺失的对标

值得注意的是,官方发布材料中没有与以下模型的直接对比:

  • OpenAI GPT-4o(全模态直接竞品)
  • Anthropic Claude Opus/Sonnet(多模态理解标杆之一)
  • Meta的多模态模型

选择性对标Gemini-3.1 Pro而跳过其他竞品,可能暗示在某些维度上的比较结果不如预期。

Qwen 3.6 Plus Preview 深度分析

为什么选择OpenRouter静默发布?

Qwen 3.6 Plus Preview没有在百炼平台首发,而是选择了OpenRouter这个第三方API聚合平台,且以免费预览形式上线。这个发布策略不同寻常:

可能的考量:

  1. 真实负载测试: OpenRouter汇聚了全球开发者社区,可以在最短时间内获得多样化的真实使用反馈
  2. 避免与Qwen3.5-Omni抢注意力: Qwen3.5-Omni是阿里重点推广的旗舰产品,Qwen 3.6 作为”预览”悄悄上线,既不冲突又能测试
  3. 海外市场试水: OpenRouter的用户群体以海外开发者为主,这可能是阿里测试海外开发者对千问系列接受度的一步棋
  4. 数据收集: 官方明确声明收集用户提示词和补全数据用于模型改进——免费是换取训练数据的代价

架构升级:从MoE到”高级混合架构”

官方将Qwen 3.6 Plus Preview的架构描述为”高级混合架构”(Advanced Hybrid Architecture),并明确声明”非标准MoE”。虽然具体细节未披露,但从公开信息可以推断几个方向:

上下文从262K跃升至1M: 这不是简单地扩大位置编码范围就能实现的。1M上下文的有效利用需要:

  • 注意力机制的效率优化(标准全注意力在1M长度下的计算成本是二次方级别的)
  • 可能采用了混合注意力方案:局部滑动窗口+稀疏全局注意力+可能的线性注意力组件
  • KV Cache的压缩或选择性保留策略

始终激活的CoT推理: 与Qwen 3.5系列的可选思考模式不同,Qwen 3.6 的CoT是始终开启的。这可能意味着推理能力被更深地融入了模型架构本身,而非作为可选的推理路径。

推理效率提升: 社区测试报告其输出速度约为Claude Opus 4.6的2-3倍(tokens/秒),且推理能耗显著降低。这暗示了在架构层面的效率优化,可能涉及:

  • 更高效的专家路由策略
  • 推理时的动态计算分配
  • 更优的量化和压缩方案

Agent编程能力

Qwen 3.6 Plus Preview的重点强化方向是Agent行为的可靠性:

维度Qwen 3.5Qwen 3.6 Plus Preview
多步工作流偶尔需要重试更少重试,更一致
简单任务处理存在”过度思考”问题更直接,更少冗余token
上下文窗口262K1M
推理模式可选开启始终激活
Function Calling支持原生支持,更可靠

1M上下文对Agent编程的意义是直接的:可以一次性加载整个代码仓库而无需分块检索。对于前端开发场景,完整的项目上下文意味着生成的代码能更好地与现有架构保持一致。

数据收集的隐含信号

官方明确声明免费预览期间收集用户数据。这在大模型行业并不罕见,但值得注意的是措辞的直白程度。“请勿输入敏感信息”的警告暗示数据收集的粒度可能相当细——不仅是聚合统计,而是完整的对话记录。

对于企业用户而言,这意味着在正式版发布前,Qwen 3.6应该被视为评估工具而非生产工具。

定价与竞争格局

价格战的数学

阿里的定价策略可以用一个数字概括:Gemini-3.1 Pro的十分之一

模型输入价格(元/百万token)倍数关系
Qwen3.5-Plus0.81x(基准线)
Qwen3.5-Flash~0.20.25x
Gemini-3.1 Pro(换算)~8+10x+
GPT-4o(换算)~10+12x+

注意:Gemini和GPT的价格为美元定价换算为人民币后的近似值。

这意味着什么? 对于每天处理数百万token的企业应用场景,阿里的定价使全模态AI的使用成本从”需要严肃预算论证”降至”几乎可以忽略不计”。一个典型的客服场景——每天处理1000通电话(假设平均每通5分钟,约50万token输入)——在Qwen3.5-Plus上的日成本约为0.4元。

阿里的定价逻辑

阿里能做到这个价格,核心原因有三:

  1. 自研芯片平安950/含光系列 降低了推理成本的硬件底座
  2. 阿里云作为分发渠道 使边际获客成本趋近于零
  3. 战略性亏损定价 目的是先占市场份额,构建生态粘性

这与Google和OpenAI的定价策略形成鲜明对比:后两者将模型API视为盈利中心,而阿里将其视为云服务生态的引流工具。

竞争对比矩阵

维度Qwen3.5-OmniGemini-3.1 ProGPT-4o
文本理解匹配Qwen3.5基线
图像理解匹配Qwen3.5基线
音频理解声称SOTA,超越Gemini此前标杆
视频理解声称达到Gemini水平标杆级有限支持
音视频联合理解声称SOTA此前标杆有限支持
语音生成自然度ARIA技术(高)
实时流式交互支持支持支持(Advanced Voice)
语义中断支持支持支持
语音克隆支持(上传录音)有限不支持
上下文长度256K(Omni) / 1M(3.6)1M+128K
多语言覆盖113种识别 / 36种合成广泛广泛
价格(输入)<0.8元/百万token~8元/百万token~10元/百万token
开源/闭源闭源(API访问)闭源闭源
WebSearch原生支持原生支持支持(插件)
Function Call原生支持原生支持原生支持

批判性分析

该信什么

  1. 音频理解确实强: 在1亿小时音视频数据上的原生预训练是真金白银的投入,加上113种语言覆盖,在ASR和音频理解领域的领先是可信的。
  2. 定价确实低: 阿里云的基础设施优势和战略定价意图都是明确的,0.8元/百万token不是虚标。
  3. Thinker-Talker架构是有意义的创新: 与拼接式方案相比,端到端的双模块设计在理论上确实能产生更好的跨模态对齐。

该存疑什么

  1. 215项SOTA的含金量需要打折: 如前文分析,92.6%的子任务来自语音识别和语音翻译在不同语种上的重复。独立Benchmark维度约16个,这是更诚实的数字。
  2. 与GPT-4o的对比缺失: 全模态领域的最大竞品是GPT-4o,但官方材料中几乎没有直接对标。这种选择性对标总让人有所顾虑。
  3. Qwen 3.6 Plus Preview缺乏官方Benchmark: 没有SWE-Bench、HumanEval、MMLU等标准测试分数,“达到或超越当前SOTA领先模型”的声明缺乏量化支撑。
  4. “涌现”能力的可复现性: Audio-Visual Vibe Coding被描述为”自然涌现”,但演示场景和实际生产场景之间可能存在显著差距。
  5. 1亿小时训练数据的来源和质量: 这个数据量级是惊人的——1亿小时 = 约11,400年。如此大规模的音视频数据从哪里来?数据质量如何保证?这些问题没有答案。

该关注什么

  1. 生态转化效率: 低价和强性能能否转化为开发者生态的实际增长?阿里过去在海外开发者社区的号召力一直是短板。
  2. Qwen 3.6的正式版时间线: Preview版在OpenRouter免费提供,但正式版何时上线百炼平台?定价如何?这将决定1M上下文能力能否进入实际生产。
  3. ARIA技术的泛化能力: 在Demo中表现良好的语音自然度,在长对话、嘈杂环境、非标准口音等真实场景下是否能保持?
  4. Flash和Light版本的能力衰减: Plus版本取得215项SOTA,但Flash和Light版本的性能折扣有多大?对于成本敏感的应用场景,这个差距至关重要。

结论

阿里这次双线发布的野心很大:用Qwen3.5-Omni建立全模态的技术标杆,用Qwen 3.6 Plus Preview探测下一代架构的极限,同时用激进定价确保开发者没有理由不尝试

技术层面,Thinker-Talker架构和ARIA技术是有实质创新的,不是简单的规模堆叠。在音频和音视频理解领域超越Gemini-3.1 Pro(如果经第三方验证属实)是一个值得认可的成就。

但从更大的产业图景看,模型能力的领先从来只是起点。Google有Android+Chrome的终端分发,OpenAI有ChatGPT的9亿周活和开发者生态,阿里的分发通道主要是阿里云和钉钉——这在中国市场足够强势,但在全球市场仍是短板。Qwen 3.6选择OpenRouter首发,正是试图突破这个瓶颈的一步。

最终判断:技术上值得关注,定价上值得尝试,但生态上仍需观察。低价能买来试用,买不来忠诚度。