# Qwen3.5-Omni Technical Report

**Title:** Qwen3.5-Omni Technical Report
**Authors:** Qwen Team (Alibaba)
**arXiv ID:** 2604.15804v1

---

## TL;DR

Qwen3.5-Omni 是阿里巴巴 Qwen 系列的最新全模态大模型，支持文本、图像、音频、视频的理解与生成。模型采用 Hybrid-Attention MoE 架构，支持 256K 上下文长度，在 215 个音频/视听任务上取得 SOTA，并引入 ARIA 技术解决流式语音合成中的文本-语音对齐问题。

---

## 1. 模型架构

### 1.1 整体框架：Thinker-Talker 架构

```
输入 (Text/Audio/Image/Video)
        ↓
   ┌─────────────────┐
   │  Vision Encoder │ ← SigLIP2
   │   (SigLIP2)     │
   └────────┬────────┘
            │
   ┌────────┴────────┐
   │  Audio Encoder  │ ← AuT (6.25Hz token rate)
   │     (AuT)       │
   └────────┬────────┘
            ↓
   ┌─────────────────┐
   │    Thinker      │ ← Hybrid MoE Transformer
   │  (文本生成)      │   256K context
   └────────┬────────┘
            ↓
   ┌─────────────────┐
   │    Talker       │ ← Hybrid MoE Transformer
   │  (语音生成)      │   + MTP + ARIA
   └────────┬────────┘
            ↓
   ┌─────────────────┐
   │   Code2Wav      │ ← Causal ConvNet
   │  (波形渲染)      │
   └─────────────────┘
```

### 1.2 核心组件

| 模块 | 架构 | 流式支持 |
|------|------|----------|
| Audio Encoder | AuT (40M小时数据训练) | ✓ |
| Vision Encoder | SigLIP2 | - |
| Thinker | Hybrid MoE Transformer | ✓ |
| Talker | Hybrid MoE Transformer | ✓ |
| MTP | Dense Transformer | ✓ |
| Code2Wav | ConvNet | ✓ |

### 1.3 关键创新：ARIA (Adaptive Rate Interleave Alignment)

解决流式语音合成中文本与语音 tokenizer 编码效率不匹配导致的问题（跳词、发音错误、数字歧义）：

- **传统方法**：双轨道生成，依赖 MFA 对齐或固定交织率
- **ARIA**：单通道自适应对齐，对任意前缀，累积语音/文本 token 比率不超过全局比率
- **优势**：灵活适配不同语言（尤其编码效率低的语言），支持任意文本前缀后的语音续生成

### 1.4 Hybrid MoE 架构

- 包含 Gated Delta Net (GDN) 模块
- 显著降低长序列 KV-cache I/O 开销
- 提升生成吞吐量和服务并发能力

---

## 2. 训练数据

### 2.1 预训练数据规模

| 模态 | Token数量 |
|------|-----------|
| 文本 | 0.92T |
| 音频 | 1.99T |
| 图像 | 0.95T |
| 视频 | 0.14T |
| 音视频 | 0.29T |
| **总计** | **~4T tokens** |

### 2.2 音频编码器训练

- **数据量**：40M 小时音频-文本对
- **生成方式**：由 Qwen3-ASR 生成
- **语言分布**：中文:英文:多语言 = 3.5:3.5:3
- **多语言覆盖**：20+ 种语言

### 2.3 语言支持

| 模态 | 数量 | 说明 |
|------|------|------|
| 文本 | 201 | 继承 Qwen3.5 |
| 语音输入 | 113 | 74种语言 + 39种中文方言 |
| 语音输出 | 36 | 29种语言 + 7种中文方言 |

---

## 3. 训练策略

### 3.1 预训练三阶段

```
Stage 1: Encoder Alignment
├── 冻结 LLM 参数
├── 分别训练 Vision/Audio Encoder
├── 先训练 Adapter，再训练 Encoder
└── 目标：语义对齐

Stage 2: General Stage
├── 解冻所有参数
├── 序列长度：32,768
├── 多模态混合训练
└── 数据量：~4T tokens

Stage 3: Long Context Stage
├── 序列长度：32K → 262,144 (256K)
├── 提高长音频/长视频数据比例
└── 增强长序列理解能力
```

### 3.2 Thinker 后训练三阶段

```
Stage 1: Specialist Distillation
├── 训练领域专家教师模型（文本/视觉/音频）
├── 独立 SFT + RL
└── 蒸馏到统一模型

Stage 2: On-Policy Distillation
├── 问题：音频查询响应质量 < 文本查询
├── 方法：用文本条件下的高质量响应
│         作为音频条件的蒸馏目标
└── 目标：跨模态响应质量对齐

Stage 3: Interaction-Aligned RL
├── 解决多轮对话问题：
│   - 语言切换
│   - 人设不一致
│   - 长上下文指令遵循退化
└── 优化交互体验
```

### 3.3 Talker 后训练四阶段

```
Stage 1: General Stage
├── 数据：20M+ 小时多语言语音
└── 任务：指令跟随语音生成，上下文推理

Stage 2: Long-Context Stage
├── 数据质量分层筛选
├── 使用 Qwen3-Omni-Captioner 增强
├── 上下文长度扩展至 64K
└── 减少幻觉，提升自然度

Stage 3: Reinforcement Learning
├── DPO：多语言偏好对优化
├── GSPO：规则奖励 + 训练稳定性
└── 人类偏好对齐

Stage 4: Speaker Fine-tuning
├── 轻量级说话人微调
└── 提升自然度、表现力、可控性
```

---

## 4. 评测维度与效果

### 4.1 评测体系概览

评测覆盖 **215 个子任务和基准**，分为两大类：

- **X → Text**：多模态理解（输出文本）
- **X → Speech**：语音生成

### 4.2 Text → Text 性能

| 任务类型 | 基准 | Qwen3.5-Plus-NoThinking | Qwen3.5-Omni-Plus |
|----------|------|-------------------------|-------------------|
| 知识 | MMLU-Pro | **86.8** | 85.9 |
| 指令遵循 | IFEval | **89.7** | **89.7** |
| 长上下文 | LongBench v2 | **60.2** | 59.6 |
| STEM | GPQA | **85.9** | 83.9 |
| 推理 | LiveCodeBench v6 | **67.1** | 65.6 |
| Agent | TAU2Bench | **82.7** | 81.0 |

**结论**：Omni 模型保持与纯文本模型相当的文本能力，无明显退化。

### 4.3 Audio → Text 性能 (vs Gemini-3.1 Pro)

| 任务 | Qwen3.5-Omni-Plus | Gemini-3.1 Pro | 结果 |
|------|-------------------|----------------|------|
| MMAU | 更优 | - | ✓ |
| MMSU | 更优 | - | ✓ |
| VoiceBench | 显著更优 | - | ✓ |
| S2TT (59语言) | 全面更优 | - | ✓ |
| ASR | 全面更优 | - | ✓ |

### 4.4 AudioVisual → Text 性能

| 基准 | Gemini-3.1 Pro | Qwen3.5-Omni-Plus |
|------|----------------|-------------------|
| DailyOmni | 82.7 | **84.6** |
| WorldSense | **65.5** | 62.8 |
| AVUT | **85.6** | 85.0 |
| Qualcomm IVD | 66.2 | **68.5** |
| Omni-Cloze | 57.2 | **64.8** |

### 4.5 语音生成性能

#### Zero-Shot TTS (SEED-TTS 基准, WER↓)

| 模型 | test-zh | test-en |
|------|---------|---------|
| CosyVoice 3 | **0.71** | 1.45 |
| MiniMax-Speech | 0.83 | 1.65 |
| Qwen3-Omni-30B | 1.07 | 1.39 |
| **Qwen3.5-Omni-Plus** | 0.99 | **1.26** |

#### 多语言语音生成 (29种语言)

- 在 22/29 种语言上取得最低 WER
- 说话人相似度在大多数语言上最优

#### 跨语言语音克隆 (12个方向)

- 在 10/12 个方向上取得最佳错误率
- zh→ko: 14.4% → **4.03%** (72% 相对降低)

### 4.6 延迟与效率

| 指标 | Plus | Flash |
|------|------|-------|
| 首包延迟 (音频输入) | 435ms | 235ms |
| 首包延迟 (视频输入) | 651ms | 426ms |
| 生成 RTF | 0.187 | 0.178 |

支持能力：
- 10+ 小时音频理解
- 400秒 720P 视频 (1 FPS)
- 256K token 上下文

---

## 5. 新兴能力

### 5.1 Audio-Visual Vibe Coding

模型涌现出直接根据音视频指令生成可执行代码的能力，无需外部编排。

### 5.2 可控音视频字幕

- 剧本级细粒度描述
- 自动场景分割
- 时间戳标注
- 角色关系与音频的细节描述

### 5.3 实时交互

- 语义中断（原生轮次切换意图识别）
- 端到端语音控制（音量、语速、情感）
- 用户样本零样本语音克隆

---

## 6. 局限性与开放问题

1. **Agent 能力差距**：OmniGAIA (工具使用) 上与 Gemini-3.1 Pro (68.9%) 相比仍有差距 (57.2%)
2. **部分视听任务**：WorldSense、AV-SpeakerBench 等与 Gemini 有差距
3. **长上下文文本推理**：AA-LCR 等任务上略逊于纯文本模型
4. **Flash vs Plus 差距**：轻量版本在复杂推理任务上有明显差距
5. **方言覆盖**：语音输出仅支持 7 种中文方言 vs 输入支持 39 种