# Qwen3.5 选型 + VLLM 部署实战：从 0.8B 到 397B，哪款最适合你？


![deploy-qwen3.5-by-vllm.jpeg](https://img.lixueduan.com/ai/cover/deploy-qwen35-by-vllm.jpeg)

Qwen3.5 是阿里云最新开源的大语言模型系列，提供了从 0.8B 到 397B 的多种规格，在推理能力和效率之间取得了良好平衡。

面对如此丰富的模型规格，该如何选择？本文将首先分析各规格模型的特点和适用场景，帮助你找到最适合的那一款，然后介绍如何使用 vLLM 在 Kubernetes 环境中部署 Qwen3.5 模型。

根据各大榜单排名以及实测表现，Qwen3.5 系列在性能和质量的权衡上表现出色。

![qwen35-rank.png](https://img.lixueduan.com/ai/vllm/qwen35-rank.png)


<!--more-->

## 1. 测试环境

本文所有测试均在以下环境完成：

```bash
+-----------------------------------------------------------------------------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|=========================================+========================+======================|
|   0  NVIDIA GB200                   On  |   00000008:01:00.0 Off |                    0 |
| N/A   42C    P0            395W / 1200W |  175750MiB / 189471MiB |    0%      Default |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA GB200                   On  |   00000009:01:00.0 Off |                    0 |
| N/A   42C    P0            369W / 1200W |  175366MiB / 189471MiB |    0%      Default |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA GB200                   On  |   00000018:01:00.0 Off |                    0 |
| N/A   41C    P0            354W / 1200W |  175366MiB / 189471MiB |    0%      Default |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA GB200                   On  |   00000019:01:00.0 Off |                    0 |
| N/A   42C    P0            375W / 1200W |  179133MiB / 189471MiB |    0%      Default |
+-----------------------------------------+------------------------+----------------------+
```

## 2. 模型选择

Qwen3.5 已形成从 0.8B 到 397B 的完整开源矩阵，分为三大梯队：

| 系列 | 模型 | 特点 |
|------|------|------|
| 轻量稠密系列 | 0.8B / 2B / 4B / 9B / 27B | 全参数激活，部署简单，适合个人/边缘场景 |
| 中型 MoE 系列 | 35B-A3B / 122B-A10B | 激活参数小，速度快成本低，适合企业级服务 |
| 旗舰 MoE 系列 | 397B-A17B | 开源旗舰，全场景最强，对标闭源第一梯队 |

所有模型均支持视觉-语言多模态输入，原生上下文长度 256K tokens，最高可扩展至 1M tokens。

**根据官方测评数据，比较推荐下面 4 个规格：**

| 模型 | 激活参数 | 综合能力 | 代码能力 | Agent 能力 | 中文能力 |
|------|---------|---------|---------|-----------|---------|
| Qwen3.5-27B | 27B | 88.5 | HumanEval 89.1 | BFC-Lv4 48.5% | 90.5 |
| Qwen3.5-35B-A3B | 3B | 89.7 | HumanEval 87.9 | BFC-Lv4 52.3% | - |
| Qwen3.5-122B-A10B | 10B | 90.8 | HumanEval 88.7 | BFC-Lv4 50.7% | 91.7 |
| Qwen3.5-397B-A17B | 17B | 91.5 | HumanEval 89.3 | BFC-Lv4 49.8% | 92.3 |


**选型建议：**

- **Qwen3.5-27B**：稠密架构最强，代码能力出色（HumanEval≈89.1，稠密代码第一），部署简单，适合代码/工程场景
- **Qwen3.5-35B-A3B**：Agent/深度推理最强（BFC-Lv4≈52.3%，全系列最高），激活仅 3B，性价比极高
- **Qwen3.5-122B-A10B**：接近旗舰性能，知识密集/多模态/视频场景优选，成本比旗舰低 40%
- **Qwen3.5-397B-A17B**：开源旗舰，综合能力开源第一（对标 GPT-5.2），中文能力最强（92.3），支持 1M 上下文无损，适合企业级基座

## 3. 模型下载

### 3.1 安装 HuggingFace CLI

首先安装 HuggingFace CLI 工具用于下载模型：

```bash
curl -LsSf https://hf.co/cli/install.sh | bash
```

**常见问题：安装失败**

如果遇到 `No module named pip` 错误，通常是因为虚拟环境损坏：

```bash
# 删除损坏的虚拟环境
rm -rf /root/.hf-cli/venv

# 重新安装
curl -LsSf https://hf.co/cli/install.sh | bash
```

### 3.2 下载模型

Qwen3.5 提供多种规格和精度版本，根据你的硬件配置选择：

```bash
# INT4 版本（推荐：显存占用低）
hf download Qwen/Qwen3.5-397B-A17B-GPTQ-Int4 --local-dir /raid/lixd/models/Qwen/Qwen3.5-397B-A17B-GPTQ-Int4
```


## 4. Kubernetes 部署

> 官方文档：[https://docs.vllm.ai/projects/recipes/en/latest/Qwen/Qwen3.5.html](https://docs.vllm.ai/projects/recipes/en/latest/Qwen/Qwen3.5.html)

以下以 Qwen3.5-397B-A17B-GPTQ-Int4 为例，展示如何在 Kubernetes 中部署：

```yaml
# qwen35-397b-deployment.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: vllm-qwen35-397b
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: vllm-qwen35-397b
  template:
    metadata:
      labels:
        app: vllm-qwen35-397b
    spec:
      nodeSelector:
        kubernetes.io/hostname: gb200-pod2-f06-node05
      containers:
        - name: vllm-server
          image: vllm/vllm-openai:cu130-nightly
          command: ["/bin/bash"]
          args:
            - "-c"
            - |
              vllm serve /Qwen3.5-397B-A17B-GPTQ-Int4 \
                --served-model-name qwen3.5 \
                --port 8000 \
                --tensor-parallel-size 4 \
                --gpu-memory-utilization 0.85 \
                --reasoning-parser qwen3 \
                --enable-auto-tool-choice \
                --max-model-len 262144 \
                --tool-call-parser qwen3_coder \
                --enable-prefix-caching \
                --quantization moe_wna16 \
                --host 0.0.0.0 \
                --api-key "your-api-key"
          resources:
            limits:
              nvidia.com/gpu: 4
              memory: "400Gi"
              cpu: "32"
            requests:
              nvidia.com/gpu: 4
              memory: "200Gi"
              cpu: "16"
          ports:
            - containerPort: 8000
              name: http
          volumeMounts:
            - name: model-storage
              mountPath: /Qwen3.5-397B-A17B-GPTQ-Int4
              readOnly: true
            - name: shm
              mountPath: /dev/shm
      volumes:
        - name: model-storage
          hostPath:
            path: /raid/lixd/models/Qwen3.5-397B-A17B-GPTQ-Int4
            type: Directory
        - name: shm
          emptyDir:
            medium: Memory
            sizeLimit: 64Gi
---
apiVersion: v1
kind: Service
metadata:
  name: vllm-qwen35-397b-service
spec:
  selector:
    app: vllm-qwen35-397b
  ports:
    - port: 8000
      targetPort: 8000
  type: ClusterIP
```

**关键参数说明：**

| 参数 | 说明 |
|------|------|
| `--tensor-parallel-size` | 张量并行数，通常等于 GPU 数量 |
| `--reasoning-parser qwen3` | 启用 Qwen3 推理能力 |
| `--tool-call-parser qwen3_coder` | 使用 Qwen3 工具调用解析器 |
| `--enable-auto-tool-choice` | 启用自动工具选择 |
| `--quantization moe_wna16` | MoE 模型量化方式 |
| `--max-model-len 262144` | 最大上下文长度 |
| `--enable-prefix-caching` | 启用前缀缓存加速 |

## 5. 服务验证

### 5.1 基础验证

```bash
# 查看可用模型列表
curl http://localhost:8000/v1/models \
  -H "Authorization: Bearer your-api-key"

# 基础对话测试
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-api-key" \
  -d '{
    "model": "qwen3.5",
    "messages": [
      {"role": "user", "content": "你好，请介绍一下你自己"}
    ],
    "max_tokens": 100,
    "temperature": 0.7
  }'
```

### 5.2 思考模式控制

Qwen3.5 支持开启/关闭思考模式：

**开启思考模式（默认）：**

```bash
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-api-key" \
  -d '{
    "model": "qwen3.5",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Summarize Qwen3.5 in one sentence."}
    ],
    "temperature": 1,
    "max_tokens": 4096
  }'
```

**关闭思考模式：**

```bash
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-api-key" \
  -d '{
    "model": "qwen3.5",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Summarize Qwen3.5 in one sentence."}
    ],
    "temperature": 1,
    "max_tokens": 4096,
    "chat_template_kwargs": {"enable_thinking": false}
  }'
```

## 6. 性能基准测试

### 6.1 测试方法

使用 vLLM 内置的 benchmark 工具进行测试：

```bash
vllm bench serve \
  --model /Qwen3.5-397B-A17B-GPTQ-Int4 \
  --served_model_name qwen3.5 \
  --dataset-name random \
  --random-input 8000 \
  --random-output 1024 \
  --request-rate 10 \
  --num-prompts 32 \
  --trust-remote-code \
  --ignore-eos
```

### 6.2 INT4 版本测试结果

```
============ Serving Benchmark Result ============
Successful requests:                     32
Failed requests:                         0
Request rate configured (RPS):           10.00
Benchmark duration (s):                  32.58
Total input tokens:                      256000
Total generated tokens:                  32768
Request throughput (req/s):              0.98
Output token throughput (tok/s):         1005.85
Peak output token throughput (tok/s):    1152.00
Peak concurrent requests:                32.00
Total token throughput (tok/s):          8864.01
---------------Time to First Token----------------
Mean TTFT (ms):                          308.19
Median TTFT (ms):                        287.37
P99 TTFT (ms):                           494.26
-----Time per Output Token (excl. 1st token)------
Mean TPOT (ms):                          29.54
Median TPOT (ms):                        29.62
P99 TPOT (ms):                           30.58
---------------Inter-token Latency----------------
Mean ITL (ms):                           29.54
Median ITL (ms):                         28.52
P99 ITL (ms):                            30.89
==================================================
```

**关键指标解读：**

| 指标 | 含义 | 测试结果 |
|------|------|----------|
| **TTFT** | Time To First Token，首 token 延迟 | 平均 308ms |
| **TPOT** | Time Per Output Token，每个 token 生成时间 | 平均 29.5ms |
| **吞吐量** | Output token throughput | 1005 tok/s |

## 7. 小结

本文详细介绍了使用 vLLM 部署 Qwen3.5 模型的完整流程：

- **模型选择**：根据需求，推荐选择 27B、35B-A3B、397B-A17B 几种规格
- **Kubernetes 部署**：k8s 中通过 Deployment 配置，支持多 GPU 张量并行
- **性能表现**：INT4 版本在 GB200*4 环境下达到 1005 tok/s 的吞吐量

如果你想在 Claude Code 中使用本地部署的模型，可以参考我的另一篇文章[《Claude Code 也能跑本地模型？CCR 多模型智能路由》](https://www.lixueduan.com/posts/ai/14-claude-code-use-local-model-by-ccr/)，了解如何通过 Claude Code Router 实现对接。

另外，如果你对 GLM-5 模型的部署感兴趣，也可以参考[《vLLM + GLM-5：打造高性能本地大模型推理服务》](https://www.lixueduan.com/posts/ai/15-deploy-gm5-by-vllm/)。


---

> 作者: [意琦行](https://github.com/lixd)  
> URL: https://www.lixueduan.com/posts/ai/16-deploy-qwen35-by-vllm/  

