0Day支持！昇思MindSpore同步首发Qwen3，支持一键部署

2025/04/29

实践

0Day支持！昇思MindSpore同步首发Qwen3，支持一键部署

Qwen3是阿里云于2025年4月29日发布并开源的全新模型，作为Qwen 系列中的最新一代大型语言模型，提供了一系列密集型和混合专家（MoE）模型。本次Qwen发布多个尺寸模型，覆盖235B/32B/30B/14B/8B/4B/1.7B/0.6B。昇思MindSpore基于对Qwen2.5的支持与兼容主流生态的接口，快速实现Qwen3的0Day支持，并将MindSpore版Qwen3代码上传至开源社区代码仓，面向开发者提供开箱即用的模型。

模型链接：

类型

模型名称

魔乐社区链接

稠密Base

Qwen3-0.6B-Base

https://modelers.cn/models/MindSpore-Lab/Qwen3-0.6B-Base

Qwen3-1.7B-Base

https://modelers.cn/models/MindSpore-Lab/Qwen3-1.7B-Base

Qwen3-4B-Base

https://modelers.cn/models/MindSpore-Lab/Qwen3-4B-Base

Qwen3-8B-Base

https://modelers.cn/models/MindSpore-Lab/Qwen3-8B-Base

稠密Instruct

Qwen3-0.6B

https://modelers.cn/models/MindSpore-Lab/Qwen3-0.6B

Qwen3-1.7B

https://modelers.cn/models/MindSpore-Lab/Qwen3-1.7B

Qwen3-4B

https://modelers.cn/models/MindSpore-Lab/Qwen3-4B

Qwen3-8B

https://modelers.cn/models/MindSpore-Lab/Qwen3-8B

Qwen3-32B

https://modelers.cn/models/MindSpore-Lab/Qwen3-32B

稀疏MOE

Qwen3-30B-A3B

https://modelers.cn/models/MindSpore-Lab/Qwen3-30B-A3B

Qwen3-235B-A22B

https://modelers.cn/models/MindSpore-Lab/Qwen3-235B-A22B

# 01 Qwen3模型介绍

Qwen3是 Qwen 系列大型语言模型的最新成员。其中的旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中，与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比，表现出极具竞争力的结果。此外，小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%，表现更胜一筹，甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

1 Qwen3 模型支持两种思考模式

**思考模式：**在这种模式下，模型会逐步推理，经过深思熟虑后给出最终答案。这种方法适合需要深入思考的复杂问题。
**非思考模式：**在此模式中，模型提供快速、近乎即时的响应，适用于那些对速度要求高于深度的简单问题。

多语言

Qwen3 模型支持 119 种语言和方言。这一广泛的多语言能力为国际应用开辟了新的可能性。

预训练

在预训练方面，Qwen3 的数据集相比 Qwen2.5 有了显著扩展。Qwen2.5是在 18 万亿个 token 上进行预训练的，而 Qwen3 使用的数据量几乎是其两倍，达到了约 36 万亿个 token，涵盖了 119 种语言和方言。

4 后训练

Qwen3实施了一个四阶段的训练流程。该流程包括：（1）长思维链冷启动，（2）长思维链强化学习，（3）思维模式融合，以及（4）通用强化学习。

# 02 昇思MindSpore相关技术特性

昇思MindSpore原生支持Qwen系列大模型，兼容主流生态的分布式并行接口，已快速完成Qwen3多个模型的同步支持。同时，具备以下技术特性，加速模型训练、推理。

昇思MindSpore同步支持MindSpeed加速库，已完成Qwen3系列模型训练适配。
**JIT加速，提升推理系统吞吐率：**昇思MindSpore通过JIT编译自动将模型的Python类或者函数，编译成一张完整的计算图，进而通过自动模式匹配，在整图范围内将多种小算子组合，融合成单个大颗粒的算子。同时，构建了Shape推导、Tiling数据计算、下发执行的三级流水线，实现Host计算和Device计算的掩盖，有效提升了计算图动态Shape执行效率。
**无缝接入vLLM生态：**昇思MindSpore开发了vLLM-MindSpore插件，支持主流大模型的推理服务部署。如图1所示，其采用MSAdapter将vLLM服务组件依赖的PyTorch接口映射至MindSpore能力，无缝继承了Continuous Batching等核心特性。通过插件式接入MindSpore Transformers套件所提供的大模型，实现昇腾+昇思的推理加速，有机整合了vLLM和MindSpore的推理加速能力。vLLM-MindSpore插件已适配vLLM v0.7.3版本，即将支持v0.8.3版本和V1架构。

# 03 手把手教程：基于昇思快速上手Qwen3模型训练和推理

1 快速开始

以Qwen3-32B推理为例，使用1台（2卡）Atlas 800I A2（64G）服务器（基于BF16权重）。昇思MindSpore提供了Qwen3-32B推理专用的Docker容器镜像，供开发者快速体验。

下载昇思 MindSpore Qwen3****-32B**** 推理容器镜像

执行以下 Shell 命令，拉取昇思 MindSpore Qwen3 推理容器镜像：


docker pull swr.cn-central-221.ovaijisuan.com/mindformers/qwen3_mindspore2.6.0-infer:20250428

启动容器

执行以下命令创建并启动容器：

docker run -it --privileged --name=qwen3 --net=host \
   --shm-size 500g \
   --device=/dev/davinci0 \
   --device=/dev/davinci1 \
   --device=/dev/davinci2 \
   --device=/dev/davinci3 \
   --device=/dev/davinci4 \
   --device=/dev/davinci5 \
   --device=/dev/davinci6 \
   --device=/dev/davinci7 \
   --device=/dev/davinci_manager \
   --device=/dev/hisi_hdc \
   --device /dev/devmm_svm \
   -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
   -v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \
   -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \
   -v /usr/local/sbin:/usr/local/sbin \
   -v /etc/hccn.conf:/etc/hccn.conf \
   swr.cn-central-221.ovaijisuan.com/mindformers/qwen3_mindspore2.6.0-infer:20250428 \
   bash

后续所有操作均在容器内操作。

模型下载

执行以下命令为自定义下载路径/home/work添加白名单：


export HUB_WHITE_LIST_PATHS=/home/work

执行以下 Python 脚本从魔乐社区下载昇思 MindSpore 版本的 Qwen3-32B 文件至指定路径/home/work。下载的文件包含模型代码、权重、分词模型和示例代码，占用约 62GB 的磁盘空间：


from openmind_hub import snapshot_download
snapshot_download(
    repo_id="MindSpore-Lab/Qwen3-32B",
    local_dir="/home/work",
    local_dir_use_symlinks=False
)

注意事项：

下载时间可能因网络环境而异，建议在稳定的网络环境下操作。

2 服务化部署

1. 添加环境变量

在服务器中添加如下环境变量：


export MINDFORMERS_MODEL_CONFIG=/home/work/Qwen3-32B/predict_qwen3_32b.yaml
export ASCEND_CUSTOM_PATH=$ASCEND_HOME_PATH/../
export vLLM_MODEL_BACKEND=MindFormers
export vLLM_MODEL_MEMORY_USE_GB=50
export ASCEND_TOTAL_MEMORY_GB=64
export MS_ENABLE_LCCL=off
export HCCL_OP_EXPANSION_MODE=AIV
export HCCL_SOCKET_IFNAME=enp189s0f0
export GLOO_SOCKET_IFNAME=enp189s0f0
export TP_SOCKET_IFNAME=enp189s0f0
export HCCL_CONNECT_TIMEOUT=3600
export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7

2. 拉起服务

执行以下命令拉起服务：

python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "Qwen3-32B" --trust_remote_code --tensor_parallel_size=32 --enable-prefix-caching --enable-chunked-prefill --max-num-seqs=256 --block-size=32 --max_model_len=70000 --max-num-batched-tokens=2048 --distributed-executor-backend=ray

3. 执行推理请求测试

执行以下命令发送流式推理请求进行测试：

curl http://localhost:8000/v1/completions -H "Content-Type: application/json" -d '{"model": "Qwen3-32B ","prompt": "请介绍下北京的top景点", "temperature": 0, "max_tokens": 256, "top_p": 1.0, "top_k": 1, "repetition_penalty":1.0}'

本文档提供的模型代码、权重文件和部署镜像，当前仅限于基于昇思MindSpore AI框架体验Qwen3-32B的部署效果，不支持生产环境部署。相关使用问题请反馈至Issue。

昇思MindSpore AI框架将持续支持相关主流模型演进，并根据开源情况面向全体开发者提供镜像与支持。

学习

核心框架

大模型套件

科学计算套件

领域套件

工具

模型库

生态资源

技术学习

专区

社区组织

贡献与成长

开发者活动

互动交流

活动

动态

0Day支持！昇思MindSpore同步首发Qwen3，支持一键部署

0Day支持！昇思MindSpore同步首发Qwen3，支持一键部署

# 01 Qwen3模型介绍

# 02 昇思MindSpore相关技术特性

# 03 手把手教程：基于昇思快速上手Qwen3模型训练和推理