MindSpore成立LLM Inference Serving SIG：提供高性能、易用的MindSpore大模型推理部署能力

2025/05/29

MindSpore成立LLM Inference Serving SIG：提供高性能、易用的MindSpore大模型推理部署能力

为了将昇思MindSpore大模型推理能力接入vLLM、SGLang等上游开源推理服务框架，整合上下游社区的技术优势，提供高性能、易用的大模型推理服务能力，昇思MindSpore社区正式成立MindSpore大模型推理服务SIG（LLM Inference Serving SIG）。LLM Inference Serving SIG已孵化了开源插件vLLM-MindSpore，可支持vLLM框架以MindSpore为推理计算底座，实现大模型推理服务化部署。

vLLM-MindSpore是一款开源vLLM插件，其设计理念是将MindSpore推理大模型注册到vLLM中，而不修改vLLM的用户接口和服务化能力。最终，实现MindSpore框架的图融合、算子并行下发等推理计算加速能力，与vLLM的Continuous Batching、Prefix Caching等推理服务加速能力的有机结合。

2025年1月项目启动以来，vLLM-MindSpore已迭代适配vLLM v0.6.6.post1版本和v0.7.3版本的基础功能。vLLM-MindSpore的首个正式版本计划于6月下旬随MindSpore 2.7.0-rc1发布，适配vLLM v0.8.3版本和V1架构。

vLLM-MindSpore项目代码仓：

http://gitee.com/mindspore/vllm-mindspore

Qwen3-32B体验示例：

https://modelers.cn/models/MindSpore-Lab/Qwen3-32B

DeepSeek-R1体验示例：

https://modelers.cn/models/MindSpore-Lab/DeepSeek-R1-W8A8

SIG目标：

1、构建和优化MindSpore大模型推理服务能力，实现MindSpore大模型推理与vLLM、SGLang等上游开源推理服务框架的无缝对接。

2、开发和优化vLLM-MindSpore插件，持续适配vLLM最新稳定版本和SOTA大模型，最终实现与上游vLLM项目的同步演进。

3、孵化SGLang-MindSpore插件（进行中，计划基础功能完备后开源）。

SIG例会：