代码
MindSpore成立LLM Inference Serving SIG:提供高性能、易用的MindSpore大模型推理部署能力

MindSpore成立LLM Inference Serving SIG:提供高性能、易用的MindSpore大模型推理部署能力

MindSpore成立LLM Inference Serving SIG:提供高性能、易用的MindSpore大模型推理部署能力

为了将昇思MindSpore大模型推理能力接入vLLM、SGLang等上游开源推理服务框架,整合上下游社区的技术优势,提供高性能、易用的大模型推理服务能力,昇思MindSpore社区正式成立MindSpore大模型推理服务SIG(LLM Inference Serving SIG)。LLM Inference Serving SIG已孵化了开源插件vLLM-MindSpore,可支持vLLM框架以MindSpore为推理计算底座,实现大模型推理服务化部署。

vLLM-MindSpore是一款开源vLLM插件,其设计理念是将MindSpore推理大模型注册到vLLM中,而不修改vLLM的用户接口和服务化能力。最终,实现MindSpore框架的图融合、算子并行下发等推理计算加速能力,与vLLM的Continuous Batching、Prefix Caching等推理服务加速能力的有机结合。

2025年1月项目启动以来,vLLM-MindSpore已迭代适配vLLM v0.6.6.post1版本和v0.7.3版本的基础功能。vLLM-MindSpore的首个正式版本计划于6月下旬随MindSpore 2.7.0-rc1发布,适配vLLM v0.8.3版本和V1架构。

vLLM-MindSpore项目代码仓:

http://gitee.com/mindspore/vllm-mindspore

Qwen3-32B体验示例:

https://modelers.cn/models/MindSpore-Lab/Qwen3-32B

DeepSeek-R1体验示例:

https://modelers.cn/models/MindSpore-Lab/DeepSeek-R1-W8A8

SIG目标:

1、构建和优化MindSpore大模型推理服务能力,实现MindSpore大模型推理与vLLM、SGLang等上游开源推理服务框架的无缝对接。

2、开发和优化vLLM-MindSpore插件,持续适配vLLM最新稳定版本和SOTA大模型,最终实现与上游vLLM项目的同步演进。

3、孵化SGLang-MindSpore插件(进行中,计划基础功能完备后开源)。

SIG例会:

双周例会,北京时间周三晚19点。

首次例会录屏:

https://www.bilibili.com/video/BV1GS7GzJEaR/

例会纪要:

https://etherpad.mindspore.cn/p/sig-LLM-Inference-Serving-meetings

订阅邮件:

https://www.mindspore.cn/sig/LLM%20Inference%20Serving

(欢迎大家订阅SIG邮件,后续例会将通过邮件通知大家)

SIG成员:

Maintainer 列表

Committer列****表

欢迎感兴趣的朋友们加入到LLM Inference Serving SIG,共同探讨大模型推理部署技术。