MindSpore成立LLM Inference Serving SIG:提供高性能、易用的MindSpore大模型推理部署能力
MindSpore成立LLM Inference Serving SIG:提供高性能、易用的MindSpore大模型推理部署能力
为了将昇思MindSpore大模型推理能力接入vLLM、SGLang等上游开源推理服务框架,整合上下游社区的技术优势,提供高性能、易用的大模型推理服务能力,昇思MindSpore社区正式成立MindSpore大模型推理服务SIG(LLM Inference Serving SIG)。LLM Inference Serving SIG已孵化了开源插件vLLM-MindSpore,可支持vLLM框架以MindSpore为推理计算底座,实现大模型推理服务化部署。
vLLM-MindSpore是一款开源vLLM插件,其设计理念是将MindSpore推理大模型注册到vLLM中,而不修改vLLM的用户接口和服务化能力。最终,实现MindSpore框架的图融合、算子并行下发等推理计算加速能力,与vLLM的Continuous Batching、Prefix Caching等推理服务加速能力的有机结合。
2025年1月项目启动以来,vLLM-MindSpore已迭代适配vLLM v0.6.6.post1版本和v0.7.3版本的基础功能。vLLM-MindSpore的首个正式版本计划于6月下旬随MindSpore 2.7.0-rc1发布,适配vLLM v0.8.3版本和V1架构。
vLLM-MindSpore项目代码仓:
http://gitee.com/mindspore/vllm-mindspore
Qwen3-32B体验示例:
https://modelers.cn/models/MindSpore-Lab/Qwen3-32B
DeepSeek-R1体验示例:
https://modelers.cn/models/MindSpore-Lab/DeepSeek-R1-W8A8
SIG目标:
1、构建和优化MindSpore大模型推理服务能力,实现MindSpore大模型推理与vLLM、SGLang等上游开源推理服务框架的无缝对接。
2、开发和优化vLLM-MindSpore插件,持续适配vLLM最新稳定版本和SOTA大模型,最终实现与上游vLLM项目的同步演进。
3、孵化SGLang-MindSpore插件(进行中,计划基础功能完备后开源)。
SIG例会:
双周例会,北京时间周三晚19点。
首次例会录屏:
https://www.bilibili.com/video/BV1GS7GzJEaR/
例会纪要:
https://etherpad.mindspore.cn/p/sig-LLM-Inference-Serving-meetings
订阅邮件:
https://www.mindspore.cn/sig/LLM%20Inference%20Serving
(欢迎大家订阅SIG邮件,后续例会将通过邮件通知大家)
SIG成员:
Maintainer 列表

Committer列****表

欢迎感兴趣的朋友们加入到LLM Inference Serving SIG,共同探讨大模型推理部署技术。