Release Notes
vLLM-MindSpore插件 0.4.0 Release Notes
vLLM MindSpore插件0.4.0版本,配套vLLM 0.9.1版本。以下为此版本支持的关键新功能和模型。
新特性
架构适配:完成架构升级并适配 vLLM 0.9.1版本,全面继承升级前版本的所有功能;新增支持通过 Ray 方式部署 DP 并行服务,具体配置及操作说明请参考多机并行推理;
量化支持:DeepSeek-R1 模型已支持 A8W4 量化推理功能,相关技术细节与使用指南详见 DeepSeek-R1 A8W4量化推理模型链接;
性能优化:集成FA3量化推理、MLA系列算子,显著提升DeepSeek系列模型长序列场景下的运行性能,部分场景性能提升幅度超 10%;
易用性提升:优化 MindSpore Transformers 后端模型服务化部署流程,不再依赖 YAML 配置文件,用户可直接基于社区开源的 Hugging Face 模型配置文件完成部署操作。
新模型
DeepSeek系列模型
DeepSeek-R1 A8W4 量化推理
TeleChat系列模型
TeleChat2模型推理
GLM系列模型
GLM-4模型推理
GLM-4.5模型推理
Qwen3系列模型
Qwen3原生模型
Qwen2,5系列模型
Qwen2.5-VL支持原生模型
贡献者
感谢以下人员做出的贡献:
alien_0119、candyhong、can-gaa-hou、ccsszz、cs123abc、dayschan、Erpim、fary86、hangangqiang、horcham_zhq、huandong、huzhikun、i-robot、jiahaochen666、JingweiHuang、lijiakun、liu lili、lvhaoyu、lvhaoyu1、moran、nashturing、one_east、panshaowu、pengjingyou、r1chardf1d0、tongl、TrHan、tronzhang、TronZhang、twc、uh、w00521005、wangpingan2、WanYidong、WeiCheng Tan、wusimin、yangminghai、yyyyrf、zhaizhiqiang、zhangxuetong、zhang_xu_hao1230、zhanzhan1、zichun_ye、zlq2020
欢迎以任何形式对项目提供贡献!