Release Notes

查看源文件

vLLM-MindSpore插件 0.4.0 Release Notes

vLLM MindSpore插件0.4.0版本,配套vLLM 0.9.1版本。以下为此版本支持的关键新功能和模型。

新特性

  • 架构适配:完成架构升级并适配 vLLM 0.9.1版本,全面继承升级前版本的所有功能;新增支持通过 Ray 方式部署 DP 并行服务,具体配置及操作说明请参考多机并行推理

  • 量化支持:DeepSeek-R1 模型已支持 A8W4 量化推理功能,相关技术细节与使用指南详见 DeepSeek-R1 A8W4量化推理模型链接

  • 性能优化:集成FA3量化推理、MLA系列算子,显著提升DeepSeek系列模型长序列场景下的运行性能,部分场景性能提升幅度超 10%;

  • 易用性提升:优化 MindSpore Transformers 后端模型服务化部署流程,不再依赖 YAML 配置文件,用户可直接基于社区开源的 Hugging Face 模型配置文件完成部署操作。

新模型

  • DeepSeek系列模型

    • DeepSeek-R1 A8W4 量化推理

  • TeleChat系列模型

    • TeleChat2模型推理

  • GLM系列模型

    • GLM-4模型推理

    • GLM-4.5模型推理

  • Qwen3系列模型

    • Qwen3原生模型

  • Qwen2,5系列模型

    • Qwen2.5-VL支持原生模型

贡献者

感谢以下人员做出的贡献:

alien_0119、candyhong、can-gaa-hou、ccsszz、cs123abc、dayschan、Erpim、fary86、hangangqiang、horcham_zhq、huandong、huzhikun、i-robot、jiahaochen666、JingweiHuang、lijiakun、liu lili、lvhaoyu、lvhaoyu1、moran、nashturing、one_east、panshaowu、pengjingyou、r1chardf1d0、tongl、TrHan、tronzhang、TronZhang、twc、uh、w00521005、wangpingan2、WanYidong、WeiCheng Tan、wusimin、yangminghai、yyyyrf、zhaizhiqiang、zhangxuetong、zhang_xu_hao1230、zhanzhan1、zichun_ye、zlq2020

欢迎以任何形式对项目提供贡献!