# Release Notes

[![查看源文件](https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/website-images/r2.7.1/resource/_static/logo_source.svg)](https://gitee.com/mindspore/docs/blob/r2.7.1/docs/vllm_mindspore/docs/source_zh_cn/release_notes/release_notes.md)

## vLLM-MindSpore插件 0.4.0 Release Notes

vLLM MindSpore插件0.4.0版本，配套vLLM 0.9.1版本。以下为此版本支持的关键新功能和模型。

### 新特性

- 架构适配：完成架构升级并适配 vLLM 0.9.1版本，全面继承升级前版本的所有功能；新增支持通过 Ray 方式部署 DP 并行服务，具体配置及操作说明请参考[多机并行推理](../getting_started/tutorials/deepseek_parallel/deepseek_r1_671b_w8a8_dp4_tp4_ep4.md)；
- 量化支持：DeepSeek-R1 模型已支持 A8W4 量化推理功能，相关技术细节与使用指南详见 [DeepSeek-R1 A8W4量化推理模型链接](https://modelers.cn/models/MindSpore-Lab/R1-A8W4)；
- 性能优化：集成FA3量化推理、MLA系列算子，显著提升DeepSeek系列模型长序列场景下的运行性能，部分场景性能提升幅度超 10%；
- 易用性提升：优化 MindSpore Transformers 后端模型服务化部署流程，不再依赖 YAML 配置文件，用户可直接基于社区开源的 Hugging Face 模型配置文件完成部署操作。

### 新模型

- DeepSeek系列模型
    - DeepSeek-R1 A8W4 量化推理
- TeleChat系列模型
    - TeleChat2模型推理
- GLM系列模型
    - GLM-4模型推理
    - GLM-4.5模型推理
- Qwen3系列模型
    - Qwen3原生模型
- Qwen2,5系列模型
    - Qwen2.5-VL支持原生模型

### 贡献者

感谢以下人员做出的贡献：

alien_0119、candyhong、can-gaa-hou、ccsszz、cs123abc、dayschan、Erpim、fary86、hangangqiang、horcham_zhq、huandong、huzhikun、i-robot、jiahaochen666、JingweiHuang、lijiakun、liu lili、lvhaoyu、lvhaoyu1、moran、nashturing、one_east、panshaowu、pengjingyou、r1chardf1d0、tongl、TrHan、tronzhang、TronZhang、twc、uh、w00521005、wangpingan2、WanYidong、WeiCheng Tan、wusimin、yangminghai、yyyyrf、zhaizhiqiang、zhangxuetong、zhang_xu_hao1230、zhanzhan1、zichun_ye、zlq2020

欢迎以任何形式对项目提供贡献！