Release Notes

vLLM-MindSpore插件 0.3.0 Release Notes

vLLM MindSpore插件0.3.0版本，配套vLLM 0.8.3版本。以下为此版本支持的关键新功能和模型。

新特性

架构适配：架构适配vLLM V0与V1架构，用户可通过VLLM_USE_V1进行架构切换；
服务特性：支持Chunked Prefill、Automatic Prefix Caching、Async output、Reasoning Outputs等特性；其中V0架构中也支持Multi-step scheduler、DeepSeek MTP特性。详细描述请参考特性支持列表；
量化支持：支持GPTQ量化与SmoothQuant量化功能；详细描述请参考量化方法；
并行策略：V1架构中，支持张量并行（Tensor Parallel）、数据并行（Data Parallel）、专家并行（Expert Parallel）；详细描述请参考多机并行推理；
调试工具：适配使用vLLM的profile工具，通过MindSpore后端进行性能数据采集、模型IR图保存，便于用户进行模型的调试与调优；适配使用vLLM的benchmark工具进行性能测试。详细描述请参考调试方法与性能测试；

新模型

DeepSeek 系列模型：
- [已支持] DeepSeek-V3、DeepSeek-R1、DeepSeek-R1 W8A8量化模型；
Qwen2.5 系列模型：
- [已支持] Qwen2.5：0.5B、1.5B、3B、7B、14B、32B、72B；
- [测试中] Qwen2.5-VL：3B、7B、32B、72B；
Qwen3 系列模型：
- [已支持] Qwen3：32B；Qwen3-MOE：235B-A22B；
- [测试中] Qwen3：0.6B、1.7B、4B、8B、14B；Qwen3-MOE：Qwen3-30B-A3
QwQ 系列模型：
- [测试中] QwQ：32B
Llama 系列模型：
- [测试中] Llama3.1：8B、70B、405B
- [测试中] Llama3.2：1B、3B

贡献者

感谢以下人员做出的贡献：

alien_0119、candyhong、can-gaa-hou、ccsszz、cs123abc、dayschan、Erpim、fary86、hangangqiang、horcham_zhq、huandong、huzhikun、i-robot、jiahaochen666、JingweiHuang、lijiakun、liu lili、lvhaoyu、lvhaoyu1、moran、nashturing、one_east、panshaowu、pengjingyou、r1chardf1d0、tongl、TrHan、tronzhang、TronZhang、twc、uh、w00521005、wangpingan2、WanYidong、WeiCheng Tan、wusimin、yangminghai、yyyyrf、zhaizhiqiang、zhangxuetong、zhang_xu_hao1230、zhanzhan1、zichun_ye、zlq2020

欢迎以任何形式对项目提供贡献！