Release Notes
vLLM-MindSpore插件 0.3.0 Release Notes
vLLM MindSpore插件0.3.0版本,配套vLLM 0.8.3版本。以下为此版本支持的关键新功能和模型。
新特性
架构适配:架构适配vLLM V0与V1架构,用户可通过
VLLM_USE_V1
进行架构切换;服务特性:支持Chunked Prefill、Automatic Prefix Caching、Async output、Reasoning Outputs等特性;其中V0架构中也支持Multi-step scheduler、DeepSeek MTP特性。详细描述请参考特性支持列表;
量化支持:支持GPTQ量化与SmoothQuant量化功能;详细描述请参考量化方法;
并行策略:V1架构中,支持张量并行(Tensor Parallel)、数据并行(Data Parallel)、专家并行(Expert Parallel);详细描述请参考多机并行推理;
调试工具:适配使用vLLM的profile工具,通过MindSpore后端进行性能数据采集、模型IR图保存,便于用户进行模型的调试与调优;适配使用vLLM的benchmark工具进行性能测试。详细描述请参考调试方法与性能测试;
新模型
DeepSeek 系列模型:
[已支持] DeepSeek-V3、DeepSeek-R1、DeepSeek-R1 W8A8量化模型;
Qwen2.5 系列模型:
[已支持] Qwen2.5:0.5B、1.5B、3B、7B、14B、32B、72B;
[测试中] Qwen2.5-VL:3B、7B、32B、72B;
Qwen3 系列模型:
[已支持] Qwen3:32B;Qwen3-MOE:235B-A22B;
[测试中] Qwen3:0.6B、1.7B、4B、8B、14B;Qwen3-MOE:Qwen3-30B-A3
QwQ 系列模型:
[测试中] QwQ:32B
Llama 系列模型:
[测试中] Llama3.1:8B、70B、405B
[测试中] Llama3.2:1B、3B
贡献者
感谢以下人员做出的贡献:
alien_0119、candyhong、can-gaa-hou、ccsszz、cs123abc、dayschan、Erpim、fary86、hangangqiang、horcham_zhq、huandong、huzhikun、i-robot、jiahaochen666、JingweiHuang、lijiakun、liu lili、lvhaoyu、lvhaoyu1、moran、nashturing、one_east、panshaowu、pengjingyou、r1chardf1d0、tongl、TrHan、tronzhang、TronZhang、twc、uh、w00521005、wangpingan2、WanYidong、WeiCheng Tan、wusimin、yangminghai、yyyyrf、zhaizhiqiang、zhangxuetong、zhang_xu_hao1230、zhanzhan1、zichun_ye、zlq2020
欢迎以任何形式对项目提供贡献!