Release Notes

查看源文件

vLLM-MindSpore插件 0.3.0 Release Notes

vLLM MindSpore插件0.3.0版本,配套vLLM 0.8.3版本。以下为此版本支持的关键新功能和模型。

新特性

  • 架构适配:架构适配vLLM V0与V1架构,用户可通过VLLM_USE_V1进行架构切换;

  • 服务特性:支持Chunked Prefill、Automatic Prefix Caching、Async output、Reasoning Outputs等特性;其中V0架构中也支持Multi-step scheduler、DeepSeek MTP特性。详细描述请参考特性支持列表

  • 量化支持:支持GPTQ量化与SmoothQuant量化功能;详细描述请参考量化方法

  • 并行策略:V1架构中,支持张量并行(Tensor Parallel)、数据并行(Data Parallel)、专家并行(Expert Parallel);详细描述请参考多机并行推理

  • 调试工具:适配使用vLLM的profile工具,通过MindSpore后端进行性能数据采集、模型IR图保存,便于用户进行模型的调试与调优;适配使用vLLM的benchmark工具进行性能测试。详细描述请参考调试方法性能测试

新模型

  • DeepSeek 系列模型:

    • [已支持] DeepSeek-V3、DeepSeek-R1、DeepSeek-R1 W8A8量化模型;

  • Qwen2.5 系列模型:

    • [已支持] Qwen2.5:0.5B、1.5B、3B、7B、14B、32B、72B;

    • [测试中] Qwen2.5-VL:3B、7B、32B、72B;

  • Qwen3 系列模型:

    • [已支持] Qwen3:32B;Qwen3-MOE:235B-A22B;

    • [测试中] Qwen3:0.6B、1.7B、4B、8B、14B;Qwen3-MOE:Qwen3-30B-A3

  • QwQ 系列模型:

    • [测试中] QwQ:32B

  • Llama 系列模型:

    • [测试中] Llama3.1:8B、70B、405B

    • [测试中] Llama3.2:1B、3B

贡献者

感谢以下人员做出的贡献:

alien_0119、candyhong、can-gaa-hou、ccsszz、cs123abc、dayschan、Erpim、fary86、hangangqiang、horcham_zhq、huandong、huzhikun、i-robot、jiahaochen666、JingweiHuang、lijiakun、liu lili、lvhaoyu、lvhaoyu1、moran、nashturing、one_east、panshaowu、pengjingyou、r1chardf1d0、tongl、TrHan、tronzhang、TronZhang、twc、uh、w00521005、wangpingan2、WanYidong、WeiCheng Tan、wusimin、yangminghai、yyyyrf、zhaizhiqiang、zhangxuetong、zhang_xu_hao1230、zhanzhan1、zichun_ye、zlq2020

欢迎以任何形式对项目提供贡献!