昇思MindSpore全流程支持DeepSeek V3满血版训推
2025/02/11
昇思MindSpore全流程支持DeepSeek V3满血版训推
继昇思MindSpore支持在昇腾集群上训练和推理DeepSeek V3 671B,DeepSeek V3昇思MindSpore版本新增微调能力同步上线,至此昇思MindSpore可全流程端到端支持DeepSeek V3训推。
开源链接
- · 昇思MindSpore开源社区
- DeepSeek V3训练微调代码:
- https://gitee.com/mindspore/mindformers/tree/dev/research/deepseek3
- · 魔乐社区
- DeepSeek V3推理代码:
- https://modelers.cn/models/MindSpore-Lab/DeepSeek-V3
链接中包含完整的手把手教程,助力开发者开箱即用
DeepSeek V3昇思微调能力上线
MindSpore Transformers支持对DeepSeek V3进行全参微调。通过以下步骤,即可在单台Atlas 800T A2(64G)上快速拉起微调流程。
① 环境准备→②数据集准备→③模型权重准备→④修改配置→⑤拉起任务
在使用模型中,有任何疑问和建议,均可通过社区进行反馈。
昇思MindSpore开源社区DeepSeek V3使用问题讨论issue:
https://gitee.com/mindspore/mindformers/issues/IBL0X5?from=project-issue
昇腾社区昇思论坛DeepSeek V3使用问题讨论帖:
https://www.hiascend.com/forum/thread-02112174450796469017-1-1.html