代码
持续优化训练性能和易用性!MindSpore MOE专家大模型预训练技术研讨成功举办

持续优化训练性能和易用性!MindSpore MOE专家大模型预训练技术研讨成功举办

持续优化训练性能和易用性!MindSpore MOE专家大模型预训练技术研讨成功举办

MindSpore Developer Day 2025于2025年4月12日在杭州举办。本次大会由昇思MindSpore开源社区主办,聚焦AI框架技术创新与开源开发者生态共建,展示其端到端全流程支持DeepSeek等MoE大模型训练、微调、强化学习与推理部署的技术,以及在科学智能、开发易用性等领域和方向的技术创新与成果。

作为本次大会重要的一环,SIG Gathering吸引了众多开发者的关注。其中,《MindSpore MOE专家大模型预训练技术研讨》专题围绕DeepSeek-V3,开发者们对MindSpore的MOE专家并行、大集群流水负载均衡、性能优化等关键技术支持和演进展开研讨,同时对MindSpore在动态图上的关键能力和进展进行深入的讨论,现场气氛热烈。

昇思MindSpore技术专家陈子恒分享了昇思MindSpore对于DeepSeek-V3高性能分布式训练的支持能力,包括多维混合并行的设计和高性能Dropless MoE的实现;同时介绍了昇思MindSpore针对DeepSeek-V3的通信和流水线并行的优化方法。

昇思MindSpore技术专家何青林介绍了MindSpore Transformers大模型套件与使用MindSpore Transformers在大规模集群上拉起DeepSeek-V3预训练的案例,并展示了MindSpore Transformers在预训练方面的功能特性。

昇思MindSpore技术专家王嘉霖分享了MindSpore动态图兼容Megatron-LM预训练库的方案,介绍了兼容方案的背景和实现设计,并展示了兼容方案实际的使用样例。

开发者围绕MindSpore对DeepSeek-V3训练的优化手段和训练的解决方案展开讨论,提出性能优化的方法论、易用性等问题,并明确了持续优化训练性能和调优易用性的工作方向。

本次会议上,开发者们围绕昇思MindSpore贡献了大量宝贵想法和建议,昇思MindSpore开源社区的繁荣发展离不开每一位SIG组成员的贡献,从而实现“百花齐放”。