AI模型训练的“新大陆”!MindSpore强化学习、蒸馏与R1复现技术研讨成功举办
AI模型训练的“新大陆”!MindSpore强化学习、蒸馏与R1复现技术研讨成功举办
MindSpore Developer Day 2025于2025年4月12日在杭州举办。本次大会由昇思MindSpore开源社区主办,聚焦AI框架技术创新与开源开发者生态共建,展示其端到端全流程支持DeepSeek等MoE大模型训练、微调、强化学习与推理部署的技术,以及在科学智能、开发易用性等领域和方向的技术创新与成果。
作为本次大会重要的一环,SIG Gathering吸引了众多开发者的关注。其中,《MindSpore强化学习、蒸馏与R1复现技术研讨》专题围绕MindSpore对后训练过程中使用强化学习与蒸馏等关键技术的最新进展,开发者们对MindSpore RLHF和MindSpore Transformers等套件针对强化学习和蒸馏等后训练关键技术的优化路径展开深入的讨论,现场气氛热烈。

昇思MindSpore技术专家钱驾宏分享了DeepSeek-R1强化学习的技术路线以及业内类O1模型的洞察,和强化学习对于模型提升的效果的技术路线的可行性。他深度剖析了MindSpore RLHF强化学习套件的基础架构,详细介绍了套件GRPO算法实现和使用细节;介绍了vLLM服务化组件、训推模型在线细粒度更新。
招商银行人工智能实验室智能算法研究员支裕铎介绍了大模型在金融场景的挑战,并指出了在垂直行业需要训练专业任务模型,直接产生业务价值,需要提升推理效率,缩小部署成本。他介绍了金融行业对大模型的需求场景,并分享了招行基于MindSpore Transformers全流程部署Qwen系列的预训练、微调以及蒸馏业务;详细了阐述了如何基于MindSpore配置化调试并行策略与重计算,并在Qwen上取得了MFU 45%的训练效率。同时,支裕铎研究员也带来了招行基于大模型蒸馏微调技术在金融知识库、安全合规业务的应用案例作为开发实践参考。

昇思布道师陈嘉浩为大家介绍了蒸馏训练小模型的发展历程,以及小模型黑盒蒸馏的竞争力,并介绍基于MindSpore Transformers进行Qwen2.5蒸馏训练的流程。

开发者围绕大规模专家并行方案、LoRA低参微调的资源消耗、权重重排等展开讨论,针对强化学习的接口设计、金融行业蒸馏的数据、应用、评测等方向提出了问题和建议,明确了强化学习套件在后面整体端到端训练评测流程、接口易用性、算法丰富度等方面的工作方向。
本次会议上,开发者们围绕昇思MindSpore贡献了大量宝贵想法和建议,昇思MindSpore开源社区的繁荣发展离不开每一位SIG组成员的贡献,从而实现“百花齐放”。