[{"data":1,"prerenderedAt":185},["ShallowReactive",2],{"content-query-HD8oXjxgJF":3},{"_path":4,"_dir":5,"_draft":6,"_partial":6,"_locale":7,"title":8,"description":9,"date":10,"cover":11,"type":12,"body":13,"_type":179,"_id":180,"_source":181,"_file":182,"_stem":183,"_extension":184},"/news/zh/3812","zh",false,"","性能大幅提升、任务中断快速恢复！昇思MindSpore助力中国移动MoE大模型训练加速","显著提升了模型训练速度，为行业树立了高效智能计算的新标杆","2025-08-11","https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2025/08/22/7b05aaba55764298bade06438c3fba74.png","news",{"type":14,"children":15,"toc":162},"root",[16,24,30,35,53,58,68,73,85,90,104,109,124,129,138,143,152,157],{"type":17,"tag":18,"props":19,"children":21},"element","h1",{"id":20},"性能大幅提升任务中断快速恢复昇思mindspore助力中国移动moe大模型训练加速",[22],{"type":23,"value":8},"text",{"type":17,"tag":25,"props":26,"children":27},"p",{},[28],{"type":23,"value":29},"在人工智能技术飞速发展的今天，大型语言模型已成为推动产业智能化升级的核心引擎。随着模型参数规模突破万亿级别，传统密集模型面临训练成本高、推理延迟大等挑战，混合专家模型(MoE)凭借其动态激活特性，成为平衡模型规模与计算效率的关键技术路径。然而，MoE模型在分布式训练中面临的通信瓶颈和算力利用率问题，严重制约了训练速度的提升；同时，在超大规模集群训练场景下，故障导致的训练中断和恢复耗时问题，也成为影响整体训练效率的关键瓶颈。",{"type":17,"tag":25,"props":31,"children":32},{},[33],{"type":23,"value":34},"针对这些行业痛点，中国移动九天团队基于华为开源的昇思MindSpore AI框架与昇腾AI硬件，在混合专家模型训练性能与大规模集群故障恢复效率方面取得重大突破，不仅显著提升了模型训练速度，更将故障恢复时间从1小时缩短至13分钟以内，为行业树立了高效智能计算的新标杆。",{"type":17,"tag":36,"props":37,"children":39},"h2",{"id":38},"_01-三大创新显著提升训练性能",[40,46,48],{"type":17,"tag":41,"props":42,"children":43},"strong",{},[44],{"type":23,"value":45},"# 01",{"type":23,"value":47}," ",{"type":17,"tag":41,"props":49,"children":50},{},[51],{"type":23,"value":52},"三大创新，显著提升训练性能",{"type":17,"tag":25,"props":54,"children":55},{},[56],{"type":23,"value":57},"混合专家模型(MoE)凭借其\"术业有专攻\"的设计理念，通过动态路由机制将任务分配给擅长不同领域的子模型处理，已成为平衡大模型规模与计算效率的首选架构。中国移动九天团队基于昇思MindSpore AI框架，针对MoE模型训练中的关键瓶颈问题，提出了三项核心技术优化方案，实现了训练性能的全面提升。",{"type":17,"tag":59,"props":60,"children":62},"h3",{"id":61},"_1机间通信合并优化方案显著降低跨机通信量",[63],{"type":17,"tag":41,"props":64,"children":65},{},[66],{"type":23,"value":67},"1、机间通信合并优化方案，显著降低跨机通信量",{"type":17,"tag":25,"props":69,"children":70},{},[71],{"type":23,"value":72},"在传统MoE模型分布式训练中，专家跨节点分布导致的AlltoAll通信成为主要瓶颈。中国移动九天人工智能研究院联合昇思MindSpore创新机间通信合并优化方案，采用跨机AllGather替代部分AlltoAll通信，先同步必要tokens至机内完成排序聚合，再执行高效的机内AlltoAll通信。这一优化使跨机通信量显著降低，端到端性能提升20%。",{"type":17,"tag":59,"props":74,"children":76},{"id":75},"_2自动图算融合技术提升融合算子计算性能",[77],{"type":17,"tag":41,"props":78,"children":79},{},[80],{"type":17,"tag":41,"props":81,"children":82},{},[83],{"type":23,"value":84},"2、自动图算融合技术，提升融合算子计算性能",{"type":17,"tag":25,"props":86,"children":87},{},[88],{"type":23,"value":89},"针对MoE模型中dispatch、combine流程存在大量低效vector算子计算的问题，中国移动应用自动图算融合技术，扩展支持Cube类算子(如GroupMatmul/BatchMatMul)融合，通过激活高阶融合策略，实现Cube核和Vector核计算的互相掩盖。这一技术突破减少内存搬运，提升融合算子计算性能，端到端性能再提升15%。",{"type":17,"tag":59,"props":91,"children":93},{"id":92},"_3自动策略搜索与流水负载均衡最优训练策略配置",[94,96],{"type":23,"value":95},"****3、****",{"type":17,"tag":41,"props":97,"children":98},{},[99],{"type":17,"tag":41,"props":100,"children":101},{},[102],{"type":23,"value":103},"自动策略搜索与流水负载均衡，最优训练策略配置",{"type":17,"tag":25,"props":105,"children":106},{},[107],{"type":23,"value":108},"中国移动九天人工智能研究院基于昇思MindSpore实践的自动策略搜索与流水负载均衡系统，能够智能探索超参空间，快速锁定最优配置。在九天模型训练中，这一系统相比人工调优实现端到端性能提升8%，让AI训练真正进入\"自动驾驶\"时代。",{"type":17,"tag":36,"props":110,"children":112},{"id":111},"_02-双向突破倍增大规模集群故障恢复效率",[113,118,119],{"type":17,"tag":41,"props":114,"children":115},{},[116],{"type":23,"value":117},"# 02",{"type":23,"value":47},{"type":17,"tag":41,"props":120,"children":121},{},[122],{"type":23,"value":123},"双向突破，倍增大规模集群故障恢复效率",{"type":17,"tag":25,"props":125,"children":126},{},[127],{"type":23,"value":128},"在追求训练性能突破的同时，中国移动九天团队深刻认识到：大规模AI集群的稳定性与运维效率同样是决定生产效率的关键因素。传统故障恢复方案因需重新加载海量参数、重建通信链路等操作，耗时通常超过1小时，严重制约了训练任务的连续性。",{"type":17,"tag":59,"props":130,"children":132},{"id":131},"_1异步并发建链技术",[133],{"type":17,"tag":41,"props":134,"children":135},{},[136],{"type":23,"value":137},"1、异步并发建链技术",{"type":17,"tag":25,"props":139,"children":140},{},[141],{"type":23,"value":142},"中国移动九天团队深入分析大模型训练特点，采用算子通信预建链、异步通信建链等创新功能，实现主机通信建链的异步并发能力，大幅降低超大规模集群的主机建链耗时。",{"type":17,"tag":59,"props":144,"children":146},{"id":145},"_2编译加速双引擎",[147],{"type":17,"tag":41,"props":148,"children":149},{},[150],{"type":23,"value":151},"2、编译加速双引擎",{"type":17,"tag":25,"props":153,"children":154},{},[155],{"type":23,"value":156},"通过并行编译与编译缓存关键技术，中国移动实现了模型训练启动时的快速编译以及缓存复用。最终，大规模集群故障恢复时间从1小时锐减至13分钟以内，集群可用度高达99%。",{"type":17,"tag":25,"props":158,"children":159},{},[160],{"type":23,"value":161},"随着AI技术深入千行百业，高效、稳定、自主创新的大模型训练平台将成为智能时代的基础设施。中国移动与昇思MindSpore的合作范例，为行业提供了可复制的技术路径，将加速推动我国人工智能产业从跟随创新向引领创新的历史性跨越。在不久的将来，这种\"性能与效率并重\"的技术理念，必将孕育出更多突破性成果，为中国AI生态的繁荣发展注入强劲动力。",{"title":7,"searchDepth":163,"depth":163,"links":164},4,[165,174],{"id":38,"depth":166,"text":167,"children":168},2,"# 01 三大创新，显著提升训练性能",[169,171,172],{"id":61,"depth":170,"text":67},3,{"id":75,"depth":170,"text":84},{"id":92,"depth":170,"text":173},"****3、****自动策略搜索与流水负载均衡，最优训练策略配置",{"id":111,"depth":166,"text":175,"children":176},"# 02 双向突破，倍增大规模集群故障恢复效率",[177,178],{"id":131,"depth":170,"text":137},{"id":145,"depth":170,"text":151},"markdown","content:news:zh:3812.md","content","news/zh/3812.md","news/zh/3812","md",1776506089876]