Release Notes

查看源文件

MindSpore 2.2.14 Release Notes

主要特性及增强

Parallel

  • [STABLE] 将流水线并行的send/recv算子通信组改为world_group,避免创建冗余通信组,降低通信所需内存。

  • [STABLE] 优化编译缓存,减少加载缓存时图转换过程,提升使用编译缓存性能。

  • [BETA] 流水并行支持Interleave调度,优化micro batch开不大情况下的模型性能。

  • [BETA] 优化流水线并行场景下模型转换速度,支持单个stage单独转换。

Profiler

  • [BETA] 动态启停profiling,用户可以根据训练情况实时采集profiling数据,减少采集数据量。

  • [BETA] Profiling通信算子耗时矩阵,用户通过分析通信算子耗时矩阵,找出集群通信性能瓶颈。

Dump

  • [BETA] Dump保存的统计信息记录MD5值,用户可以通过MD5值确定张量值的微小差异。

  • [BETA] Dump支持bfloat16数据类型,支撑用户定位bfloat16类型的算子精度问题。

问题修复

  • [#I962EV] 修复了在CPU、GPU 环境上,使用cond接口输入为4d、5d、6d、7d、8d时,正向报错的问题。

  • [#I96E5R] 修复Ascend平台PyNative场景下Mul算子输入为NCHW时报错的问题。

  • [#I96I5D] 修复动态shape场景下,Scalar类型计算时输入类型错误的问题。

  • [#I99QAB] 修复了部分场景下asnumpy接口无法正确识别bfloat16类型Tensor的问题。

  • [#I9ADZS] 修复了故障恢复训练场景中,由于dataset恢复效率低导致网络训练出现数据超时的问题。

  • [#I8Y9JT] 修复了nn.SGD优化器在loss_scale较大,weight_decay较小的部分特定场景下由于优化器执行顺序错误导致的部分网络训练不收敛的问题。

贡献者

感谢以下人员做出的贡献:

fary86, wanghenchang, haozhang, mengyuanli, emmmmtang, luoyang, zhupuxu, zhangyongxian, liuluobin, LLLRT, TuDouNi, hujiahui8, wangtongyu6, ligan, zhuguodong, yanghaoran, YingtongHu, liyejun, zjun, 徐永飞, chuht, 张树仁, 徐安越, DeshiChen, shenyaxin, liujunzhu, shunyuanhan, yuchaojie, yao_yf, 没有窗户的小巷, yeyunpeng2020, weiyang, KevinYi, hedongdong, zhouyaqiang0, Margaret_wangrui, zhanghaibo, moran, huangziling, 朱家兴, GuoZhibin, 李良灿, jiaxueyu, gaoyong10, Greatpan, 宦晓玲, melody, 俞涵, jiangshanfeng, XinDu, ling, caifubi, zhangyinxia, gengdongjie, Erpim, XianglongZeng, zhangminli, fengyixing, 冯一航, 黄勇, panzhihui, 胡彬, linqingke, wangshaocong

欢迎以任何形式对项目提供贡献!

MindSpore 2.2.13 Release Notes

API变更

增加动态组网场景下各类超时时间环境变量配置:

  • MS_TOPO_TIMEOUT: 集群组网阶段超时时间,单位:秒。

  • MS_CLUSTER_RETRY_NUM:集群组网阶段节点重试注册次数。

  • MS_NODE_TIMEOUT:节点心跳超时时间,单位:秒。

  • MS_RECEIVE_MSG_TIMEOUT:节点接收消息超时时间,单位:秒。

问题修复

  • [#I9CR96] 修复在大规模集群下,动态组网启动方式的超时时间不足导致集群启动失败的问题。

贡献者

感谢以下人员做出的贡献:

ZPaC, limingqi107, lizhenyu, jiangshanfeng

欢迎以任何形式对项目提供贡献!

MindSpore 2.2.12 Release Notes

主要特性及增强

  • [STABLE] 针对网络参数以fp32初始化以及开启优化器并行的场景,降低Cast算子数目。

  • [STABLE] 增加对静默故障的检测和处理能力;静默故障会导致训练过程异常,该特性帮助用户避免或大幅降低因静默故障导致的集群停机巡检进行故障定位带来的损失。

问题修复

  • [#I97D1L] 修复 ReduceLROnPlateau、LRScheduler、CosineAnnealingWarmRestarts动态学习率相关接口样例错误。

  • [#I970HV] 修复多卡之间的allgather/reducescatter不保序问题。

  • [#I99JPI] 修复checkpoint在模糊匹配场景下加载类型为bfloat16 parameter的 bug。

贡献者

感谢以下人员做出的贡献:

yao_yf, YijieChen, 冯一航, yuchaojie, 李良灿, YuJianfeng, huangxinjing, GuoZhibin, looop5

欢迎以任何形式对项目提供贡献!

MindSpore 2.2.11 Release Notes

主要特性及增强

scipy

  • [STABLE] 新增scipy模块API mindspore.scipy.optimize.linear_sum_assignment,用于解决线性和分配问题,它可以基于一个给定的成本矩阵,找到一个成本最低的分配方案。

问题修复

  • [#I8JVRU] 修复bernoulli随机数算子在GPU上跑两次的结果出现概率性一致的问题。

  • [#I8OC32] 修复MatrixSetDiagV3算子未校验异常输入,导致segmentation fault问题。

贡献者

感谢以下人员做出的贡献:

fary86, wanghenchang, haozhang, mengyuanli, emmmmtang, luoyang, zhupuxu, zhangyongxian, liuluobin, LLLRT, TuDouNi, hujiahui8, wangtongyu6, ligan, zhuguodong, yanghaoran, YingtongHu, liyejun, zjun, 徐永飞, chuht, 张树仁, 徐安越, DeshiChen, shenyaxin, liujunzhu, shunyuanhan, yuchaojie, yao_yf, 没有窗户的小巷, yeyunpeng2020, weiyang, KevinYi, hedongdong, zhouyaqiang0, Margaret_wangrui, zhanghaibo, moran, huangziling, 朱家兴, GuoZhibin, 李良灿, jiaxueyu, gaoyong10, Greatpan, 宦晓玲, melody, 俞涵, jiangshanfeng, XinDu, ling, caifubi, zhangyinxia, gengdongjie, Erpim, XianglongZeng, zhangminli, fengyixing, 冯一航, 黄勇, panzhihui, 胡彬, linqingke, wangshaocong

欢迎以任何形式对项目提供贡献!

MindSpore 2.2.10 Release Notes

主要特性及增强

算子

  • [STABLE] FastGelu、BatchMatMul、AllReduce、AllGather、Broadcast、ReduceScatter算子支持bfloat16数据类型

  • [STABLE] AllGather支持uint8数据类型

问题修复

  • [#I8ALW3]修复Faster R-CNN、DeepTextMask、RCNN-ResNet50等网络在Ascend 910上8卡训练RandomChoiceWithMask算子报错问题

  • [#I8LKG7]修复UNet-2D在Ascend 910 1卡、8卡图编译报错问题

  • [#I8KU3X]修复CRNN-ResNet34在Ascend 910 1卡、8卡PyNative模式下训练进程卡住问题

  • [#I8KTHH]修复在Ascend 910 8卡上使能enable_parallel_optimizer=True,不使用allreduce分组融合时,BERT网络训练报错问题

贡献者

感谢以下人员做出的贡献:

李林杰, TuDouNi, chengxb7532, Henry Shi, rms-infer-type, 朱家兴, zhouyaqiang0, tanghuikang, gaoyong10, gengdongjie, yao_yf, hujiahui8, hanhuifeng, shenyaxin, KevinYi, 冯一航, chengfeng27, JuiceZ, zhangyanhui, jijiarong, xiaoxiongzhu, 没有窗户的小巷, ling, liyan2022, haozhang, zangqx, xiaoyao, liujunzhu, 胡彬, panzhihui, wangshaocong, linqingke, jianghui58, qiuzhongya, yangruoqi713, zhangminli, moran, 王禹程, shaojunsong, wangtongyu6, zhupuxu, luoyang, 徐安越, qinzheng, caifubi, 徐永飞, chenkang, youshu, XinDu, liubuyu, jxl, yeyunpeng2020, huoxinyou, yefeng, jiaorui, wangpingan, cao1zhg, zjun, zyli2020, yanjiaming, Cynthia叶, 胡安东, 李良灿, liruyu, liuluobin, lihao, huangbingjian, YijieChen, jjfeing, looop5, 刘力力, xiaoxin_zhang, yangluhang, chenweifeng, jiangshanfeng, zichun_ye, 陈宇, NaCN, ligan, YingLai Lin, huangziling, chenjianping, DeshiChen, chengbin, kairui_kou, ccsszz, yanghaoran, zhangdanyang, Yanzhi_YI, zhengzuohe, hangq, TronZhang, wanghenchang, HighCloud, 吕浩宇, VectorSL, ZPaC, mengyuanli, maning202007, 刘勇琪, r1chardf1d0, fary86, 刘崇鸣, yuchaojie, douzhixing, fengyixing

欢迎以任何形式对项目提供贡献!

MindSpore 2.2.1 Release Notes

Bug Fixes

  • [#I7R3R5] 修复昇腾平台ResNet-50网络精度劣化问题。

  • [#I8A9RH] 修复昇腾平台DBNet(ResNet-50)网络精度劣化问题。

  • [#I8B8IW] 修复多维Tensor赋值越界导致段错误的问题。

  • [#I8J0F4] 修复多维Tensor扩展维度在动态图执行失败的问题。

  • [#I87P3P] 修复昇腾平台二次训练编译缓存加载失败的问题。

  • [#I86GP9] 修复昇腾平台UNet3D网络推理精度劣化问题。

  • [#I89B4K] 修复Windows平台动态图动态rank执行卡住的问题。

  • [#I8CX0C] 修复昇腾平台上动态图混合精度模式下偶现失败的问题。

  • [#I8BGCF] 修复昇腾平台AIRNet网络动态图模式下执行出现段错误的问题。

  • [#I8L5DS] 修复昇腾平台ResNet-50图像分割网络动态图执行慢的问题。

贡献者

感谢以下人员做出的贡献:

yufan, dingcheng, lvzhangcheng, zhunaipan, fangwenyi, weiyang, changzherui, chujinjin, zangqingxiang, yuchaojie, wuweikang, tanghuikang, xiaoyao, huangbinjian, zhoupeichen, chenfei_mindspore, hedongdong, wangnan, zhengzuohe, yanghaoran, zouliqin, luoyang, liuchongmin, lujiale, machenggui, wangcong, lixiangyi, wangting, huangyong

欢迎以任何形式对项目提供贡献!

MindSpore 2.2.0 Release Notes

主要特性和增强

DataSet

  • [STABLE] 数据操作map/batch的row_size参数扩展支持传入list,代表[输入共享内存, 输出共享内存],以便在多进程模式时灵活控制共享内存的大小。

  • [STABLE] 为官网API文档页面mindspore.dataset、mindspore.dataset.transforms、mindspore.mindrecord的所有API补充完善样例,方便用户参考。

  • [STABLE] ConcatDataset支持全局采样能力,即使用concat操作组合多来源数据后,可以对数据进行全局随机采样以增强数据多样性。

  • [STABLE] 使用model.train接口训练时,支持通过TimeMonitor(.., data_time=True)实时监控数据处理性能。

  • [STABLE] 引入jemalloc库,解决在极端场景下,因内存碎片回收不及时导致内存缓慢上涨问题。

FrontEnd

  • [STABLE] 支持添加@lazy_inline装饰器来标注Cell生成的子图延迟inline,从而有效提升编译性能。

  • [STABLE] 新增CellDict数据结构,支持构建Dict类型的Cell对象,完善构建网络能力。

  • [STABLE] 混合精度训练的功能优化,支持通过rewrite自动改写python脚本实现混合精度策略,支持函数、分支语句等多种语法自动解析。

  • [STABLE] 动态学习率功能优化,新增MultiStepLR等API;get_lr方法与global_step解耦,扩展优化器模块功能。

  • [STABLE] 优化API代码样例、API差异表以及高阶函数使用教程。

算子

  • [STABLE] 新增算子原语mindspore.ops.Dense

  • [STABLE] 新增随机数算子状态管理功能,使随机数算子可以保存随机数状态,并在模型并行、重计算等场景稳定复现。当前仅支持CPU/GPU平台,涉及的随机数算子包括:mindspore.ops.Multinomialmindspore.ops.MultinomialWithReplacementmindspore.ops.ParameterizedTruncatedNormalmindspore.ops.StandardLaplacemindspore.ops.StandardLaplacemindspore.ops.Uniformmindspore.ops.UniformIntmindspore.ops.UniformRealmindspore.ops.UniformIntmindspore.ops.Dropoutmindspore.ops.RandomChoiceWithMaskmindspore.ops.RandomCategoricalmindspore.ops.RandomShufflemindspore.ops.RandamGammamindspore.ops.RandomPoissonmindspore.ops.TruncatedNormal

  • [STABLE] 当GPU算子遇到非法输入场景,支持在算子的CUDA核函数中异步打印报错日志到Host侧,并中断当前CUDA Stream的执行,提高用户算子问题的定位效率。

PyNative

  • [STABLE] PyNative模式下支持View机制。

  • [STABLE] PyNative模式下功能增强:sens支持dict类型输入。

Ascend

  • [STABLE] 支持用户可配置算子高精度/高性能模式,用户可以通过context.set_context(ascend_config={"op_precision_mode": "/path/to/op_precision_config_file"})对部分TBE算子配置高精度/高性能模式。

  • [BETA] 支持用户可配置fp16进fp32出的算子,用户可以通过context.set_context(ascend_config={"precision_mode": "force_fp32"})对TBE Cube算子配置fp16进fp32出。

  • [BETA] 去除jit level “O3”与GE流程强绑定,用户在执行GE流程时无需再设置jit_level="O3"

Parallel

  • [STABLE] 支持半自动/全自动模式下,非流水线并行场景的梯度累加特性,用户可以通过net = GradAccumulationCell(net, micro_size)方式,对网络使能梯度累加。梯度累加特性同样支持LazyInline编译加速。

推理

自2.2版本起MindSpore主发布包不再提供配套310的推理接口使能,如需使用请切换安装MindSpore Lite发布包或下载MindSpore2.0之前的版本。MindSpore lite的安装部署与用法详见 https://www.mindspore.cn/lite。昇腾(Ascend)310是面向边缘场景的高能效高集成度AI处理器,支持对MindIR格式模型进行推理。原先MindSpore提供了两种在Ascend 310硬件上的推理使能用法:

  1. 由MindSpore主发布包提供配套Ascend 310的版本,支持C++推理接口。

  2. 由MindSpore Lite发布包提供配套Ascend的版本,支持C++/Java两种语言进行推理。

这两种方案提供的C++ API基本一致,后续不再构建和维护两套接口,而是归一使用MindSpore Lite。原有基于MindSpore主发布包构建的310推理业务,可以少量修改切换到MindSpore Lite,详见 https://www.mindspore.cn/docs/zh-CN/r2.2/faq/inference.html

Bug fixes

  • [I7SDA0] 修复了昇腾平台上CRNN网络精度劣化的问题。

  • [I7T4QK] 修复了昇腾平台上wgan网络推理精度劣化问题。

  • [I7TJ8Z] 修复了昇腾平台上lgtm网络推理精度劣化问题。

  • [I7M58O] 修复了昇腾平台上ASR-dynamic网络训练core-dump的问题

  • [I7L6B6] 修复了dataset多进程模式时,子进程在某些场景不退出的问题。

  • [I7L7AE] 修复了dataset处理中包含repeat操作,且dataset.batch中使用动态batch时,batchinfo.get_epoch_num()计算不正确的问题。

  • [I7UY7G] 修复OBSMindDataset中对于文件权限修改的异常的报错。

贡献者

感谢以下人员做出的贡献: bantao, Bingliang, BJ-WANG, Brian-K, caifubi, ccsszz, changzherui, chenfei_mindspore, chengfeng27, chenhaozhe, chenjianping, chenkang, chenweifeng, chuht, chujinjin, CShu0507, Cynthia叶, DeshiChen, douzhixing, Erpim, Etienne, fary86, fengxun, fengyixing, gaoshuanglong, Gaoxiong, gaoyong10, GaoZhenlong, Greatpan, GuoZhibin, guozhijian, hangq, hanhuifeng, haozhang, hedongdong, Henry Shi, HighCloud, Hongxing, huangbingjian, huanghui, huangxinjing, huangziling, hujiahui8, huoxinyou, HWalkingMan, jianghui58, jiangshanfeng, jiaorui, jijiarong, jjfeing, JuiceZ, jxl, KevinYi, kisnwang, KXiong, lanzhineng, Li Qingguo, LiangZhibo, lianliguang, ligan, lihao, Lihoon, limingqi107, ling, linqingke, liruyu, liubuyu, liuchao, liujunzhu, liuluobin, liupeng303, liutongtong9, liyan2022, liyejun, looop5, luochao60, luojianing, luoyang, machenggui, maning202007, Margaret_wangrui, MaZhiming, mengyuanli, moran, NaCN, nomindcarry, panshaowu, panzhihui, qinzheng, qiuzhongya, r1chardf1d0, shaojunsong, shenwei41, shenyaxin, shenzhangyi, Shira Zaloshinski, shunyuanhan, tangdezhi_123, tanghuikang, tan-wei-cheng, tan-wei-cheng-3260, TronZhang, TuDouNi, VectorSL, wang_ziqi, wanghenchang, wangpingan, wangshaocong, wangtongyu6, wtcheng, wujueying, XianglongZeng, xiaotianci, xiaoxin_zhang, xiaoxiongzhu, xiaoyao, xiaoyuanyuan, XinDu, xujinliang, xupan, yanghaoran, yangluhang, yangruoqi713, yangsijia, yangzhenzhang, yangzishuo, yanjiaming, Yanzhi_YI, yao_yf, yefeng, yeyunpeng2020, yide12, YijieChen, YingLai Lin, YingtongHu, yonibaehr, youshu, yuchaojie, YuJianfeng, zangqx, zhaizhiqiang, zhangbuxue, zhangchunlei, zhangdanyang, zhangdong, zhanghaibo, zhangminli, zhangqi, zhangqinghua, zhangyanhui, zhangyifan, zhangyongxian, zhangzhen, zhangzheng, zhanzhan, zhengzuohe, ZhihaoLi, zhoufeng, zhouyaqiang0, zhuguodong, zhupuxu, zichun_ye, zjun, ZPaC, zuochuanyong, zyli2020, 陈宇, 程超, 范吉斌, 冯浩, 冯一航, 胡彬, 宦晓玲, 黄勇, 雷元哲, 黎冠新, 李良灿, 李林杰, 刘崇鸣, 刘力力, 刘思铭, 刘勇琪, 吕浩宇, 没有窗户的小巷, 沈竞兴, 王禹程, 王振邦, 徐安越, 徐永飞, 俞涵, 张澍坤, 周超, 朱家兴

欢迎以任何形式对项目提供贡献!