mindspore.transform_checkpoint_by_rank

mindspore.transform_checkpoint_by_rank(rank_id, checkpoint_files_map, save_checkpoint_file_name, src_strategy_file=None, dst_strategy_file=None)[源代码]

将一个分布式网络的Checkpoint由源切分策略转换到目标切分策略，对特定一个rank进行转换。关于更多分布式Checkpoint转换的细节，请参考：分布式弹性训练与推理。

参数：

rank_id (int) - 待转换得到的Checkpoint的rank号。
checkpoint_files_map (dict) - 源Checkpoint字典，其key为rank号，值为该rank号对应的Checkpoint文件路径。
save_checkpoint_file_name (str) - 目标Checkpoint路径以及名字。
src_strategy_file (str) - 源切分策略proto文件名，由mindspore.set_auto_parallel_context(strategy_ckpt_save_file)接口存储下来的文件。当其为None时，表示切分策略为不切分。默认值：None。
dst_strategy_file (str) - 目标切分策略proto文件名，由mindspore.set_auto_parallel_context(strategy_ckpt_save_file)接口存储下来的文件。当其为None时，表示切分策略为不切分。默认值：None。

异常：

ValueError - src_strategy_file 或者 dst_strategy_file 不是正确的切分策略proto文件。
ValueError - checkpoint_files_map 内的元素不是正确的Checkpoint文件。
ValueError - save_checkpoint_file_name 不以“.ckpt”结尾。
TypeError - checkpoint_files_map 不是一个字典。
TypeError - src_strategy_file 或者 dst_strategy_file 不是字符串。
TypeError - rank_id 不是一个整数。
TypeError - save_checkpoint_file_name 不是字符串。

样例：

>>> dst_device_num = 8
>>> for rank_id in range(dst_device_num)
>>>     rank_list = rank_list_for_transform(rank_id, "./src_strategy.ckpt", "./dst_strategy.ckpt")
>>>     checkpoint_files_map = {}
>>>     for rank in rank_list:
>>>         checkpoint_files_map[rank] = "./origin_checkpoint_rank{}/pangu{}-100_2.ckpt".format(rank)
>>>     save_checkpoint_file_name = "./new_checkpoint_rank{}/pangu{}-100_2.ckpt".format(rank_id)
>>>     transform_checkpoint_by_rank(rank_id, checkpoint_files_map, save_checkpoint_file_name,
...                                  "./src_strategy.ckpt", "./dst_strategy.ckpt")