mindscience.distributed.manager.initialize_parallel

mindscience.distributed.manager.initialize_parallel(tensor_parallel_size=1, context_parallel_size=1, order='tp-cp-dp')[源代码]

初始化分布式训练的并行通信组。

此函数创建并初始化分布式训练中不同模型并行(张量、序列、数据和流水线)使用的正交通信组。 它设置后端通信组,以便代码可以查询每个并行的组大小、排名和名称。调用该函数前需要初始化 MindSpore通信服务需要的分布式后端。

参数:
  • tensor_parallel_size (int, 可选) - 张量并行的大小。默认值:1

  • context_parallel_size (int, 可选) - 序列并行的大小。默认值:1

  • order (str, 可选) - 指定计算正交分区时维度顺序的连字符分隔字符串,例如 "tp-cp-dp"。 顺序决定了所有卡如何分解为用于形成通信组组的多维索引。默认值:"tp-cp-dp"

异常:
  • RuntimeError - 如果卡的总数不能被并行组大小的乘积整除。