MindSpore AI科学计算系列(36):MPI高阶特性和科学计算案例
MindSpore AI科学计算系列(36):MPI高阶特性和科学计算案例
一.MPI基本情况
MPI(Message Passing Interface)即消息传递接口,是消息传递函数库的标准规范,由MPI论坛开发,是科学计算和高性能计算最常用最重要的并行分布式接口之一。MPI属于OSI参考模型的第五层或更高,通常底层通过传输层的Sockets或TCP实现。
MPI从1994年提出1.0版本,引进了基本的消息传递概念,到1997年演进到2.0版本,增加了单边通信和并行 I/O 特性,至此定义了MPI的基本接口功能集。从3.0 版本开始逐渐加入众多提升性能和扩展使用场景的接口,如 非阻塞集合通信、近邻集合通信、共享内存扩展、近邻集合通信、MPI_T接口扩充等。近年发布的4.0和4.1版本, 特性进一步增强,如支持混合编程模型的扩展、容错性、持久化集合,性能断言和提示、RMA/单边通信等,足以支撑大型分布式超级应用。
二.实现版本和主要特性支持
MPI比较流行的实现版本为MPICH、Open MPI及MVAPICH等,此外各个厂商也会在自有芯片或系统的基础上加入特定优化而制定版本,如Intel、IBM、Microsoft等。目前较为成熟的MPI 3.1有较多厂商的支持和实现,而MPI 4.0目前支持较好的只有MPICH、Open MPI,但其主要功能也都有覆盖。

图1 MPI 3.1实现软件概况

图2 MPI 4.0实现软件概况
三.MPI 高阶特性
(1)**共享内存。**MPI 1和MPI 2 不支持直接共享内存,只能通过消息传递的方式读取或更新,但本质上进程之间内存空间不共享,不能以常规方式加载和存储。这些进程间的显式消息传递和远端内存访问操作都需要额外的内存复制,这降低了内存性能并增加了内存消耗。MPI 3开始将共享内存窗口的部分内存空间暴露给其他进程,这种可移植的内存共享机制允许在统一的编程模式下进行常规的MPI操作和共享内存操作,避免使用了外部共享内存编程模型带来的问题。
(2)**混合编程。**为了应对大量CPU、CPU核、GPU等加速硬件的混合架构, MPI从3.0开始新增混合编程特性,使其可以更好地处理节点和数据并行编程模型。比较常见的为MPI + OpenMP,可以进行节点级和线程级的混合并行,此外和pthreads混合也是一种常见方式。MPI还提供了一定级别的线程安全编程接口MPI_Thread_init,分别支持MPI_THREAD_SINGLE(单线程场景)、MPI_THREAD_FUNNELLED(循环场景)和MPI_THREAD_MULTIPLE(完全多线程场景) 。

图3 MPI + OpenMP混合编程模型示意图
(3)**容错性。**MPI 4提供的关键特性,主要提供可移植的应用容错和快速恢复机制。在每个迭代,MPI和应用的状态数据均会被记录Checkpoint,当出现失败时支持从最近的Checkpoint恢复

图4 MPI 4 容错机制示意图
(4) **RMA/单边通信。**单边通信是指将数据交换和同步进行解耦,交换数据时不需要远端进程进行同步。这使得一些不规则的通信模式(Communication Pattern)更容易实现,不需要额外的步骤来确定需要进行多少次 Send/Recv。如果系统硬件支持远端内存访问(Remote Memory Access, RMA),则可以获得比 Send/Recv更好的性能。单边通信特性从MPI 3开始提供,并在MPI 4进一步优化增强。

图5 双边通信VS单边通信示意图
四.MPI在科学计算的案例
(1)气象模拟
在天气模拟中,大气层可以看作一个三维球面,模拟时需要计算全球各个网格点温度、湿度、风速、降水、气压等,使用MPI可以将全球的网格点划分成若干个子区域,然后将子区域划分到不同的计算节点上,进行并行计算和模拟。由于各个网格在模拟过程中,边界互相影响,所以需要将边界一定范围内的数据进行信息交换,在每个模拟时间步上。通过利用MPI进行并行计算和数据通信,可以实现天气模拟的加速,预报的准确性和效率。但根据实践,使用MPI的基本操作并不足以使模拟系统达到高性能,如通信的正交性和适当的缓存使用之间往往会产生不平衡,需要研究者自行设计进程分配策略。针对模拟中边界数据量大的情形,则需要使用单边异步和RMA共享内存等来进行计算和通信的互相掩盖。
(2)分子动力学模拟
分子动力学通过模拟分子体系的运动,不仅可以得到原子的运动轨迹,观察原子运动过程中各种微观细节,还可以由体系的不同构成状态中抽取样本进一步计算热力学性质等其它宏观性质。分子动力学模拟的准确度取决于原子在运动过程中受到环境以及自身体系其它原子的相互作用,这种相互可以用量子力学的理论描述,也可以采用经验性的方法计算,还可以使用近年流行的AI4SCI方法使用神经网络进行推理计算,根据相互作用的近似程度不同,研究范围从几个原子到几千几万个原子甚至上亿个原子不等。
对于大体系分子模拟,往往根据几何空间将其划分成若干个网格区域,并假设受力仅受在当前网格区域和周围邻域影响,这样便可将庞大的体系按照网格域将计算分解到不同的计算节点。在每个时间步骤或每几个时间步骤,由于原子运动等,导致网格区域内所属原子发生变化及邻域发生变动,需要使用MPI通信交换数据,由于邻域会被周围的多个区域共享或被不规则划分共享,导致数据同步需要MPI的机制精确地进行,防止脏读脏写等。
(3)流体力学仿真
流体力学仿真原理是基于一系列的控制方程,由于N-S等方程组的求解极为困难,因此在实际应用中常常采用有限体积或有限元的数值解法来求解。具体就是通过将流体分割成很多很小的体积单元,即网格,然后对每一个网格进行力学特性的计算和模拟。
流体力学仿真种常用到的几种并行方式包括数据并行,任务并行和混合并行。数据并行如OpenMP,计算域不分区但内存共享,各线程计算同一个分区上的不同数据,该方式实现简单,但可扩展度小。任务并行如MPI,计算域分区但内存不共享,各进程独立计算对应分区,分区间进行MPI通信,该方式适合大规模扩展但实现较为复杂,对软件架构要求也较高。混合并行则是MPI + OpenMP的方式,节点内用OpenMP跨节点则选用MPI,在保证通信效率的同时也适合大规模扩展,该方式还可进一步分为粗粒度混合并行和细粒度混合并行,具体可参考国产CFD软件风雷相关文档。
参考文献
[2] https://github.com/mpiwg-ft/ft-issues/blob/master/slides/MPI_Stages.pdf
[3] HE Qiang, LI Yongjian, HUANG Weifeng, LI Decai, HU Yang, WANG Yuming. Parallel simulations of large-scale particle-fluid two-phase flows with the lattice Boltzmann method based on an MPI+OpenMP mixed programming model. Journal of Tsinghua University (Science and Technology), 2019, 59(10): 847-853.
[4] https://spcl.inf.ethz.ch/Publications/.pdf/hoefler-hpcac19-fompi-spin.pdf