高效数据流转

在传统的机器学习场景中，数据处理与模型训练过程相对独立。如下图所示，数据处理过程后需要对数据进行持久化的存储，使用数据时再从磁盘中读取数据。当处理的数据量较大时，读写磁盘将会耗费大量的时间。在对数据使用时效性较高的场景中，会带来较高的时延。

MindSpore Pandas的channel模块提供了基于共享内存的数据流转方案。如下图所示，经过处理的数据被保存在基于共享内存的数据系统中，其本质上为一个key-value数据仓库。用户只需要将数据的处理进程和模型训练进程连接至同一数据系统，并且在数据处理后将数据所对应的键值发送给模型训练进程，后者就可以从数据系统中取得对应的数据。

实现原理

MindSpore Pandas的channel模块将进程间数据传送的过程抽象为一个管道。如下图所示，被传输的数据由分布式执行引擎中的一个Instance进程统一管理。Instance内部维护了一个或多个队列，用来保存尚未被接收端接收的数据的key。channel模块对用户提供DataSender和DataReceiver两个类。当DataSender的 send 接口被调用时，被发送的数据对应的key会被追加到对应队列的末尾。当DataReceiver的 recv 接口被调用时，它会从队列的头部取得最早被放入的数据的key。随后DataReceiver使用该key从数据系统的共享内存中取得数据。

多Receiver场景

MindSpore Pandas的channel支持一个DataSender对应多个DataReceiver，每个DataReceiver会取得DataSender发送的数据的一个分片。在此场景下，初始化DataSender时需要用户配置 num_shards 参数为DataReceiver的数量。在发送数据时，DataSender会均匀的将数据切分为 num_shards 个分片。在初始化DataReceiver时需要配置 shard_id 参数，指定当前接收端取得的分片编号。

使用说明

API说明请参考mindpandas.channel。

使用样例请参考在线学习。