# 比较与torch.nn.Transformer的功能差异 [![查看源文件](https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/website-images/r1.8/resource/_static/logo_source.png)](https://gitee.com/mindspore/docs/blob/r1.8/docs/mindspore/source_zh_cn/note/api_mapping/pytorch_diff/Transformer.md) ## torch.nn.Transformer ```python torch.nn.Transformer(d_model=512, nhead=8, num_encoder_layers=6, num_decoder_layers=6, dim_feedforward=2048, dropout=0.1, activation=, custom_encoder=None, custom_decoder=None, layer_norm_eps=1e-05, batch_first=False, norm_first=False, device=None, dtype=None) ``` 更多内容详见[torch.nn.Transformer](https://pytorch.org/docs/1.5.0/nn.html#torch.nn.Transformer)。 ## mindspore.nn.transformer.Transformer ```python class mindspore.nn.transformer.Transformer(hidden_size, batch_size, ffn_hidden_size, src_seq_length, tgt_seq_length, encoder_layers=3, decoder_layers=3, num_heads=2, attention_dropout_rate=0.1, hidden_dropout_rate=0.1, hidden_act="gelu", post_layernorm_residual=False, layernorm_compute_type=mstype.float32, softmax_compute_type=mstype.float32, param_init_type=mstype.float32, lambda_func=None, use_past=False, moe_config=default_moe_config, parallel_config=default_transformer_config)( encoder_inputs, encoder_masks, decoder_inputs=None, decoder_masks=None, memory_mask=None, init_reset=True, batch_valid_length=None ) ``` 更多内容详见[mindspore.nn.transformer.Transformer](https://www.mindspore.cn/docs/zh-CN/r1.8/api_python/mindspore.nn.transformer.html#mindspore.nn.transformer.Transformer)。 ## 使用方式 mindspore.nn.transformer.Transformer在初始化参数和torch.nn.Transformer并不完全相同,但是基本功能保持一致。是因为mindspore.nn.Transformer提供了更多细粒度的控制以及并行配置,可以轻松的实现并行训练。其中的主要区别概括如下: | mindspore.nn.transformer.Transformer | torch.nn.Transformer | 说明 | | --------------------------------- | -------------------- | ------------------------------------------------------------ | | hidden_size | d_model | 参数名称不一致,含义相同。 | | batch_size | | MindSpore需要传入额外的batch size以作校验和增量推理使用。 | | ffn_hidden_size | dim_feedforward | 参数名称不一致,含义相同。 | | src_seq_length | | encoder输入序列长度。 | | tgt_seq_length | | decoder输入序列长度。 | | encoder_layers | num_encoder_layers | encoder的层数,含义相同。 | | decoder_layers | num_decoder_layers | decoder的层数,含义相同。 | | num_heads | nhead | Attention的head数目,含义相同。 | | attention_dropout_rate | dropout | 含义不同。attention_dropout_rate表示在softmax处的dropout,而PyTorch的dropout参数额外控制了隐藏层的dropout rate。 | | hidden_dropout_rate | dropout | 含义不同。hidden_dropout_rate表示在隐藏层处的dropout,而PyTorch的dropout参数额外控制了softmax处的dropout rate。 | | hidden_act | activation | 激活层的类型,含义相同。MindSpore仅支持字符串。 | | post_layernorm_residual | norm_first | 含义不同。MindSpore的该参数表示残差相加对输入是否应用layernorm,而PyTorch表示输入子层时是否先输入layernorm。 | | layernorm_compute_type | | 控制layernorm的计算类型。 | | softmax_compute_type | | 控制attention中softmax的计算类型。 | | param_init_type | | 控制参数初始化的类型。 | | lambda_func | | 控制并行的相关配置,详见API文档。 | | use_past | | 是否使用增量推理。 | | moe_config | | MoE并行的配置参数。 | | parallel_config | | 并行设置的配置参数。 | | | custom_encoder | 用户自定义的encoder。 | | | custom_decoder | 用户自定义的decoder。 | | | layer_norm_eps | layernorm计算时防止初零的数值。 | | | batch_first | 输入输出Tensor中batch是否为第0维度。MindSpore以第0个维度为batch维度,对应于torch.nn.transformer中设置bathc_first=True。 | 除了以上初始化参数不同之外,还有一些前向执行的输入和输出差异如下: - mindspore.nn.transformer.Transformer缺少src_key_padding_mask、tgt_key_padding_mask和memory_key_padding_mask输入。 - mindspore.nn.transformer.Transformer的输入中encoder_mask,decoder_mask是必须输入的。 - mindspore.nn.transformer.Transformer会额外返回encoder和decoder中每层attention的key,value的历史值。 - mindspore.nn.transformer.Transformer中的post_layernorm_residual和torch.nn.transformer中的norm_first的参数对比如下: ```python # PyTorch if norm_fist: x = x + attention(norm(x)) else: x = norm(x + attention(x)) # MindSpore if post_layernorm_residual: x = norm(x) + attention(norm(x)) else: x = x + attention(norm(x)) ``` 另外mindspore.nn.transformer.Transformer在功能上存在如下的差异: - mindspore.nn.transformer.Transformer提供了静态图的增量推理功能。 - mindspore.nn.transformer.Transformer默认采用fp16进行矩阵运算。 PyTorch:实例化Transformer时需要提供的参数较少。 MindSpore:在类初始化的时候,需要提供batch_size、源序列和目标序列的句子长度等额外信息,并且在计算时需要输入encoder_mask和decoder_mask。 ## 代码示例 ```python import numpy as np import mindspore as ms from mindspore.nn.transformer import Transformer model = Transformer(batch_size=32, encoder_layers=1, decoder_layers=1, hidden_size=512, ffn_hidden_size=2048, src_seq_length=10, tgt_seq_length=20) encoder_input_value = ms.Tensor(np.random.rand(32, 10, 512), ms.float32) encoder_input_mask = ms.Tensor(np.ones((32, 10, 10)), ms.float16) decoder_input_value = ms.Tensor(np.random.rand(32, 20, 512), ms.float32) decoder_input_mask = ms.Tensor(np.ones((32, 20, 20)), ms.float16) memory_mask = ms.Tensor(np.ones((32, 20, 10)), ms.float16) output, en_past, de_past = model(encoder_input_value, encoder_input_mask, decoder_input_value, decoder_input_mask, memory_mask) print(output.shape) # output: # (32, 20, 512) import torch transformer_model = torch.nn.Transformer(nhead=16, num_encoder_layers=1, num_decoder_layers=1) src = torch.rand((10, 32, 512)) tgt = torch.rand((20, 32, 512)) output = transformer_model(src, tgt) print(output.shape) # output: # torch.Size([20, 32, 512]) ```