比较与torchtext.data.functional.simple_space_split的差异
torchtext.data.functional.simple_space_split
torchtext.data.functional.simple_space_split(iterator)
mindspore.dataset.text.WhitespaceTokenizer
class mindspore.dataset.text.WhitespaceTokenizer(with_offsets=False)
使用方式
PyTorch:基于空白字符对输入的字符串进行分词。
MindSpore:基于空白字符对输入的字符串进行分词。
| 分类 | 子类 | PyTorch | MindSpore | 差异 | 
|---|---|---|---|---|
| 参数 | 参数1 | - | with_offsets | 是否输出token的偏移量 | 
代码示例
# PyTorch
from torchtext.data.functional import simple_space_split
list_a = "sentencepiece encode as pieces"
result = simple_space_split([list_a])
print(list(result))
# Out: [['sentencepiece', 'encode', 'as', 'pieces']]
# MindSpore
import mindspore.dataset.text as text
result = text.WhitespaceTokenizer()(list_a)
print(list(result))
# Out: ['sentencepiece', 'encode', 'as', 'pieces']