比较与torchtext.data.functional.simple_space_split的差异

torchtext.data.functional.simple_space_split

torchtext.data.functional.simple_space_split(iterator)

更多内容详见torchtext.data.functional.simple_space_split。

mindspore.dataset.text.WhitespaceTokenizer

class mindspore.dataset.text.WhitespaceTokenizer(with_offsets=False)

更多内容详见mindspore.dataset.text.WhitespaceTokenizer。

使用方式

PyTorch：基于空白字符对输入的字符串进行分词。

MindSpore：基于空白字符对输入的字符串进行分词。

分类	子类	PyTorch	MindSpore	差异
参数	参数1	-	with_offsets	是否输出token的偏移量

代码示例

# PyTorch
from torchtext.data.functional import simple_space_split

list_a = "sentencepiece encode as pieces"
result = simple_space_split([list_a])
print(list(result))
# Out: [['sentencepiece', 'encode', 'as', 'pieces']]

# MindSpore
import mindspore.dataset.text as text

result = text.WhitespaceTokenizer()(list_a)
print(list(result))
# Out: ['sentencepiece', 'encode', 'as', 'pieces']