比较与torchtext.data.functional.simple_space_split的差异

查看源文件

torchtext.data.functional.simple_space_split

torchtext.data.functional.simple_space_split(iterator)

更多内容详见torchtext.data.functional.simple_space_split

mindspore.dataset.text.WhitespaceTokenizer

class mindspore.dataset.text.WhitespaceTokenizer(with_offsets=False)

更多内容详见mindspore.dataset.text.WhitespaceTokenizer

使用方式

PyTorch:基于空白字符对输入的字符串进行分词。

MindSpore:基于空白字符对输入的字符串进行分词。

分类

子类

PyTorch

MindSpore

差异

参数

参数1

-

with_offsets

是否输出token的偏移量

代码示例

# PyTorch
from torchtext.data.functional import simple_space_split

list_a = "sentencepiece encode as pieces"
result = simple_space_split([list_a])
print(list(result))
# Out: [['sentencepiece', 'encode', 'as', 'pieces']]

# MindSpore
import mindspore.dataset.text as text

result = text.WhitespaceTokenizer()(list_a)
print(list(result))
# Out: ['sentencepiece', 'encode', 'as', 'pieces']