mindspore.dataset.text.PythonTokenizer
- class mindspore.dataset.text.PythonTokenizer(tokenizer)[源代码]
- 使用用户自定义的分词器对输入字符串进行分词。 - 参数:
- tokenizer (Callable) - Python可调用对象,要求接收一个string参数作为输入,并返回一个包含多个string的列表作为返回值。 
 
- 异常:
- TypeError - 参数 tokenizer 不是一个可调用的Python对象。 
 
- 支持平台:
- CPU
 - 样例: - >>> import numpy as np >>> import mindspore.dataset as ds >>> import mindspore.dataset.text as text >>> >>> # Use the transform in dataset pipeline mode >>> def my_tokenizer(line): ... return line.split() >>> >>> numpy_slices_dataset = ds.NumpySlicesDataset(data=['Hello world'], column_names=["text"]) >>> numpy_slices_dataset = numpy_slices_dataset.map(operations=text.PythonTokenizer(my_tokenizer)) >>> for item in numpy_slices_dataset.create_dict_iterator(num_epochs=1, output_numpy=True): ... print(item["text"]) ['Hello' 'world'] >>> >>> # Use the transform in eager mode >>> data = np.array('Hello world'.encode()) >>> output = text.PythonTokenizer(my_tokenizer)(data) >>> print(output) ['Hello' 'world'] - 教程样例: