mindspore.dataset.text.NormalizeUTF8

查看源文件
class mindspore.dataset.text.NormalizeUTF8(normalize_form=NormalizeForm.NFKC)[源代码]

对UTF-8编码的字符串进行规范化处理。

说明

Windows平台尚不支持 NormalizeUTF8

参数:
  • normalize_form (NormalizeForm, 可选) - 想要使用的规范化模式。可选值详见 NormalizeForm 。 默认值: NormalizeForm.NFKC

异常:
支持平台:

CPU

样例:

>>> import mindspore.dataset as ds
>>> import mindspore.dataset.text as text
>>> from mindspore.dataset.text import NormalizeForm
>>>
>>> normalize_op = text.NormalizeUTF8(normalize_form=NormalizeForm.NFC)
>>> text_file_list = ["/path/to/text_file_dataset_file"]
>>> text_file_dataset = ds.TextFileDataset(dataset_files=text_file_list)
>>> text_file_dataset = text_file_dataset.map(operations=normalize_op)
教程样例: