mindspore.dataset.text.FilterWikipediaXML

查看源文件
class mindspore.dataset.text.FilterWikipediaXML[源代码]

将Wikipedia XML格式转储过滤为仅由小写字母(a-z,从A-Z转换而来)和空格(从不连续)组成的“干净”文本。

说明

Windows平台尚不支持 FilterWikipediaXML

支持平台:

CPU

样例:

>>> import mindspore.dataset as ds
>>> import mindspore.dataset.text as text
>>>
>>> replace_op = text.FilterWikipediaXML()
>>> text_file_list = ["/path/to/text_file_dataset_file"]
>>> text_file_dataset = ds.TextFileDataset(dataset_files=text_file_list)
>>> text_file_dataset = text_file_dataset.map(operations=replace_op)
教程样例: