mindspore.dataset.text.FilterWikipediaXML
- class mindspore.dataset.text.FilterWikipediaXML[源代码]
将Wikipedia XML格式转储过滤为仅由小写字母(a-z,从A-Z转换而来)和空格(从不连续)组成的“干净”文本。
说明
Windows平台尚不支持 FilterWikipediaXML 。
- 支持平台:
CPU
样例:
>>> import mindspore.dataset.text as text >>> >>> replace_op = text.FilterWikipediaXML() >>> text_file_dataset = text_file_dataset.map(operations=replace_op)