mindspore.dataset.text.SentencePieceVocab
- class mindspore.dataset.text.SentencePieceVocab[源代码]
- 用于执行分词的SentencePiece对象。 - classmethod from_dataset(dataset, col_names, vocab_size, character_coverage, model_type, params)[源代码]
- 从数据集构建SentencePiece。 - 参数:
- dataset (Dataset) - 表示用于构建SentencePiece对象的数据集。 
- col_names (list) - 表示列名称的列表。 
- vocab_size (int) - 表示词汇大小。 
- character_coverage (float) - 表示模型涵盖的字符数量。推荐值: - 0.9995(适用于具有丰富字符集的语言,如日文或中文)、- 1.0(适用于具有小字符集的其他语言)。
- model_type ( - SentencePieceModel) - 想要使用的子词算法。可选值详见- SentencePieceModel。
- params (dict) - 表示没有传入参数的字典。 
 
- 返回:
- SentencePieceVocab,从数据集构建的Vocab对象。 
 - 样例: - >>> import mindspore.dataset as ds >>> import mindspore.dataset.text as text >>> >>> from mindspore.dataset.text import SentencePieceVocab, SentencePieceModel >>> dataset = ds.TextFileDataset("/path/to/sentence/piece/vocab/file", shuffle=False) >>> vocab = SentencePieceVocab.from_dataset(dataset, ["text"], 5000, 0.9995, ... SentencePieceModel.UNIGRAM, {}) >>> # Build tokenizer based on vocab >>> tokenizer = text.SentencePieceTokenizer(vocab, out_type=text.SPieceTokenizerOutType.STRING) >>> txt = "Today is Tuesday." >>> token = tokenizer(txt) 
 - classmethod from_file(file_path, vocab_size, character_coverage, model_type, params)[源代码]
- 从文件中构建一个SentencePiece对象。 - 参数:
- file_path (list) - 表示包含SentencePiece文件路径的一个列表。 
- vocab_size (int) - 表示词汇大小。 
- character_coverage (float) - 表示模型涵盖的字符数量。推荐值: - 0.9995(适用于具有丰富字符集的语言,如日文或中文)、- 1.0(适用于具有小字符集的其他语言)。
- model_type ( - SentencePieceModel) - 想要使用的子词算法。可选值详见- SentencePieceModel。
- params (dict) - 表示没有传入参数的字典(参数派生自SentencePiece库)。 
 
- 返回:
- SentencePieceVocab,表示从文件中构建的Vocab对象。 
 - 样例: - >>> from mindspore.dataset.text import SentencePieceVocab, SentencePieceModel >>> vocab = SentencePieceVocab.from_file(["/path/to/sentence/piece/vocab/file"], 5000, 0.9995, ... SentencePieceModel.UNIGRAM, {}) >>> # Build tokenizer based on vocab model >>> tokenizer = text.SentencePieceTokenizer(vocab, out_type=text.SPieceTokenizerOutType.STRING) >>> txt = "Today is Friday." >>> token = tokenizer(txt) 
 - classmethod save_model(vocab, path, filename)[源代码]
- 将模型保存到给定的文件路径。 - 参数:
- vocab (SentencePieceVocab) - 表示一个SentencePiece对象。 
- path (str) - 表示存储模型的路径。 
- filename (str) - 表示文件名称。 
 
 - 样例: - >>> from mindspore.dataset.text import SentencePieceVocab, SentencePieceModel >>> vocab = SentencePieceVocab.from_file(["/path/to/sentence/piece/vocab/file"], 5000, 0.9995, ... SentencePieceModel.UNIGRAM, {}) >>> SentencePieceVocab.save_model(vocab, "./", "m.model")