mindformers.AutoTokenizer

查看源文件
class mindformers.AutoTokenizer[源代码]

这是一个通用的Tokenizer类,当使用 from_pretrained() 类方法时,它会自动实例化Tokenzier类,并返回。 这个类不能直接使用 __init__() 实例化(会抛出异常)。

样例:

>>> from mindformers import AutoTokenizer
>>> tokenizer = AutoTokenizer.from_pretrained("llama2_7b")
classmethod from_pretrained(yaml_name_or_path, *args, **kwargs)[源代码]

从文件夹、或魔乐社区读取配置信息,实例化为一个分词器。

警告

这个API正处于实验阶段,在下一个版本中可能会有一些突破性的变化。

参数:
  • yaml_name_or_path (str) - 包含yaml文件的文件夹路径、包含json配置文件的文件夹路径、或魔乐社区上的model_id。后两者为实验特性。

  • args (Any, 可选) - 会在实例化Tokenizer时,传给Tokenizer的 __init__() 方法。仅在实验特性时生效。

  • kwargs (Dict[str, Any], 可选) - 传入的配置信息将会覆盖从yaml_name_or_path读取到的配置信息。

返回:

一个Tokenizer实例。

classmethod register(config_class, slow_tokenizer_class=None, fast_tokenizer_class=None, exist_ok=False)[源代码]

注册新的Tokenizer类到此类中。

警告

这个API正处于实验阶段,在下一个版本中可能会有一些突破性的变化。

参数:
  • config_class (PretrainedConfig) - 模型的Config类。

  • slow_tokenizer_class (PreTrainedTokenizer, 可选) - 用于注册的Tokenizer类。

  • fast_tokenizer_class (PreTrainedTokenizerFast, 可选) - 用于注册的FastTokenizer类。

  • exist_ok (bool, 可选) - 为True时,即使 config_class 已存在也不会报错。默认值: False