MindSpore Transformers 文档

MindSpore Transformers套件的目标是构建一个大模型预训练、微调、推理、部署的全流程开发套件，提供业内主流的Transformer类大语言模型（Large Language Models, LLMs）和多模态理解模型（Multimodal Models, MMs）。期望帮助用户轻松地实现大模型全流程开发。

MindSpore Transformers套件基于MindSpore内置的多维混合并行技术和组件化设计，具备如下特点：

一键启动模型单卡或多卡预训练、微调、推理、部署流程；
提供丰富的多维混合并行能力可供灵活易用地进行个性化配置；
大模型训推系统级深度优化，原生支持超大规模集群高效训推，故障快速恢复；
支持任务组件配置化开发。任意模块可通过统一配置进行使能，包括模型网络、优化器、学习率策略等；
提供训练精度/性能监控指标实时可视化能力等。

用户可以参阅整体架构和模型库，快速了解MindSpore Transformers的系统架构，以及所支持的大模型清单。

MindSpore Transformers的开源仓库地址为 Gitee | MindSpore/mindformers 。

如果您对MindSpore Transformers有任何建议，请通过 issue 与我们联系，我们将及时处理。

使用MindSpore Transformers进行大模型全流程开发

MindSpore Transformers提供了统一的一键启动脚本，支持一键启动任意任务的单卡/多卡训练、微调、推理流程，它通过简化操作、提供灵活性和自动化流程，使得深度学习任务的执行变得更加高效和用户友好，用户可以通过以下说明文档进行学习：

代码仓地址： <https://gitee.com/mindspore/mindformers>

MindSpore Transformers功能特性说明

通用功能：
- 启动任务
  
  单卡、单机和多机任务一键启动。
- Ckpt权重
  
  [Checkpoint 1.0 版本] 支持ckpt格式的权重文件转换及切分功能。
- Safetensors权重
  
  [Checkpoint 1.0 版本] 支持safetensors格式的权重文件保存及加载功能。
- 配置文件说明
  
  支持使用 YAML 文件集中管理和调整任务中的可配置项。
- 加载Hugging Face模型配置
  
  支持加载Hugging Face社区模型配置即插即用，无缝对接。
- 日志
  
  日志相关介绍，包括日志结构、日志保存等。
- 使用Tokenizer
  
  Tokenizer相关介绍，支持在推理、数据集中使用Hugging Face Tokenizer。
训练功能：
- 数据集
  
  支持多种类型和格式的数据集。
- 训练超参数
  
  灵活配置大模型训练的超参数配置。
- 训练指标监控
  
  提供大模型训练阶段的可视化服务，用于监控和分析训练过程中的各种指标和信息。
- 断点续训
  
  [Checkpoint 1.0 版本] 支持step级断点续训，有效减少大规模训练时意外中断造成的时间和资源浪费。
- checkpoint保存和加载
  
  [Checkpoint 2.0 版本] 支持checkpoint保存和加载功能。
- 断点续训2.0
  
  [Checkpoint 2.0 版本] 支持step级断点续训，有效减少大规模训练时意外中断造成的时间和资源浪费。
- 训练高可用（Beta）
  
  提供大模型训练阶段的高可用能力，包括临终 CKPT 保存、UCE 故障容错恢复和进程级重调度恢复功能（Beta特性）。
- 分布式并行训练
  
  一键配置多维混合分布式并行，让模型在上至万卡的集群中高效训练。
- 训练内存优化
  
  支持细粒度选择重计算和细粒度激活值SWAP，用于降低模型训练的峰值内存开销。
- 其它训练特性
  
  支持梯度累积、梯度裁剪、CPU绑核等特性。
推理功能
- 量化
  
  集成 MindSpore Golden Stick 工具组件，提供统一量化推理流程开箱即用。

MindSpore Transformers 文档

使用MindSpore Transformers进行大模型全流程开发

MindSpore Transformers功能特性说明

使用MindSpore Transformers进行高阶开发

环境变量

贡献指南

FAQ