MindSpore Transformers 文档

MindSpore Transformers套件的目标是构建一个大模型预训练、微调、推理、部署的全流程开发套件,提供业内主流的Transformer类大语言模型(Large Language Models, LLMs)和多模态理解模型(Multimodal Models, MMs)。期望帮助用户轻松地实现大模型全流程开发。

MindSpore Transformers套件基于MindSpore内置的多维混合并行技术和组件化设计,具备如下特点:

  • 一键启动模型单卡或多卡预训练、微调、推理、部署流程;

  • 提供丰富的多维混合并行能力可供灵活易用地进行个性化配置;

  • 大模型训推系统级深度优化,原生支持超大规模集群高效训推,故障快速恢复;

  • 支持任务组件配置化开发。任意模块可通过统一配置进行使能,包括模型网络、优化器、学习率策略等;

  • 提供训练精度/性能监控指标实时可视化能力等。

用户可以参阅 整体架构模型库 ,快速了解MindSpore Transformers的系统架构,以及所支持的大模型清单。

MindSpore Transformers的开源仓库地址为 AtomGit | MindSpore/mindformers

如果您对MindSpore Transformers有任何建议,请通过 issue 与我们联系,我们将及时处理。

使用MindSpore Transformers进行大模型全流程开发

MindSpore Transformers 提供统一的一键启动脚本,支持单卡/多卡训练、微调与推理。从入门到上线,可按需查阅:训练指南预训练实践监督微调实践推理指南服务化部署指南评测指南

MindSpore Transformers 功能特性说明

预训练、微调与推理全流程中的通用能力、训练能力(如数据集、并行、断点续训、内存优化等)以及推理与量化能力,均在 功能特性概述 中按类汇总,可从中快速查找并跳转到对应说明文档。

使用 MindSpore Transformers 进行高阶开发

在完成基础训练与推理后,若需进行模型迁移、精度与性能调优或与标杆做精度对比,可参阅 高阶开发概述,其中按调试调优、模型开发与配置、精度对比及 API 参考分类整理了全部高阶开发文档。

环境变量、贡献与常见问题