功能特性概述
MindSpore Transformers 在预训练、微调、推理与部署全流程中提供丰富的功能特性,便于用户进行配置化开发与调优。本章节按 通用功能、训练功能 和 推理功能 对全部功能进行分类汇总,便于快速查找与跳转。
通用功能
适用于预训练、微调与推理全流程的基础能力,便于统一配置与复用。
功能 |
说明 |
架构支持 |
|---|---|---|
单卡、单机和多机任务一键启动。 |
Mcore/Legacy |
|
[Checkpoint 1.0 版本] 支持 ckpt 格式的权重文件转换及切分功能。 |
Legacy |
|
[Checkpoint 1.0 版本] 支持 safetensors 格式的权重文件保存及加载功能。 |
Mcore/Legacy |
|
支持使用 YAML 文件集中管理和调整任务中的可配置项。 |
Mcore/Legacy |
|
支持加载 Hugging Face 社区模型配置,即插即用、无缝对接。 |
Mcore |
|
日志相关介绍,包括日志结构、日志保存等。 |
Mcore/Legacy |
|
Tokenizer 相关介绍,支持在推理、数据集中使用 Hugging Face Tokenizer。 |
Mcore |
训练功能
支持大规模、高可用的大模型训练与调优。
功能 |
说明 |
架构支持 |
|---|---|---|
支持多种类型和格式的数据集(Megatron、Hugging Face、MindRecord 等)。 |
Mcore/Legacy |
|
灵活配置大模型训练的超参数(学习率、优化器等)。 |
Mcore/Legacy |
|
提供大模型训练阶段的可视化服务,用于监控和分析训练过程中的各种指标和信息。 |
Mcore/Legacy |
|
[Checkpoint 1.0 版本] 支持 step 级断点续训,减少大规模训练意外中断造成的浪费。 |
Mcore/Legacy |
|
[Checkpoint 2.0 版本] 支持 checkpoint 保存和加载功能。 |
Mcore |
|
[Checkpoint 2.0 版本] 支持 step 级断点续训及扩缩容、增量等场景。 |
Mcore |
|
提供临终 CKPT 保存、UCE 故障容错恢复和进程级重调度恢复等能力。 |
Mcore |
|
一键配置多维混合分布式并行,支持在万卡级集群中高效训练。 |
Mcore/Legacy |
|
支持重计算与细粒度激活值 SWAP,降低训练峰值显存。 |
Mcore/Legacy |
|
支持数据跳过与权重健康监测,提升训练鲁棒性。 |
Mcore/Legacy |
|
支持多 checkpoint 权重合并(PMA)及融合保存。 |
Mcore |
|
梯度累积、梯度裁剪、CPU 绑核、MoE Droprate、RoPE/SwiGLU 融合等。 |
Mcore/Legacy |
推理功能
面向模型推理与部署场景,支持将训练好的模型高效部署并服务于生产环境。
功能 |
说明 |
架构支持 |
|---|---|---|
集成 MindSpore Golden Stick 工具组件,提供统一量化推理流程,开箱即用。 |
Mcore/Legacy |