MindSpore Transformers
介绍
整体架构
模型库
安装
安装指南
大模型全流程指南
预训练
SFT微调
推理
服务化部署
功能特性
启动任务
Ckpt权重
Safetensors权重
配置文件说明
加载 Hugging Face 模型配置
日志
使用Tokenizer
训练功能
数据集
训练超参数
训练指标监控
断点续训
分布式并行训练
训练高可用
训练内存优化
数据跳过和健康监测
其它训练特性
推理功能
高阶开发
大模型精度调优指南
大模型性能调优指南
开发迁移
与 Megatron-LM 比对训练精度
API
优秀实践
使用DeepSeek-R1进行模型蒸馏的实践案例
转换模型权重为Megatron模型权重的实践案例
环境变量
环境变量说明
贡献指南
MindSpore Transformers贡献指南
魔乐社区贡献指南
FAQ
模型相关 FAQ
功能相关 FAQ
RELEASE NOTES
Release Notes
MindSpore Transformers
»
训练功能
查看页面源码
训练功能
数据集
训练超参数
训练指标监控
断点续训
分布式并行训练
训练高可用
训练内存优化
数据跳过和健康监测
其它训练特性