MindSpore Transformers

介绍

整体架构
模型库

安装

安装指南

大模型全流程指南

预训练
SFT微调
推理
服务化部署

功能特性

启动任务
Ckpt权重
Safetensors权重
配置文件说明
加载 Hugging Face 模型配置
日志
使用Tokenizer
训练功能
推理功能

高阶开发

大模型精度调优指南
大模型性能调优指南
开发迁移
与 Megatron-LM 比对训练精度
API

优秀实践

使用DeepSeek-R1进行模型蒸馏的实践案例
转换模型权重为Megatron模型权重的实践案例

环境变量

环境变量说明

贡献指南

MindSpore Transformers贡献指南
魔乐社区贡献指南

FAQ

模型相关 FAQ
功能相关 FAQ

RELEASE NOTES

Release Notes

MindSpore Transformers

»
训练功能
查看页面源码

训练功能

数据集
训练超参数
训练指标监控
断点续训
分布式并行训练
训练高可用
训练内存优化
数据跳过和健康监测
其它训练特性

上一页下一页

© 版权所有 MindSpore.

利用 Sphinx 构建，使用了主题由 Read the Docs开发.