Release Notes

MindSpore Transformers 1.9.0 Release Notes

以下为MindSpore Transformers套件1.9.0版本的变更日志,相较于1.8.0版本有以下关键新特性和bugfix。

新特性

  • 训练功能: 支持训练前向推理;开启流水线并行进行任务训练时,支持打印对应rank加载的参数信息。

  • 模型支持: 新增支持TeleChat3-36B推理和预训练;新增支持TeleChat3-105B预训练。

  • 权重方案: 权重2.0方案适配故障快恢功能;Hugging Face权重加载性能优化[1]

  • 动态图能力(实验性): 支持Trainer拉起训练流程;支持Qwen3稠密模型搭建。

新模型

以下为新支持模型:

模型

规格

TeleChat3

TeleChat3-36B(预训练、推理)、TeleChat3-105B-A4.7B(预训练)

Bugfix

在当前版本发布周期内,我们进行了模型/功能/易用性/文档等诸多方面的bugfix,在此列举部分关键修复内容:

  • !8006:修复MOE模型Tflops值打印不正确的问题。

  • !7874:修复MCore网络中pad_token_id不生效问题。

  • !7818:修复部分环境下hostname获取失败问题。

  • !7793 !7713:修复Hugging Face数据集相关问题。

  • !7630:修复变换并行策略时safetensors权重转换加载问题。

  • !7620:修复VocabEmbedding在特定配置下通信引起的精度问题。

变更说明

当前版本对部分历史的废弃模型/代码/资料进行了变更,详细的变更内容及说明如下:

变更内容

变更说明

本版本暂无变更说明

贡献者

感谢以下所有在版本周期内参与贡献的开发者:

@lanshaozuishuai@zyw-hw@smallsilly@wei_zhuoyi@yule100@zzzkeke@sunyu-xuan@alpha-junh@zhangyihuiben@jimmyisme1@yiyison@huangjingwei@chenrayray@Sunshine_Youngster@suhaibo@minghu111@senzhen-town@limuan@husichao@xiaoqi-zhou@silkage_jiajia@hss-shuai@pengjingyou@wjlflyer@shen_haochen@wujinyuan1@yyyyrf@Somnus2020@renyujin@qsc97@yinanf@hangangqiang@lzy0920232

欢迎以任何形式对项目提供贡献!

  1. 实验测试千亿模型百卡集群权重加载时间缩短80%。