Release Notes

MindSpore Transformers 1.8.0 Release Notes

以下为MindSpore Transformers套件1.8.0版本的变更日志，相较于1.7.0版本有以下关键新特性和bugfix。

训练功能： Mcore模型支持细粒度配置参数初始化标准差；学习率策略支持细粒度配置分组学习率；新增Muon优化器，支持配置QKClip，实现MuonClip优化器。
Mcore模型结构： 支持不同TransformerLayer配置不同位置编码策略；支持配置SlidingWindowAttention。
数据集： Hugging Face数据集支持流式加载数据，降低微调任务的数据集加载时长。
架构升级：权重保存加载 & 断点续训方案升级，实现全新权重目录结构、配置简化及Reshard加载机制，显著提升易用性及加载/恢复性能。

在当前版本发布周期内，我们进行了模型/功能/易用性/文档等诸多方面的bugfix，在此列举部分关键修复内容：

当前版本对部分历史的废弃模型/代码/资料进行了变更，详细的变更内容及说明如下：

变更内容	变更说明
废弃模型下架	以下模型已下架：Llama3.1、Mixtral、Llm_boost。

感谢以下团队人员做出的突出贡献：

感谢以下所有在版本周期内参与贡献的开发者：

欢迎以任何形式对项目提供贡献！