Release Notes
MindSpore Transformers 1.8.0 Release Notes
以下为MindSpore Transformers套件1.8.0版本的变更日志,相较于1.7.0版本有以下关键新特性和bugfix。
新特性
训练功能: Mcore模型支持细粒度配置参数初始化标准差;学习率策略支持细粒度配置分组学习率;新增Muon优化器,支持配置QKClip,实现MuonClip优化器。
Mcore模型结构: 支持不同TransformerLayer配置不同位置编码策略;支持配置SlidingWindowAttention。
数据集: Hugging Face数据集支持流式加载数据,降低微调任务的数据集加载时长。
架构升级:权重保存加载 & 断点续训 方案升级,实现全新权重目录结构、配置简化及Reshard加载机制,显著提升易用性及加载/恢复性能。
Bugfix
在当前版本发布周期内,我们进行了模型/功能/易用性/文档等诸多方面的bugfix,在此列举部分关键修复内容:
变更说明
当前版本对部分历史的废弃模型/代码/资料进行了变更,详细的变更内容及说明如下:
变更内容 |
变更说明 |
|---|---|
废弃模型下架 |
以下模型已下架:Llama3.1、Mixtral、Llm_boost。 |
贡献者
感谢以下团队人员做出的突出贡献:
感谢以下所有在版本周期内参与贡献的开发者:
@ccsszz、@chenrayray、@hangangqiang、@highcloud3、@hss-shuai、@huan-xiaoling、@husichao、@jimmyisme、@JingweiHuang、@lanshaozuishuai、@limuan、@Lin-Bert、@liulili-huawei、@liu-yanwei6、@lzy0920232、@minghu111、@niu-junhao01、@pengjingyou、@qsc97、@renyujin、@senzhen-town、@smallsilly、@Somnus2020、@song-jiaqi1999、@suhaibo、@Sunshine_Youngster、@wei_zhuoyi、@xiaoqi-zhou、@yinanf、@yiyison、@yule100、@zhangyihuiben、@zyw-hw、@zzzkeke
欢迎以任何形式对项目提供贡献!