代码
案例| 盘古α2000亿参数中文预训练大模型

案例| 盘古α2000亿参数中文预训练大模型

案例| 盘古α2000亿参数中文预训练大模型

背景

预训练模型如今已经成为深度学习研究中的一种主流范式,国内有学者认为「深度学习已经从『大炼模型』步入到『练大模型』的阶段」,通过设计先进的算法,整合尽可能多的数据,汇聚大量算力,集约化地训练大模型,供大量企业使用,这是必然趋势。

数据集的准备

海量语料是预训练模型研究的基础,联合团队从开源开放数据集、common crawl网页数据、电子书等收集了近80TB原始数据。

搭建了面向大型语料库预处理的分布式集群,通过数据清洗过滤、去重、质量评估等处理流程,构建了一个约1.1TB的高质量中文语料数据集,经统计Token数量约为250B规模。通过对不同的开源数据集独立进行处理,完全清除了跟下游任务相关的标签信息,以保证源数据的无偏性。

模型结构

在transformer结构之上,增加query层。query层的基本结构与transformer层相似,通过引入了一个额外的Query layer,来预测生成下一个query Q的位置。

MindSpore超大规模自动并行

大集群下高效训练千亿至万亿参数模型,用户需要综合考虑参数量、计算量、计算类型、集群带宽拓扑和样本数量等才能设计出性能较优的并行切分策略,模型编码出来考虑算法以外,还需要编写大量并行切分和通信代码。

MindSpore是业界首个支持全自动并行的框架,MindSpore多维度自动并行,通过数据并行、算子级模型并行、Pipeline模型并行、优化器模型并行、异构并行、重计算、高效内存复用,及拓扑感知调度,实现整体迭代时间最小(计算时间+通信时间)。编程接口高效易用,实现了算法逻辑和并行逻辑解耦,串行代码自动分布式并行。

下游任务评估

为了评估模型性能,团队收集了16个不同类型的中文下游任务,如下图所示:

由于中文缺少在小样本学习领域的benchMark,研究对比了智源研究院联合发布的首个26亿参数的中文预训练语言模型「悟道·文源」CPM, 通过在1.1TB数据中策略抽样了100GB等量数据集训练了2.6B参数规模的「盘古α」模型,并在已收集的16个下游任务上进行了对比,结果如下表所示:

实验结果表明盘古α-2.6B比CPM-2.6B模型具有更强的语言学习能力,特别是在小样本学习和生成任务方面。在生成任务方面, 盘古α-2.6B比CPM-2.6B性能指标平均提升6.5个百分点。在PPL任务方面,盘古α-2.6B在OCNLI、TNEWS和 IFLYTEK任务上略弱于CPM。这一现象归因于模型使用了更大规模的词表,这使得模型在局部文本变化时对困惑度不敏感。

团队还对比了盘古α-13B和盘古α-2.6B模型在这些下游任务上的表现,在所有的生成任务和大部分的PPL任务上,13B的模型性能优于2.6B。在CMRC2018、DRCD和WebQA任务中,小样本学习比零样本学习指标高出10分以上,说明盘古α-13B模型具有较强的小样本学习能力。在NLI和文本分类任务上,盘古α-13B与盘古α-2.6B的性能相当,这些任务对于生成语言模型来说通常是困难的,而且模型改进的机会很大,这将是团队未来的工作。

盘古α-200B的模型文件大小在TB级别,下游任务推理耗时耗力,还有更多优化加速的空间,团队正在共同努力完成推理和测评,尽快同步相关研究成果。

部分生成举例:

Input: 上联:欢天喜地度佳节下联: Generate: 花好月圆庆团圆 Input: 小红是小明的姐姐,小红的年纪比小明 Generate: 大 Input: 四川的省会是哪里? Generate: 成都,简称蓉,别称蓉城、锦城、天府之国,是四川省省会、副省级市、特大城市、中国西部地区重要的中心城市、国家重要的现代制造业基地、西南地区综合交通枢纽。 Input:中国的四大发明有哪些? Generate :四大发明是:造纸术、活字印刷术、火药、指南针。 Input:2+1=2,2+2=4,2+3=5,2+4=6,2+6= Generate :8,2+7=9,2+8=10 Input:命题A是假命题,那么A的逆否命题是 Generate :假命题。 Input:阅读文章:玛丽亚·特蕾西亚广场(Maria-Theresien-Platz)是维也纳的一个大型广场,毗邻该市的环形中心大道内环路(Ringstraße),以及博物馆区(现代艺术博物馆,位于昔日皇家马厩)。 ...... 而历史较久的这两座博物馆更加令人愉快,更具文化内涵。艺术史博物馆拥有丰富的收藏,这里有北欧大师的著名作品,例如勃鲁盖尔的《巴别塔》,以及古代世界艺术丰富的收藏。在楼梯井的屋顶是奥地利著名艺术家古斯塔夫·克里姆特所作绝妙的壁画。自然史博物馆拥有丰富的蝴蝶和其他昆虫收藏,以及古代动物藏品 - 例如祁连山的马,爪哇犀牛和渡渡鸟残骸。这个博物馆的显微剧院很有名,显示微生物的幻灯片,它的两个蜘蛛蟹是日本天皇送给神圣罗马帝国皇帝弗朗茨·约瑟夫的礼物。在楼梯井可以看到描绘皇帝弗朗茨·约瑟夫、皇后玛丽亚·特蕾西亚和她的小型猎犬的绘画。 Question:艺术史博物馆收藏勃鲁盖尔的哪部作品? Generate:勃鲁盖尔的《巴别塔》,这是他的代表作。

总结

近年来,语言模型的规模越来越大,以大模型为基础探索通用智能的道路也远远没有到尽头,国内产业和学术界在对大模型的探索上也在加紧进行,超大规模模型对于AI学术研究已经产生了深刻影响,大规模的AI设备集群和通用性的软硬件生态协同越来越成为信息时代急需的基础设施,未来制约人工智能发展的不仅仅是对人才的竞争,大科学装置和对多场景应用的通用全栈式技术生态的不断发展进化,也越来越重要。

借助了“鹏城云脑Ⅱ”E级智算平台,基于国产MindSpore框架和昇腾软硬件栈的2000亿参数盘古α模型是我们在超大规模AI模型上迈出的里程碑式的一步,团队第一次实现了基于华为软硬件全栈式的超大规模模型的分布式训练、在超大规模分布式训练技术,超大规模模型设计,超大规模模型优化,超大规模模型推理等方面积累了大量经验,为后续研究打下坚实基础,并指明了道路,相关成果也会逐步完全开源。

代码地址:https://gitee.com/mindspore/mindspore/tree/r1.2/model_zoo/official/nlp/pangu_alpha

详细技术报告Arxiv:https://arxiv.org

代码/模型OpenI启智开源地址:https://git.openi.org.cn/PCL-Platform.Intelligence/PanGu-AIpha