继基于数据的互联网时代、基于算力的云计算时代之后,人工智能的大模型时代正在到来。超大数据+超大算力+超大模型, 将如”电网”一般,成为变革性产业基础建设设施,与驱动信息产业应用发展的核心动力。
作为OpenI启智社区开源项目介绍的首期内容,本期将介绍两个超大规模预训练模型——“悟道”、“盘古”。
源代码仓库:https://git.openi.org.cn/PCL-Platform.Intelligence/PanGu-Alpha
由鹏城实验室联合有关单位技术团队组建的中文超大规模预训练语言「盘古α」联合攻关团队,首次基于“鹏城云脑Ⅱ”和MindSpore框架的自动混合并行模式实现在2048卡算力集群上的大规模分布式训练,训练出业界首个2000亿超大参数中文预训练模型“盘古α”。模型在16个下游任务中大部分指标优于SOTA模型,其中零样本学习任务11个任务领先,单样本学习任务12个任务领先,小样本学习任务13个任务领先。代码、模型正同步在OpenI 启智社区全部开源开放,在线服务体验将在测试评估优化后选择开源开放。
海量语料是预训练模型研究的基础,联合团队从开源开放数据集、common crawl网页数据、电子书等收集了近80TB原始数据。
部分数据集介绍:
搭建了面向大型语料库预处理的分布式集群,通过数据清洗过滤、去重、质量评估等处理流程,构建了一个约1.1TB的高质量中文语料数据集,经统计Token数量约为250B规模。通过对不同的开源数据集独立进行处理,完全清除了跟下游任务相关的标签信息,以保证源数据的无偏性。
query层堆叠在transformer层之上。query层的基本结构与transformer层相似,只是引入了一个额外的Query layer,来预测生成下一个query Q的位置。
模型引入随机词序生成,增加预训练难度,提升模型能力。引入预测模块(Predictor),预训练阶段通过位置向量诱导输出。同时支持理解和生成任务,相比于GPT,盘古α模型设计阶段就考虑了其持续学习演化的能力,一是为了节省计算资源,还支持从顺序自回归模型过渡到随机词序自回归模型的增量训练,不同阶段的持续学习能力让模型具备随机词序的生成,具备更强的NLU能力。
大集群下高效训练千亿至万亿参数模型,用户需要综合考虑参数量、计算量、计算类型、集群带宽拓扑和样本数量等才能设计出性能较优的并行切分策略,模型编码出来考虑算法以外,还需要编写大量并行切分和通信代码。
MindSpore是业界首个支持全自动并行的框架,MindSpore多维度自动并行,通过数据并行、算子级模型并行、Pipeline模型并行、优化器模型并行、异构并行、重计算、高效内存复用,及拓扑感知调度,实现整体迭代时间最小(计算时间+通信时间)。编程接口高效易用,实现了算法逻辑和并行逻辑解耦,串行代码自动分布式并行。
OpenI社区源代码仓库:https://git.openi.org.cn/BAAI/WuDao-Model
2021年6月,北京智源人工智能研究院发布了“悟道2.0”系列模型,其中核心推出了中国首个全球最大的双语多模态预训练模型,规模达到1.75万亿参数,超过之前由谷歌发布的Switch Transformer;目前“悟道”系列的部分源码与模型于8月在OpenI启智社区开源运营。
“悟道2.0”一举在世界公认的9项Benchmark上获得了第一的成绩,达到了精准水平。
开创性的研发FastMoE技术,是打破国外技术瓶颈,实现“万亿模型”基石的关键。以往,由于Google万亿模型的核心技术MoE(Mixture of Experts)与其分布式训练框架和其定制硬件强绑定,绝大多数人无法得到使用与研究的机会。“悟道”团队研究并开源的FastMoE是首个支持PyTorch框架的MoE系统,具有简单易用、灵活、高性能等特点,并且支持大规模并行训练。新一代FastMoE,支持Switch、GShard等复杂均衡策略,支持不同专家不同模型,为万亿模型实现方案补上了最后一块短板,让梦想终成现实。
尤其值得一提的是,这个世界上最大的万亿模型,完全基于国产超算平台打造,其基础算法是在中国的超威超算上完成模型训练,实现了100%国产代码。
“悟道”模型研发过程中,智源研究院建设了全球最大的语料数据库WuDaoCorpora2.0,包含全球最大的中文文本数据集(3TB)、全球最大的多模态数据集(90TB)、全球最大的中文对话数据集(181G),为行业内大规模智能模型的研发提供了丰富的数据支撑。为了促进中国预训练模型的科研研究,智源研究院开放了200G中文文本数据集。
相关链接:
l 盘古
盘古α在线体验网址:https://pangu-alpha.openi.org.cn/
源代码仓库:https://git.openi.org.cn/PCL-Platform.Intelligence/PanGu-Alpha
l 悟道
上一篇:第四届中国软件开源创新大赛—启智社区赛道发布
下一篇:最后一页