1024程序员节 | AI+科学计算融合框架发展与生态破局
1024程序员节 | AI+科学计算融合框架发展与生态破局

10月24日,1024程序员节在北京成功召开。昇思MindSpore技术生态架构师吕昱峰发表了《MindSpore:AI+科学计算融合框架发展与生态破局》。

01 AI框架的发展趋势和挑战
AI框架是智能时代的操作系统,也是人工智能新基建的重要基础。当前,我们有爆发式增长的数据,有不断迭代更新的模型,以及无数不在的算力。AI框架作为承上启下的位置,能够去链接人工智能的三要素:数据、算法和算力,处于AI生态的核心。

当前,AI框架面临着一些新的挑战和机会点。如新的应用范式、AI与传统科学计算融合、 新的计算架构、新的开发和部署方式等。整个行业进入了一个新的深水区,我们并不是片面的去追求新的模型来提升产业上的应用落地,而是选择像Transformer这样一个基础的稳定结构去做全流程的效率提升,包括开发的效率、生产的效率、部署的效率,然后我们在不同的设备上,包括云侧的设备/计算集群、边缘设备、端侧设备/手机、手表这些,需要有全场景的部署能力。
另外,全生命周期可信也是对AI方面安全的考虑,而产生一个新的挑战和机会点。大模型及科学计算这两个角度,是整个AI框架的演进方向也是整个AI领域与其他传统的科学领域融合最重要的两个点。

一方面是大模型,图示为2016年底至近几个月的大模型统计表,最大的已经到了万亿级别的参数量,小的模型也基本上都是在数十亿级别的参数量。也就是说,大模型已经成为了一个常态,我们现在做的基础的研究也好、应用也好,都是拿一个Bert或VIT这样的模型直接做数据的训练或者是微调。
这种情况下,必然带来的挑战是:如何更好地利用大模型能带来的效果。训练大模型,需要利用更多更好的算力,也需要让我们的AI框架能够支持分布式计算,能更好的让大家从写单卡模型的方式快速的转变到写多机多卡的分布式模型的应用。
这样就给框架带来了新的挑战,框架需要提供非常简单易用,最好能够把后端的基础通讯以及做分布式并行的时候对模型、算子的切分这样的内部逻辑屏蔽,让大家依旧是所见即所得,能够把最初写模型的idea直接应用,编写模型的代码能非常快速的进行训练。

另外一方面,AI+科学计算,是最近特别火热,也是一个未来的趋势方向,这是Alpha Fold做蛋白质结构预测的示例图,像传统的一些科学计算的领域也逐渐地引入当前AI领域的SOTA模型。比如Transformer结构强大的特征抽取以及拟合的能力,能够经过一些模型上的改造,将大量的传统科学计算领域数据进行利用,获得比传统方法更好的效果。
02 昇思MindSpore如何从AI框架到AI+科学计算融合框架?
AI和科学计算其实非常多的共通点:
①方法相近,因为我们做的事情都是数据拟合或者是建模,或者是对某一个问题的优化。AI这边更倾向于大力出奇迹一些,尤其是神经网络拟合能力强,把各种以前需要在机器学习阶段人工定义的部分基本上全部把它作为需要训练的参数,只要控制超参,就可以直接让模型去学数据,从数据当中把参数拟合出来,也不需要人为干预。传统的科学计算更倾向于用专家知识把这些东西建模出来,但是整个的方法是相近的。
②计算特性相同,我们做的都是浮点运算,AI的浮点运算精度不如科学计算精度要求的高,科学计算会要求更高的精度,才能满足他们想要在领域当中求得的最终结果的精度。同时,大家都对大规模的算力有需求,比如,预测天气预报,一般情况下都会用传统的超算中心,就是用CPU构造出来的超算中心,一次天气预报需要使用超大的集群去进行预测,普通的小算力集群基本满足不了这种大的科学计算问题的算力需求。
③数学本质相同,不管是做AI相关领域的研究,还是说各个领域的科学计算,本质上都是在去做高维函数的映射。这也就决定了AI+科学计算是可以共通,甚至是可以混合使用,包括当前的一个趋势也是大家在用科学计算去引入一些AI的模型,替代其中某一些人工不容易去把控参数范围、参数边界的情况,然后预测或者是拟合出来一个特别好的结果,这样逐渐的去融合。

因此,我们可以看到AI+科学计算整个融合是比较水到渠成的事情,无论从数学本质还计算形态上也是相近的。AI以反向传播为基础,其核心是自动微分,但是科学计算未必需要做自动微分,但是一定需要做加速,所以对算力的要求也一直是有的。
这种情况下,框架一方面要考虑的是更好的支持AI,方便大家写模型、训练模型,另一方面是把科学计算更好的支撑起来,让科学计算可以直接拿神经网络建模,然后融入到本身问题的解决方案当中,或者直接利用当前的NPU、GPU算力去做本身应用场景的加速。比如,给航空航天的一些数据计算的加速,可能达到百倍以上的加速比。
AI+科学计算逐渐融合,也可以让AI的模型在更多的科学领域去进行落地,而不仅仅是在传统AI的领域上继续卷。尤其是在Transformer之后,模型结构上也没有太大创新的情况下,我们可以让AI落到更多的实际的科学应用场景当中,然后来获得更好的效果,这也是AI真正的做到普惠所有的领域应该去做的一件事情。
所以我们做的AI+科学计算融合框架实现新的计算方式,用同样的一套反向传播的机制,基于函数式的微分。函数式微分更符合大家做科学计算的时候直观理解,因为提示我编程的时候写的是函数,跟数学语义上的函数是完全一致的表达,而不是神经网络去做反向传播。

当前,昇思MindSpore已经深入做AI融合计算,在科学计算方面做的流体的、电磁的、金融的以及分子动力学的,我们做了一系列的AI+科学计算的融合领域包。结合已有的经验,我们以AI+科学计算的方式融入到具体的科学计算的应用场景当中, 在2.0版本中整个框架会把AI和科学计算这两个核心作为框架同等重要的基础。
在当前AI框架的发展趋势中,昇思MindSpore依旧不断的去发展技术生态,让自身有竞争力,包括目前已经是AI+科学计算融合框架,在科学计算这一块的支撑上已经有了比较大的一些差异化的竞争点,然后在整个的生态发展中也在不同的角度去发力,包括学术生态、行业生态都做了很多的工作。

学术生态方面,在基础AI生态上基于华为的智能基座+沃土计划,让全国72所智能基座高校,108所课程推广的高校,全面让MindSpore的框架铺开,加入到高校的课程当中去,让学生真的能学到框架的具体知识和内容,慢慢的培养他们使用框架,以及以后慢慢的将框架去做科研,然后落入他们实际去工作的技能培养当中。
另外一个,众智计划,鼓励各种开发者以及高校和科研团队参与到整个框架的模型、算子,就是整个开源生态的一个丰富,他们可以去接触更底层的算子的开发、框架的开发,也可以做类似于模型这样的一些事情,然后去提高自己本身模型开发的能力。
原生AI生态上,与中国人工智能学会做算力联合的AI学术科研基金,鼓励高校的老师和研究人员使用MindSpore框架来发表顶会,以及和科研机构去做一些合作,来构建一些差异化的竞争力。
比方说,遥感、电磁仿真、多模态大模型,这些业界并没有做特别多的一些探索,但是国内的各种导师和团队他们有一些很深入的底蕴,然后我们去联合做了一些比较大的成果。最后是开源与商业生态伙伴,与不同的企业去做开源商业生态伙伴整个的建设,已经邀请了非常多MindSpore开源和生态商业伙伴,一起在AI科研和行业整个落地当中做很多相关的合作,一起去扩展整个的行业的生态。
截止今年10月初,昇思MindSpore下载量达302W+,社区核心贡献者者7500+,服务企业5000+,与140+科研院所展开合作,共发布六大模型,同时昇思MindSpore打造一站式大模型体验平台,开发者可以在线体验大模型推理任务,从而最便捷地使用基于昇思的创新大模型。
- 昇思大模型平台:https://xihe.mindspore.cn/
03 国产框架的生态破局

当前国产AI框架在业界的占比并不是特别的高,在这之下到底怎么样去做才能让AI+科学计算的融合框架或者传统的AI框架真的有竞争力?核心我总结为两点:一是易用性;二是差异化竞争力。
易用性也是所有的框架想要去抓住的一个重点。业界主流框架就是一座大山是立在这儿的,易用性不断的去追赶,可能能跟他们做到持平,但是依旧不能够做到我比你还要更好一些,或者说你只能在一些小点上做的比它更好用。这种情况下,如何让大家选择使用你,这就是差异化竞争力去做破局的关键了。
我们总结当前最适合去做的两个差异化竞争力点:
一是大模型,当前大模型有很多基于业界主流框架去做的大模型的训练框架,不管哪一个框架做的这一套范式,都不是那么的极简易用。也就是说,我们并没有办法真正做到无感的把单机、单卡的训练模型直接简单的写一下或者是加几行代码封装之后把它直接用到我的多机多卡,然后一个大的集群上面稳定快速的能把大模型训练起来,这一块是MindSpore差异化竞争去发力的方向。
二是AI+科学计算,当前虽然已经有了很多比较突破性的成果,但是依旧有大量的像这里写到的制造、金融、交通、能源之类的这一些行业都没有特别深入的真的把我们的AI模型全面的应用到他们的行业当中去,而这一块是非常大的蓝海,也是我们应该去发力的一个重点,也是AI真的做到去影响整个世界的发展,我们国家发展的格局真正应该去做的事情。
易用性+差异化竞争力,也是我们当前在大力发力去做的事情,力争把这两个事情都做好,去做到真正的破局。

MindSpore官方资料
官方QQ群 : 486831414
Gitee : https : //gitee.com/mindspore/mindspore