[{"data":1,"prerenderedAt":276},["ShallowReactive",2],{"content-query-V2s9sp30r2":3},{"_path":4,"_dir":5,"_draft":6,"_partial":6,"_locale":7,"title":8,"description":9,"date":10,"cover":11,"type":12,"body":13,"_type":270,"_id":271,"_source":272,"_file":273,"_stem":274,"_extension":275},"/news/zh/2862","zh",false,"","于璠访谈录 | AI 框架应该和而不同？","刘天栋：访谈主持，开源雨林社区顾问、开源社联合创始人、ASF member于璠：访谈嘉宾，昇思 MindSpore 技术总经理，AI for Science 实验室主任","2023-11-02","https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2023/11/10/02f6e66f8fe342978d985f5bd2e942d4.png","news",{"type":14,"children":15,"toc":267},"root",[16,24,34,52,60,70,75,86,91,107,118,123,131,142,153,164,169,177,185,194,199,207,218,229,245,256],{"type":17,"tag":18,"props":19,"children":21},"element","h1",{"id":20},"于璠访谈录-ai-框架应该和而不同",[22],{"type":23,"value":8},"text",{"type":17,"tag":25,"props":26,"children":27},"p",{},[28],{"type":17,"tag":29,"props":30,"children":33},"img",{"alt":31,"src":32},"image.png","https://fileserver.developer.huaweicloud.com/FileServer/getFile/cmtybbs/e64/154/b38/90a1d5d431e64154b387b3660e356ff5.20231110063222.19803352222379406370974175945554:50541109073033:2400:96F030CAE49517001FC4198FA41F119F8A69BB04F1C3ADE3C066CD07B827C898.png",[],{"type":17,"tag":25,"props":35,"children":36},{},[37,43,45,50],{"type":17,"tag":38,"props":39,"children":40},"strong",{},[41],{"type":23,"value":42},"刘天栋",{"type":23,"value":44},"：访谈主持，开源雨林社区顾问、开源社联合创始人、ASF member",{"type":17,"tag":38,"props":46,"children":47},{},[48],{"type":23,"value":49},"于璠",{"type":23,"value":51},"：访谈嘉宾，昇思 MindSpore 技术总经理，AI for Science 实验室主任",{"type":17,"tag":25,"props":53,"children":54},{},[55],{"type":17,"tag":38,"props":56,"children":57},{},[58],{"type":23,"value":59},"职业生涯的挑战",{"type":17,"tag":25,"props":61,"children":62},{},[63,68],{"type":17,"tag":38,"props":64,"children":65},{},[66],{"type":23,"value":67},"请先简单介绍一下自己****于璠",{"type":23,"value":69},"：大家好，我是华为 2012 实验室中央软件院的于璠，现在主要负责昇思 MindSpore 的研发工作，同时也兼任 AI for Science 的 Lab 主任。2009 年，我从中科大博士毕业后，来到了华为，刚开始做的是云计算相关的一些事情，主要是负责云计算大规模的集群调度。后来大概在 2018 年左右，软件院承接了公司对外发布的 \"AI 全栈全场景策略\" 当中的昇思 MindSpore 这一个重要的软件环节，当时的我认为如果云计算是前一波浪潮，那 AI 就是新的浪潮，再加上对新鲜事物的浓烈兴趣，我可以在 AI 这里做很多事情，于是就跟领导申请加入昇思 MindSpore。在昇思 MindSpore 我主要负责一些偏创新的工作，当时谷歌的 TensorFlow 是生态以及行业应用绝对的领导者。那么，我们做同一个层级的 AI 框架，如何能做到差异化？我们想了很多，也与公司的很多领导和专家沟通过，我们发现当我们与华为的硬件协同联动在一起时，会出现极致的性能，因此我们在系统上做了很多工作，当时一个创新点就是做一个高阶优化器：那时整个 AI 的训练过程是由一阶的优化算法在主导，我们在想华为的硬件这么强，这样的优化器完全无法压榨它应有的实力，如果我们将这个优化器升级成高阶优化器，那我们训练的迭代步数就会大幅度缩短，但代价是对计算能力的要求呈指数级增长，而我们的硬件是可以把这个几何指数级别的计算量消耗掉的，因此我们在这方面做了很长时间的探索，并取得了一定成果，很多模型的性能都得到大幅度提升。那时候大模型还没有火起来，但我们已经笃定大模型是未来的一个差异化路径。在这个过程中，我们布局了 “自动并行” 这种能力。假如一个科学家要开发一个大模型，那么他需要同时扮演算法科学家和系统工程师两个角色，而这两个领域都是可以出图灵奖的领域，所以同时要兼顾这两个领域太难了。“自动并行” 就可以将 TA 解放出来，专注做算法的创新。与此同时，我们还布局了 AI for Science 这个领域，它以 DeepMind 的 AlphaFold 为代表，由 “Transformer + 传统算法” 融合而成，在蛋白质结构预测这个领域远远领先于其他竞争者，而且成本比原来做实验要大幅度降低。我们在分析时发现，AlphaFold 2 对软件和硬件的要求非常高，而且 AlphaFold 2 里除了算法、数据有创新，系统工程上也有巨大的创新：传统的 “隐马尔可夫的搜索” 与 Transformer 架构两者融合之后，在一般的软硬件上运行性能就非常差，如果没有一个很好的系统级优化，可能运行速度会慢 10 倍以上；而且 Transformer 的代码里，有一个非常复杂的 “for 循环” 架构，想要达到好的效果可能需要几十层 “for 循环”，这对性能及整个架构的压力非常大。而 AlphaFold 2 最终版本就解决了这两个难点。所以也借着这个机会，我们把昇思 MindSpore 架构升级成了一个叫 “AI 融合计算” 的架构，将科学和 AI 融合在这一个架构里，同时我们也支持了国内昌平实验室的科学家们做了一版新的 “AlphaFold 2”，整体效果非常显著。",{"type":17,"tag":25,"props":71,"children":72},{},[73],{"type":23,"value":74},"其实我们很早在技术的布局上就已经为这两个领域做了铺垫，同时也支持了国内很多科学家们对大模型的探索，我在其中做的技术创新，跟我自己的成长过程、喜好，以及能力都是有关系的。",{"type":17,"tag":25,"props":76,"children":77},{},[78,80,84],{"type":23,"value":79},"**您在华为这边有没有这样压力，例如：先跟随潮流，持续优化精进 AI 这个大模型/框架，AI for Science 要不要稍微晚一点？您是如何抗拒这种压力的？**",{"type":17,"tag":38,"props":81,"children":82},{},[83],{"type":23,"value":49},{"type":23,"value":85},"：会有业务上的优先级排序，但这个是动态变化的。目前大模型最重要，那么我们百分之八九十的精力都会投入其中，AI for Science 这边就会投入相对少量的人去布局，但也会撬动外部人员一起协同。同理，像前一段时间 AI for Science 火的时候，我们就会多一些投入，而这两者我们都兼顾的比较好。在 AI for Science 这边，我们不仅自己做研究、系统升级，也连接了非常多的院士和长江学者，其中涉及领域不止计算机领域，还有化学、生物、材料、流体等，除此之外，我们也不断有落地的东西，例如支持昌平实验室做的蛋白质折叠。昌平实验室做生物的专家一开始并不相信硬件能发挥作用，坚持要买 CPU 和 GPU，但跟我们联合工作了一段时间后，发现想做的东西在昇腾上运行是完全没问题的，所以最终顺利成交。而这种类似案例很多，而且这个过程中我们同时也会将生态里的一些软件库、模型等孵化到昇思 MindSpore 和昇腾上，这样以后可以再复制给其他人用，且老师们也非常愿意，从而形成良性循环。所以说，虽然公司在 AI for Science 也有投资，但我们在这过程中也不断的“沿途下蛋”，不仅能自己养活自己，还可以超额完成销售/生态的目标。当然整体贡献中，目前大模型还是居于主导地位，但 AI for Science 和大模型两者已逐渐处于一个融合状态，现在很多做科学计算的行业伙伴已经将大模型融合进去了。我在今年 AI for Science 项目立项的时候，也重新调整了技术规划，把大模型给放到了 AI for Science 基础设施里，举个例子：做化学材料的老师，因为看到了大模型的能力，希望做出化学材料的设计、仿真、实验这三个基础大模型。比如说我们想做一款全新的材料，它能粘合玻璃、塑料、木材等。那么我们可以把这种材料设计的信息输给大模型，大模型就会给出反馈，通过不断交互，最后可能反馈出来一个方案，例如金属 Fe，加上 O2（氧气），在某种温度和某些催化剂的配合下，生成一个新型氧化铁的物质，这个物质再经过一些操作就可以做出来一款新材料。而目前大模型非常有可能能帮忙完成这件事情，一旦它真正设计出来了一种材料，再送到仿真的模型中，或者用传统仿真软件再仿真一下，检验真实情况，没问题的话接下来就能用起来了。",{"type":17,"tag":25,"props":87,"children":88},{},[89],{"type":23,"value":90},"这是一件激动人心的事，因为它是在底层去改造，但其中的难度也很高，它不像做 CV、LP 的，基本上跟摄像头或者搜索广告直接匹配，路径非常短，它麻烦点就在于：这么长的路径，如何将 AI 和传统算法融合起来？这是一件挺困难的事，需要很多的人和时间。",{"type":17,"tag":25,"props":92,"children":93},{},[94,99,101,105],{"type":17,"tag":38,"props":95,"children":96},{},[97],{"type":23,"value":98},"昇思MindSpore的开源",{"type":23,"value":100}," **当时昇思 MindSpore 的开源，在华为内部是不是也有引发一些讨论跟冲突？现在业内很多人在讨论“大模型框架要自主可控”，所以我认为很多人应该会有这方面的困惑。**",{"type":17,"tag":38,"props":102,"children":103},{},[104],{"type":23,"value":49},{"type":23,"value":106},"：昇思 MindSpore 诞生的时候，公司的战略上就已经定义了一些关键的差异化竞争力，比如把昇思 MindSpore 定义为全场景框架——在公司所有的硬件上，像集群、服务器、板卡、手机、耳机等等，昇思 MindSpore 能快速使能。像刚上线的 MATE 60 Pro，里面有很多 AI 功能，昇思 MindSpore 的 Lite 版本就在其中。正是因为公司有巨大的场景，昇思 MindSpore 也就慢慢练出来了。随着时间的推移及外面形式的不断变化，昇思 MindSpore 的竞争力也在不断调整。关于这点，内部讨论也是非常激烈。我一直认为在讨论技术的时候，尽量不要太和谐，这样反而能找出一个兼顾长远期和中短期的策略。例如大模型，一开始我们做了自动并行的能力，但还是有很多人提出疑问：做这个有什么用？ResNet 模型就 2,500 万的参数，开发者写一写就弄完了，而且小模型提升一点性能，从 60 分钟提升到 40 分钟这个提升比例虽然很大，但又怎么样呢？60 分钟和 40 分钟，中间学生或者老师多做一会儿，或者出去做一道题回来就 OK 了，所以意义并不是很大。但在这个过程中，我们还是坚持住了，当时我们就在想：“总归要做两个绝对差异化竞争力，有样学样是永远不可能超越的。”",{"type":17,"tag":25,"props":108,"children":109},{},[110,112,116],{"type":23,"value":111},"**您作为昇思 MindSpore 的技术总负责人，在昇思MindSpore 框架开源的过程中，有没有遇到什么挑战呢？昇思 MindSpore 开源是否一开始就是公司的方向与共识，还是说有经过一番思想斗争与挣扎？**",{"type":17,"tag":38,"props":113,"children":114},{},[115],{"type":23,"value":49},{"type":23,"value":117},"：战略层面上的共识就是一定要开源，最初在给领导汇报这件事的时候，领导就问：“业界是不是所有的都开源了？”我说是的，然后他说：“那这还要汇报什么？那必然就是要开源的。”但是在开源的过程中也发生了一些有意思的事情，比如：如何设置代码的 License？代码开源出去之后，专利会不会有侵权？代码有没有抄袭？开源后的版本如何迭代？这些我们当时在汇报的时候都考虑到了。而且昇思 MindSpore 开源对华为的压力还是挺大，虽然战略上是必须开源，但是公司之前并没有一个自主研发如此大代码量的、且没有任何保留的开源项目，这对于我们的开发流程、人员配置等都有巨大的挑战，直至现在这个挑战依旧存在。这里面我的感触很深，公司是做硬件起家的，所以很注重流程质量，我们设计一个东西大概需要两三个月，然后开发三个月，再测试一个多月，最后版本交付，整个流程下来至少需要三个季度甚至一年。但在 AI 开源上就不可以，因为外面变化的速度太快了，比如说我们要针对一个 Bert 模型，经过一系列流程下来，你会发现半年以后 Bert 在业界早就不流行了，变成 GPT 了，那我们做完了就又没啥用了。还有就是来自外界的压力，开源以后会有一些人的吐槽、批评，同时也会有赞扬和支持，还有用户的反馈和建议，面对这些声音我们该如何回应？这些都是开源之前没有的。",{"type":17,"tag":25,"props":119,"children":120},{},[121],{"type":23,"value":122},"总而言之，战略上很早就达成一致了，但在战术上和执行上仍有许多挑战，我们一直以来都在不断学习、不断进步。",{"type":17,"tag":25,"props":124,"children":125},{},[126],{"type":17,"tag":38,"props":127,"children":128},{},[129],{"type":23,"value":130},"AI框架的变革",{"type":17,"tag":25,"props":132,"children":133},{},[134,136,140],{"type":23,"value":135},"**大模型时代，您觉得 AI 框架未来会有哪些变革或创新？可能因为关系到行业用户的受众，很多可能更多是使用者，所以您可以简单介绍一下 AI 框架，比如说它是一个操作系统？或者是汽车里的方向盘？**",{"type":17,"tag":38,"props":137,"children":138},{},[139],{"type":23,"value":49},{"type":23,"value":141},"：昇思 MindSpore 就是 AI 框架的一个实践，AI 框架相当于 AI 领域的操作系统，屏蔽掉底下硬件的复杂性，往上也需要做一些事情，比如抽象出来一些接口，大家做模型开发的时候，会把共性的东西给抽象出来，比如说怎么定义一个层？这个层里有 Transformer，还是有卷集？还有一些典型组合，比如说优化器推理的压缩小型化等；同时上下游还有一些东西，比如前面部分会有一些数据处理，再比如说图片的旋转上再增一些东西，会有助于提高推理和训练的精度，等等这些常用部分，当然还有一些像调试、调优工具，可视化工具，同时支持多种硬件、多种操作系统，这些都是框架里必须具备的功能，这就是 AI 框架的一个“画像”，它有一堆的关键的、能简化开发者开发流程的 API，然后有一堆可以内部并行和融合计算的加速功能，还有周边的一些工具。以前框架之所以定义成这个样子，是因为它上面有成千上万个小模型，而大模型时代来临了以后，可能仅 10 个大模型就能实现原来成千上万个模型的所有功能，原先我们需要支持几千个模型，而现在只需要做好这几个大模型的预训练，而且大模型的使用也与以前不一样——有微调过程，也有与人类对齐的过程，还有部署过程。对于行业使用者来讲，我们做好了这套库，他们就可以直接复用，减少重复造轮子，举个例子：我们现在做的这个库叫 Mindformers ，里面内置了业界所有开源典型模型，且使用流程中的关键点也已经完成，行业用户如果想要做一个知识问答的模型，就可以拿一个我们的预训练模型，输入一些数据，再加上我们微调的算法就可以训练出来了，而且训练过程中的并行功能也已经自动部署好了，所以基本不需要感知什么就能迅速完成知识问答模型的建立。Mindformers 是建立在昇思 MindSpore 原来基础框架之上的，我们可以认为 Mindformers 也是我们基础框架的一部分，并且 Mindformers 与底下硬件软硬联动，会将性能做到极致。小模型下性能提升个百分之 20 至 30，客户对此可能没有什么感知，但是如果大模型提升百分之 20 至 30，那其中成本降低幅度非常大，GPT-4 这种级别的模型，训练一次至少花费 5000 万美金，如果能提升 30%，那可以节省 1500 万美金，这非常可观。所以大模型时代对我们框架是一个好事情，当然也有新的挑战出现，但更多的是机会大于挑战，并且在这个过程中，行业伙伴也在不断地调整。举个例子，云从、电信、讯飞等企业也看到了大模型的趋势，他们想做个一体机，比如说是一个 256 卡的非常精致的一台服务器，或者一个大的超级节点，在这个节点上我们将 Mindformers 内置，再加上伙伴的数据集，以及一些可视化工具等，整体做成一个一体机，这个一体机就可以卖给客户，客户将一体机放置机房，输入数据就可以直接使用了，并且讯推一体，基本上能达到开箱即用的状态，这也因此形成了一个新的产业。",{"type":17,"tag":25,"props":143,"children":144},{},[145,147,151],{"type":23,"value":146},"**看起来“百模大战”将来并不是那么必要，大家很多时候是在重复造轮胎，其实用像昇思 MindSpore 这样的框架，十大模型就可以覆盖主要需求，那您认为“百模大战”还有必要么？**",{"type":17,"tag":38,"props":148,"children":149},{},[150],{"type":23,"value":49},{"type":23,"value":152},"：公司目前将大模型分为了 L0、L1、L2 三个类别：L0 是基础大模型，比如 GPT-4 、GPT-3.5、华为的盘古大模型，以及谷歌秋季即将发布的 Gemini，这一类模型业界并不多，但什么都可以做，比如加一些人类对话，它可以变成一个聊天工具，再加点法律的内容，它就能变成一个律师；L1 是行业大模型，比如说法律领域、金融领域等行业大模型；L2 是细分场景模型，比如律师里是打经济官司的，还是打其他的官司的？会进行类似于这种场景的细分。而百模大战现在大部分是处在 L1 和 L2 这两个层级，也是基于业界开源的数据集，微调出来的结果。但目前商业模式尚不明确，且竞争力不够，在我看来，客户基于华为厂商制作的一体机，用自己的数据稍微一调，立马就能调出一个比百模大战的百模好很多的模型，或者至少也是持平的一个状态，而且它完全自主可控。当然百模里也有一些很强的模型，例如唐杰老师的 ChatGLM ，但这种模型也不是很多。所以我觉得百花齐放对行业来说是件好事，能慢慢地、真正地突围，或者明确边界，到底是 L0、L1、L2，还是有新的分类？对于华为来说，目前华为的软硬件已经能支持外界很多的模型，例如 ChatGLM、百川都可以在昇思和昇腾上运行。",{"type":17,"tag":25,"props":154,"children":155},{},[156,158,162],{"type":23,"value":157},"**随着 Llama 2 的开源，您觉得开源对 AI 框架层面将来会有哪些影响？**",{"type":17,"tag":38,"props":159,"children":160},{},[161],{"type":23,"value":49},{"type":23,"value":163},"：目前我看到的模型的开源和其他开源框架的一些走向，像 Pytorch 这个级别的，可能互相有借鉴，或者是 PK 状态，比如说我们的技术流派，Pytorch 采用的是动态图机制，但现在也在融合静态图，这种在华为称之为“友商”，属于亦友亦敌，互相学习、互相促进。说到 Llama 2，就不得不提 OpenAI，虽然它叫 OpenAI，但一点都不 “open\"，目前 OpenAI 正在抢占生态，所以是赔钱的一个状态，但它肯定要慢慢变现，它很厉害的一点是：它闭源了，大家在使用时就会上传数据，然后它会持续吸收数据，最终变得越来越强。Meta 和谷歌也在思考如何争夺业界的生态，那 Meta 借鉴安卓将模型开源，但 Llama 2 一开始就在开源上做了商业化的考量，在使用的时候有商业化 license 限制，小公司使用没问题，因为那就是它的生态，而大公司使用的时候如果产生了巨大的商业价值，那他必然会追究。Llama 2 的开源对 AI 框架的影响，在技术或 license 方面来说还好，但 Llama 2 的开源，跟 Pytorch 形成了一体（他们都是 Meta 的），Pytorch 在小模型时代取代了 TensorFlow，如果 Llama 2 在大模型时代统领开源，而且 Llama 2 原生在 Pytorch 上，强强联合，那属于其他模型的机遇又少了，昇思 MindSpore 或者昇思 MindSpore+Mindformers 如何超越他们又是件打问号的事情。但好在框架与大模型的粘性非常少，对于框架来说，我们还是喜欢做一个“重型武器”，而不是去建一百个小模型，而且框架有绝对的门槛。",{"type":17,"tag":25,"props":165,"children":166},{},[167],{"type":23,"value":168},"其实我们也没想清楚 Meta 在开源 Llama 2 后怎么变现？有可能像安卓一样，只要掌握住生态，随意一个方向就能商业化，比如做一个 GMS 或者 agent。",{"type":17,"tag":25,"props":170,"children":171},{},[172],{"type":17,"tag":38,"props":173,"children":174},{},[175],{"type":23,"value":176},"AI for Science的现状及展望",{"type":17,"tag":25,"props":178,"children":179},{},[180],{"type":17,"tag":38,"props":181,"children":182},{},[183],{"type":23,"value":184},"对 AI for Science 的现状以及未来的发展，您有什么可以跟大家分享的么？",{"type":17,"tag":25,"props":186,"children":187},{},[188,192],{"type":17,"tag":38,"props":189,"children":190},{},[191],{"type":23,"value":49},{"type":23,"value":193},"：在学术界，从成果上来讲，AI for Science 有三个趋势：一是 AI 完全取代掉 AI for Science，另外一个就是互相融合的状态，还有一个是不依赖于数据，但是又出来一个新的 AI 模型，比如在科学计算里面，有麦克思韦方程、牛顿方程，这些方程我们认为就是数据的总结，因为随意输入一个x、 y ，就能得出 z。但是现在最好的、已落地的、能随时产生效果的还是 AI 数据驱动，比如 AlphaFold，它就有很多的数，再比如气象里有大量历史上的数据，像欧洲气象局公开的就有 9 个 PB 的数据，但是这些领域又没有一个像牛顿或者爱因斯坦这样的人出现，能将这些数总结成一个牛顿方程，这时就可以用模型来进行总结，因为 AI 非常擅长将很多的数据整合到一起，从而形成一个模型，而这两个领域我们可以看到有数据，且又没有特别的方程，那 AI 就容易着手布局，而像麦克思韦方程，科学家们都已经整合成了一个模型，AI 模型想要取代它就没那么容易了。而在工业界，主要有两个典型，一个是谷歌，另一个是英伟达：谷歌在硬件方面做了个新东西叫 “TPU”，类似于公司的昇腾；在框架方面它有 TensorFlow，以及新的框架 Jax，基于 Jax 上有 DeepMind 这个强大的科学家团队，创造了 AlphaFold 这个超级模型。DeepMind 太强了，强到可以把很多科学家拉到英国，跟他们一起封闭三四年，做一些科学问题创新性研究，比如蛋白质折叠问题、水的演化问题、玻璃的演化问题（大家都知道玻璃和水，但是水是如何变成冰的过程是不清楚的）。而英伟达主要从硬件出发，一开始主力方向也是在科学计算，它希望科学上所有能计算的软件，在英伟达上运行得是最好的，所以他们常年会与老师联动来进行软硬件适配。现在 AI 成了以后，不断地融合 AI 与硬件，从下往上做。所以相对来说英伟达是一个比较零散的平台，但依托于原来生态的强大，所以使用它的人还是很多，慢慢的它也成立了一些算法团队，也希望能诞生一些超级模型，所以它联合了很多人一起发布了 FourCastNet，是一个与华为盘古 weather 同个方向的模型。当时我们也梳理了一下我们的场景及利益诉求，定义了几层，其中一个是核心的 昇思MindSpore 框架要升级支持神经网络，将一些科学计算、概率计算、排序的、微分的库等统一划分在其中，但不是单纯的糅合，而是互相之间可以自动并行。另外，我们规划了 “10+1” 的库，“10” 是指通过科学家们计算规划出来的十个科学领域，原来科学领域有 8 个方程主导，但有一些方程进行演化，如果它演化出来气象，那气象就会单独列出来。“+1” 比较特别，“1” 是一个通用的库，比如说库里面的一个傅里叶神经网络模型可以布在方程里，因为那些方程很多的求解方式都离不开神经网络，也离不开傅里叶变换，它不是只针对电、磁，或者牛顿方程等，而是通用的。这个 “10+1” 也是业界首创的一个规划，其中 “+1” 的主要策略就是复现业界最强的软件。",{"type":17,"tag":25,"props":195,"children":196},{},[197],{"type":23,"value":198},"我们也与国内很多老师联合，也包括通过人工智能学会、科技部、工信部等参与活动，但前提是基于昇思 MindSpore 与昇腾。举个例子，我们与人大的老师联合，他做了一个新的神经网络，这个神经网络非常厉害，而且也发表在《Nature》 的子刊上了，那这个模型可以做到什么样子呢？将电或者磁以及流体统一在一个模型里面，但如果仅仅只是一个模型，很多科学家就会觉得不美观，所以它里面新增加了一个功能，可以将这个神经网络转换成一个微分方程，最终做出来的感觉非常炫。",{"type":17,"tag":25,"props":200,"children":201},{},[202],{"type":17,"tag":38,"props":203,"children":204},{},[205],{"type":23,"value":206},"AI框架的机遇与挑战",{"type":17,"tag":25,"props":208,"children":209},{},[210,212,216],{"type":23,"value":211},"**企业跟模型公司对 AI 框架的选择。在数据管线阶段， AI 发展有什么新的机会么？**",{"type":17,"tag":38,"props":213,"children":214},{},[215],{"type":23,"value":49},{"type":23,"value":217},"：像华为有做数据存储的，也有做数据平台的，随着 AI 演进到大模型时代，他们会在网上积极的观察，了解客户真实的痛点，以及需要改变的地方。举几个例子：大模型和存储的联动非常关键，因为大模型的数据量大，模型也很大，上一次华为存储一体机发布时提到：大模型在训练过程中的时间非常漫长，如果没有备份，坏一次就得重新做，所以存储计算的配合非常关键，而这一点业界大部分人都做不了，也只有谷歌、微软或者 Meta 可以。我们可以看到大概几个小时就要存一次训练过程中的 checkpoint（快照），而这个过程与 IO 存储硬件极其相关，所以通过一个存储一体机就能高可用、高可靠、高性能地将大模型训练出来。这个是纯硬件的部分，当然后续还会有很多很多的点，可能现在我们还没有特别挖掘出来，比如说大模型未来真正部署上线时，会有离线推理以及增量、全量推理等，这对存储的硬件设备有很高的诉求。对于数据的平台管线，以谷歌为例，TensorFlow 是它的数据管线中的一环，叫 TFX 管线（因为计算框架叫 TF，所以管线叫 TFX-TensorFlow Extended，是围绕 TensorFlow 来配合的），这个管线里有数据的存储，包括数据格式的定义，还有做数据切分、增强的库，以及数据的审计、数据的可靠性、数据安全等等。而大模型时代来了以后，这个管线就变得不太一样了，在大模型方面，公司一直强调的是数据飞轮的状态，比如说大模型训练完上线之后，客户使用时如何保证客户数据的安全？以及模型再更新后如何区分客户的数据贡献？这都属于数据飞轮里面的安全管理、定价管理，以及数据和模型的区分等等。目前这些可能还没有特别清晰的划分，至少还未形成一个类似于 Spark 这种大数据处理引擎，但我认为数据管线肯定会围绕计算框架和大模型，发生一个大变革。",{"type":17,"tag":25,"props":219,"children":220},{},[221,223,227],{"type":23,"value":222},"**请您分享一下算力侧的机遇与挑战。**",{"type":17,"tag":38,"props":224,"children":225},{},[226],{"type":23,"value":49},{"type":23,"value":228},"：其实 AI 由数据、算法、算力组成，框架在中间将三者连接起来，其中算力是一道门槛，也是为什么许多人做不到 L0 模型的一个重要原因，在这里面算力我理解是泛算力的一种说法，在华为的术语上应该对应到，比如说我们真正的那块硬件，然后对应到算子库，再对应到框架，还对应到 ModelArts。在大模型时代，算力渐渐变成了一个大集群，那我们如能何将它高性能、高可靠地运维起来？刚才我们举了几个例子，性能是非常关键的，如果不仅仅只是看稳定训练那一阵儿的性能，而是也将断掉的那一阵也算上，Meta 的集群三天就会断一次，断一次起来要好几个小时，而我们是 30 天断一次，半个小时之内就能起来，那这样看来我们的性能比 Meta 还要强。当然这个可靠性、可用性不单单是一个环节就能完成，而是整个算力集群软硬件的一体化。未来还有一个挑战，单纯从硬件上看，FP 16（半精度）、FP 32（单精度）、FP 64（双精度） 要更加平衡，另外里面的带宽，以及功耗等一系列都需要做好，上面的几个软件也需要升级，一个有意思的点就是未来大模型的训练和推理，必然是在一个集群上才能进一步降低成本把大模型商用起来，那这个应该怎么做呢？就是 AI 框架要和 serverless 结合在一起（serverless 完全将硬件和软件解耦出来，能动态调整资源），我觉得在算力的硬件底座上的可靠、可用、功耗等，再加上算子库的完备度，以及 AI 框架和 serverless 的融合，都需要巨大的升级才能真正带来大模型的红利，最终实现变现。",{"type":17,"tag":25,"props":230,"children":231},{},[232,234,238,240],{"type":23,"value":233},"**对企业或者是想要做模型的公司而言，AI 框架的项目，以及自身公司的服务与自研，他们应该如何选择会比较好？您是否有什么更具体的建议？**",{"type":17,"tag":38,"props":235,"children":236},{},[237],{"type":23,"value":49},{"type":23,"value":239},"：从我们跟客户的交流来看，客户分为几种类型，一种是实力特别强的，像讯飞、阿里、腾讯等等，也跟公司类似，全栈要自己开发，但是越往下门槛越高，比如说硬件，我们可能将硬件卖给他们，或者他们连我们的库都不需要，而是直接使用指令集，但这类客户不多，且有标杆效应。更多的行业客户和广度应该是再往上一点，他们不需要关注用什么硬件和软件，而是希望能开箱即用。我们在去年就发现，业界客户用到的典型 AI 产品，可能就 10 个套件，比如说做 OCR 的（票据识别），做人脸识别的，做语音、翻译的，还有生成的如 Stable Diffusion 等等，产品种类非常少，就这么几种，而且现在逐渐稳定了，大模型出现以后，小模型的创新较之前停滞了许多，所以我们就将它们做成套件，就是昇思 MindSpore 的 10 个套件，而且将性能和精度做到业界最强，集成之后客户就可以直接用。还有一类，就是需要创新突破的做研究的这帮人，我们也需要将这一层的接口开放出来，但这一类就是研究类，并不属于行业客户。总而言之，目前大概就这么几类人群，行业客户大部分还是聚焦在套件上。 ",{"type":17,"tag":38,"props":241,"children":242},{},[243],{"type":23,"value":244},"社区的运营",{"type":17,"tag":25,"props":246,"children":247},{},[248,250,254],{"type":23,"value":249},"**您觉得昇思 MindSpore 社区的发展现状如何？发展过程中是否有碰到什么挑战？**",{"type":17,"tag":38,"props":251,"children":252},{},[253],{"type":23,"value":49},{"type":23,"value":255},"：现在社区可能要有一个转变，以前的运营主力是我们，但是社区或者说昇思 MindSpore 的成功是需要其他人参与的，比如 Pytorch 的核心就一点点，但是它外面生长出来的部分都是其他人做的，在这一点上我们与 Pytorch 存在差距。所以下一步就是要转变，要有一些高精尖的东西，比如说像刚才说 ChatGPT、AlphaFold 第一版、以及天气预报的模型等都原生在昇思 MindSpore 上，类似这种的是我们第一个想做的事情。第二个就是通过这些东西，不断完善基础能力，让行业客户和研究者们能主动来贡献、主动来主导。目前我们正处于一个由我们主动慢慢转变成生态伙伴们主动的时期，这个转变时期有技术的挑战，也有运营的挑战。",{"type":17,"tag":25,"props":257,"children":258},{},[259,261,265],{"type":23,"value":260},"**请问您对开源雨林有什么期待，希望我们接下来做哪些事情？**",{"type":17,"tag":38,"props":262,"children":263},{},[264],{"type":23,"value":49},{"type":23,"value":266},"：刘老师和开源雨林应该是我们整个开源界的先驱、领路者，回想一路走来，我们踩过的坑、交的学费，如果前面有很多的泰斗或者先驱者们能帮我们提前把脉，给我们建议，那我们就可以腾飞得更快一点。从微观来说，希望能与刘老师以及开源雨林多多互动，昇思 MindSpore 的技术专家/项目经理如果合适都可以一块儿参加开源雨林的活动，我们也多多分享昇思 MindSpore 的经验，刘老师也能给我们一些建议，比如刘老师您刚才提的案例这件事儿我觉得就很好，AI 的门槛其实挺高的，如果有案例册，客户就能通过案例册了解到社区的很多事情。",{"title":7,"searchDepth":268,"depth":268,"links":269},4,[],"markdown","content:news:zh:2862.md","content","news/zh/2862.md","news/zh/2862","md",1776506074615]