代码
大模型“吞噬”应用和生态

大模型“吞噬”应用和生态

大模型“吞噬”应用和生态

作者:金雪锋来源:知乎

文章链接:https://zhuanlan.zhihu.com/p/631250773

前段时间参加了CSDN的一个圆桌会议,讨论大模型对应用开发的影响,现在重新把自己的观点梳理了一下,拿出来分享。

1 大模型标志着第四次工业革命真正进入了快车道

大家都在提四次工业革命,机械化——>电气化——>信息化——>智能化,我谈谈自己的理解:

  • 能力抽象的角度:大家谈第三次工业革命,更多强调个人PC、互联网/移动互联网以及云计算这些业务形态;谈第四次工业革命,主要也是说人工智能这个技术,不过从工业发展的角度看,算力和智力的抽象可能更能反映基础设施对产业变革的影响。
  • 能力递进的角度:机械的广泛使用为电力的诞生产生了条件,电力则是算力产生的基础,最后算力又是智力的涌现的基石。
  • 能力供给的角度:效果和效率是每一次工业革命成功的关键,大模型出现后,效果超出大家预期,同时相比小模型,模型算法收敛,智力可以集中供给,智能化终于出现拐点,第四次工业革命进入快车道。

2 大模型对软件开发/应用开发的影响

2.1 软件开发3.0

第一个是对软件工程的影响,大模型出现后,软件工程进入了软件工程3.0时代:

  • 软件工程1.0:解决软件开发的标准化/规范化,提升了软件开发的质量,代表是瀑布模型、CMMI规范
  • 软件工程2.0:解决软件开发的效率,强调敏捷、DevOps、持续交付等
  • 软件工程3.0:引入人工智能的技术,特别是大模型的技术,实现软件开发的自动化、平民化等。

2.2 软件3.0/4.0

第二个是对软件形态的影响,大模型出现后,软件将进入3.0/4.0时代,其主要特征是prompt编程将成为软件的很重要一部分,许多软件将内嵌大模型的能力,同时prompt代码与传统软件代码会进行有效的协同。

3 大模型对应用开发范式的影响

为什么软件/应用会与大模型紧密结合?我想最主要的原因是,大模型会对应用的开发范式产生极大的影响。

传统应用软件的编程范式,特别是桌面程序/App,主要就是MVC,当然MVC到现在有许多变种,这里就不一一介绍了:

• Model:数据对象

• View:UI交互

• Controller:控制,业务逻辑

而大模型的关键能力是:自然语言交互、归纳和推理、认知,这三块能力恰好能对MVC这种模式产生颠覆作用:

• 数据:从数据访问走向大模型的认知

• 交互:UI交互走向自然语言交互

• 控制:从人工写的代码逻辑走向大模型的推理和归纳

当大量的应用采用全新的方式去重构软件架构,就将出现大模型“吞噬”或者改变应用。

4 大模型如何“吞噬”应用

大模型系统成为智能时代的“Android”

• 简单的应用,比如提供数据源(日历)和弱控制(家电控制),会被大模型系统聚合,这些应用蜕变成一个Plugin接入到这个大模型系统中,成为南向,而大模型系统则变成了一个超级应用,为所有这些plugin提供自然交互和控制能力,典型的例子是ChatGPT Plugin体系,这里plugin为大模型系统提供数据获取、逻辑推理、服务调用等能力。

• 复杂的应用,则会被重构,演进到AI Native的架构,特点就是与大模型结合,使用大模型系统提供的SDK,实现全新的交互、控制和认知能力,成为大模型系统的北向,比如微软 365加持copilot,为365提供:1、内容生成—释放创造力,word/ppt/excel等内容生成,帮你写草稿;2、推理和归纳—释放生产力,自动执行任务/内容总结/自动回复邮件等;3、提升技能:原来90%没有被大家普遍使用的功能和特性,都逐步被挖掘出来,比如在Excel中大量的公式,以前需要熟手才能使用,现在通过自然语言的交互和理解,就可以轻松使用。

• 最终,大模型系统通过南北向的开放生态架构“吞噬”应用,把原来许多烟囱式的应用聚拢到大模型系统。

5 大模型时代,AI生态的变迁

大模型时代,有两个比较重要的生态圈:

  • 一是围绕大模型的应用生态,哪个模型的效果好/成本低,就有可能聚拢更多的应用开发者。
  • 二是围绕AI研究和开发的大模型预训练模型生态,谁的预训练模型搞的好,算法工程师可能就会围绕这个预训练模型来开发。

AI算法工程师的生态锚点一定程度上从AI框架的API转移到预训练模型上,大家可以看到大模型的模型结构是收敛的,都是Transformer结构,甚至是decoder only的架构,其模型的代码本身很少,模型代码本身的移植工作量不大,但是大模型的规模非常大,数据非常多,训练时间长,训练推理成本高,预训练模型如果进行重新训练,那工作量/成本是非常高的,所以大量的用户或者开发者都是拿训练好的预训练模型进行下一步的开发,这样预训练模型成为新的AI的生态锚点。

而AI框架的关注点将再次回到运行效率,包括性能/成本/时延、集群可靠性以及集群的可维可测;从技术上看,静态图将重新回到大家的视野,长稳训练和弹性训练优先变高,端侧支持大模型推理成为新的挑战,同时由于更多的大厂开始重新考虑自研面向大模型的AI芯片(微软/Meta),框架/硬件的软硬件垂直整合重新成为新的选择。