昇思携手openEuler打造的DeepSeek全栈开源方案亮相华为伙伴大会

2025/03/25

昇思携手openEuler打造的DeepSeek全栈开源方案亮相华为伙伴大会

2025年3月20 - 21日，深圳——在华为伙伴大会现场，OpenAtom openEuler（简称"openEuler"）社区联合MindSpore社区以生态共建者身份发布了openEuler与MindSpore DeepSeek全栈开源方案，此次发布标志着全栈开源方案发展成熟。现场演示&参与展台吸引了超100家行业龙头企业代表及产业专家围观。

本次发布的openEuler与MindSpore DeepSeek全栈开源方案，实现了端到端部署时长天级到分钟级，大并发推理吞吐达到1400Tokens/s，DeepSeek大模型推理性能开箱即优。openEuler实现以下核心技术：

**1） Function Call：**实现语言大模型对工具的调用；

**2）RAG：**通过检索增强生成构建企业领域知识库；

3）openEuler 大模型智能系统: 通过Function Call 精准选择agent执行，提升任务执行效率；

**4）openEuler 异构融合细粒度感知调度：**感知细粒度异构资源，对业务进行精准协同调度，提升整体推理性能；

5**）vLLM-MindSpore插件：**支持MindSpore原生大模型接入vLLM框架，通过整图编译、量化等能力加速推理。

**6）毕昇异构融合编译：**支持全链路软件栈编译优化和昇腾算子编译优化与融合。

值得关注的是，此方案正式发布前，openEuler社区、MindSpore社区与北京大学完成了场景验证，首次打通openEuler与MindSpore DeepSeek全栈开源推理方案的生产环境部署实践。相关技术细节可浏览《北京大学联合openEuler与MindSpore发布DeepSeek全栈开源解决方案》。

技术亮点剖析

openEuler与MindSpore DeepSeek全栈开源方案，基于行业发展态势与全栈开源客户潜在需求，本次发布的全栈方案提出了以下技术亮点：

Function Call特性

Function Call是大型语言模型（LLM）API中的革命性功能，它赋予开发者定义自定义函数的能力，使AI能够智能判断何时调用特定函数，并返回结构化数据。开发者通过JSON Schema定义函数名称、参数及类型等，系统智能分析用户输入的自然语言，当检测到需要调用外部功能时，模型自动匹配最合适的函数，生成符合预定格式的参数数据。这项技术彻底改变了传统API交互模式，将自然语言处理与程序化功能调用完美融合。

该全栈开源技术架构中，openEuler与MindSpore DeepSeek基于vLLM支持Function Call特性。openEuler提供安全可靠的异构计算环境，MindSpore实现动态计算图优化，DeepSeek V3/R1模型作为基座处理语义理解。通过异构融合内存、异构融合调度、毕昇异构融合编译与MindSpore算子融合等技术，openEuler 大模型智能系统利用语言大模型对工具的调用。

RAG检索增强生成特性

检索增强生成（RAG）作为大型语言模型（LLM）领域的一项关键创新，通过将实时检索系统与强大的文本生成能力相结合，有效地克服了传统模型受限于静态知识库的局限性。

这种机制相当于为语言模型配备了一个可以实时更新的“外部大脑”，使得AI系统不仅能够保持其自然语言处理的优势，还能够动态地访问最新且最相关的领域知识。对于企业用户而言，openEuler 大模型智能系统提供了一个理想的解决方案，可以基于私有领域的数据构建专门的知识库，并将其无缝集成至领先的大规模语言模型中。这使得企业能够迅速搭建起高效的问答系统，确保响应内容既贴合企业的具体需求，又能及时反映最新的行业动态和技术进展。

openEuler 大模型智能系统

Agent是大型语言模型（LLM）的重要应用，Agent根据设定的目标，确定好需要履行特定角色，自主观测感知环境，检索历史记忆以及相关知识，通过推理规划分解任务并确定行动策略，并反馈作用于环境，以达成目标。在这个过程中Agent持续学习，以像人类一样不断进化。

openEuler 大模型智能系统基于大模型构建智能运维、智能调优Agent, 通过推理抽象业务流程特征分解智能运维调优任务：运维流程分解为故障感知、故障定界、故障定位子任务，调优流程分解为数据采集、负载感知、参数推荐、智能调优子任务，通过Function Call精准选择小模型执行子任务，提升任务的执行效率。并且智能运维调优Agent结合故障模式库和调优参数知识库等领域知识，围绕RAG检索增强能力，智能推荐运维手段和调优参数，进一步提升了运维调优效率。

openEuler 异构融合细粒度感知调度

通过实时采集计算节点状态、任务特征及业务优先级等多维度数据，在业务容器中构建动态决策模型，实现CPU核级、内存页级甚至缓存行级的资源划分，突破传统系统调度隔离边界，支持毫秒级资源配额动态调整。针对高并发场景下推理服务、分布式计算组件Host侧资源争用的痛点，利用NUMA感知的细粒度算力与内存资源隔离，降低单并发推理时延；通过线程特性感知的细粒度内存分配、高性能代码段大页机制，在控制内存开销的同时，提升Host侧性能与整体推理吞吐。

针对MoE大模型数据并行不均衡与稀疏访存效特点，系统通过实时采集节点算力与设计拓扑结构，优先将算子下发进程映射到相应的NPU节点，减少跨NUMA通信开销。进一步通过Host/Device OS协同内存管理实现多粒度动态混合页、按需内存分配，减少页表访存开销同时提升显存利用效率，进而推高大并发推理吞吐。

MindSpore 图编译&量化&vLLM插件

为了获得极致的DeepSeek-V3/R1推理性能，MindSpore通过Jit编译的方式将模型实时编译成计算图，通过模式匹配自动寻优Cube-Vector计算，Vector-Vector计算、通信-计算等多类型算子组合的融合策略。相比于单一算子，计算类算子融合可显著降低数据的存取耗时，通信-计算类融合可有效压缩通信气泡。

为了适配vLLM框架，昇思MindSpore开发了vLLM-MindSpore插件，无缝支持了vLLM框架的Continuous Batching、Chunked Prefill等核心特性，并通过Multi-Step Scheduling缓解了服务调度时延瓶颈。

毕昇编译优化&异构融合编译

毕昇编译器通过架构亲和优化、循环优化、多级并行优化、指令优化、智能编译选项和链接时优化等编译技术，能够显著提升ARM 架构（尤其鲲鹏处理器）上的应用性能。在openEuler与MindSpore DeepSeek全栈开源方案中，使用llvm for openEuler针对算子下发阶段的性能瓶颈，通过CFGO优化、选项调优和链接时优化等技术优化Python、Mindspore和Ray等应用，使代码布局更优，有效提高程序IPC；通过架构亲和的原子指令优化和Malloc、Memcpy/Memset高性能库优化，提高内存利用效率，降低访存开销，进而降低时延，提高吞吐率。

毕昇异构融合算子优化技术为Multi-Step Scheduling等特性支持上，昇腾侧算子快速生成与编译支持，满足特性快速上线与开箱性能保证。结合Mindspore图编译，使能Vector-Vector、Cube-Vector、通信-计算等多类型融合算子的生成与编译优化。

未来蓝图披露

基于目前AI行业发展态势与开源软件客户潜在需求，openEuler全栈开源方案已规划出清晰的技术演进方向。通过下图所示技术路线，将在异构融合调度、DDR/HBM内存池、算子融合优化及异构编译器等方面实现持续突破。

产业生态共建

openEuler社区已面向开发者开源核心技术方案，诚邀行业伙伴、高校与个人开发者交流合作方案，通过联合创新实验室加速场景落地。可添加小助手微信加入 SIG-Long微信交流群，或访问Gitee平台了解相关材料、提交issue （https://gitee.com/openeuler/llm\_solution），与openEuler、MindSpore社区专家共筑智能未来。

学习

核心框架

大模型套件

科学计算套件

领域套件

工具

模型库

生态资源

技术学习

专区

社区组织

贡献与成长

开发者活动

互动交流

活动

动态

昇思携手openEuler打造的DeepSeek全栈开源方案亮相华为伙伴大会

昇思携手openEuler打造的DeepSeek全栈开源方案亮相华为伙伴大会