DeepSeek专区 | 昇思MindSpore社区

场景支持

场景	模型	Atlas 800T 900 A2	Atlas 800T A3	香橙派	获取模型与权重
预训练	DeepSeek V3				链接
SFT	DeepSeek V3				链接
SFT	DeepSeek-R1-Distill-Qwen				链接
强化学习	DeepSeek-R1-ZERO-Qwen2.5-7B/32B				链接
	DeepSeek-R1-Qwen2.5-7B/32B				-
	DeepSeek-R1-ZERO-DeepSeek-V3				链接
	DeepSeek-R1-DeepSeek-V3				链接
推理	Qwen2.5-7B/32B				链接
	DeepSeek-V3-0324 W4A16				链接
	DeepSeek-R1 W4A16				链接
	DeepSeek-Janus-Pro				链接

关键能力

预训练/SFT

多维混合并行

FlashAttention加速

1B1F通信掩盖

长序列

DualPipe

MoE dw通信掩盖

MTP

Grouped MatMul

机间通讯合并

MLA

强化学习

训推共集群部署

支持vLLM

权重在线重排

支持Ray

推理

支持vLLM

MTP

融合算子加速

支持多维混合并行

W8A8 int8 量化

支持服务化部署

W4A16 int4量化

快速体验

DeepSeek V3 开箱即用

基于昇思MindSpore的DeepSeek-V3已上线开源社区

Janus-Pro香橙派开发板实践

人人都能上手部署DeepSeek模型

使用教程

训推全面支持、开箱即用！DeepSeek V3昇思MindSpore版本上线开源社区

DeepSeek-V3预训练与微调教程

MindSpore Transformers支持DeepSeek-R1蒸馏全流程

技术干货

全流程加速MoE模型预训练及强化学习！揭秘昇思MindSpore并行技术

为强化学习开发者提供了训练接口，支持算法快速开发，提供多种训练优化技术。

鹏城实验室发布基于昇思框架、昇腾硬件的强化学习训练框架GRPO-Training-Suite

当前代码已在启智社区和昇思社区开源，根据本教程，用户可以快速上手体验，探索强化学习的奥秘！

携手北京大学，MindSpore+openEuler打造支持vLLM的DeepSeek全栈开源推理方案

2025年，以DeepSeek-R1为代表的AI大模型正以惊人的速度重塑产业格局。