代码
中文

场景支持

场景
模型
Atlas 800T 900 A2
Atlas 800T A3
香橙派
获取模型与权重
预训练DeepSeek V3
链接
STFDeepSeek V3
链接
DeepSeek-R1-Distill-Qwen
链接
强化学习DeepSeek-R1-ZERO-Qwen2.5-7B/32B
链接
DeepSeek-R1-Qwen2.5-7B/32B
-
DeepSeek-R1-ZERO-DeepSeek-V3
链接
DeepSeek-R1-DeepSeek-V3
链接
推理Qwen2.5-7B/32B
链接
DeepSeek-V3 W8A8
链接
DeepSeek-V3-0324 W4A16
链接
DeepSeek-R1-W8A8
链接
DeepSeek-R1 W4A16
链接
DeepSeek-Janus-Pro
链接

关键能力

预训练/SFT

多维混合并行
FlashAttention加速
1B1F通信掩盖
长序列
DualPipe
MoE dw通信掩盖
MTP
Grouped MatMul
机间通讯合并
MLA

强化学习

训推共集群部署
支持vLLM
权重在线重排
支持Ray

推理

支持vLLM
MTP
融合算子加速
支持多维混合并行
W8A8 int8 量化
支持服务化部署
W4A16 int4量化