场景支持
场景 | 模型 | Atlas 800T 900 A2 | Atlas 800T A3 | 香橙派 | 获取模型与权重 |
---|---|---|---|---|---|
预训练 | DeepSeek V3 | 链接 | |||
STF | DeepSeek V3 | 链接 | |||
DeepSeek-R1-Distill-Qwen | 链接 | ||||
强化学习 | DeepSeek-R1-ZERO-Qwen2.5-7B/32B | 链接 | |||
DeepSeek-R1-Qwen2.5-7B/32B | - | ||||
DeepSeek-R1-ZERO-DeepSeek-V3 | 链接 | ||||
DeepSeek-R1-DeepSeek-V3 | 链接 | ||||
推理 | Qwen2.5-7B/32B | 链接 | |||
DeepSeek-V3 W8A8 | 链接 | ||||
DeepSeek-V3-0324 W4A16 | 链接 | ||||
DeepSeek-R1-W8A8 | 链接 | ||||
DeepSeek-R1 W4A16 | 链接 | ||||
DeepSeek-Janus-Pro | 链接 |
关键能力
预训练/SFT
多维混合并行
FlashAttention加速
1B1F通信掩盖
长序列
DualPipe
MoE dw通信掩盖
MTP
Grouped MatMul
机间通讯合并
MLA
强化学习
训推共集群部署
支持vLLM
权重在线重排
支持Ray
推理
支持vLLM
MTP
融合算子加速
支持多维混合并行
W8A8 int8 量化
支持服务化部署
W4A16 int4量化