场景支持
场景 | 模型 | Atlas 800T 900 A2 | Atlas 800T A3 | 香橙派 | 获取模型与权重 |
---|---|---|---|---|---|
预训练 | DeepSeek V3 | 链接 | |||
STF | DeepSeek V3 | 链接 | |||
DeepSeek-R1-Distill-Qwen | 链接 | ||||
强化学习 | DeepSeek-R1-ZERO-Qwen2.5-7B/32B | 链接 | |||
DeepSeek-R1-Qwen2.5-7B/32B | - | ||||
DeepSeek-R1-ZERO-DeepSeek-V3 | 链接 | ||||
DeepSeek-R1-DeepSeek-V3 | 链接 | ||||
推理 | Qwen2.5-7B/32B | 链接 | |||
DeepSeek-V3 W8A8 | 链接 | ||||
DeepSeek-V3-0324 W4A16 | 链接 | ||||
DeepSeek-R1-W8A8 | 链接 | ||||
DeepSeek-R1 W4A16 | 链接 | ||||
DeepSeek-Janus-Pro | 链接 |
关键能力
预训练/SFT
多维混合并行
FlashAttention加速
1B1F通信掩盖
长序列
DualPipe
MoE dw通信掩盖
MTP
Grouped MatMul
机间通讯合并
MLA
强化学习
训推共集群部署
支持vLLM
权重在线重排
支持Ray
推理
支持vLLM
MTP
融合算子加速
支持多维混合并行
W8A8 int8 量化
支持服务化部署
W4A16 int4量化
使用教程
满意度问卷