模型支持库
本页为 MindSpore Transformers 的统一「模型支持库」。表格中的 实现形态 列标注每个模型当前支持的运行模式:
动态图(PyNative):通过
--mode 1启动,逐算子下发、即时执行,便于调试与开发。当前动态图已支持的模型见下表标注,对应实现位于mindformers/models/*/modeling_*_pynative.py。静态图(GRAPH_MODE):图编译后整图执行,相关说明详见静态图实现。
动态图当前已支持:DeepSeek-V3(MoE + MLA + MTP)、Qwen3(Dense)。其余既有模型为静态图实现。
模型列表
模型名 |
支持规格 |
模型类型 |
模型架构 |
实现形态 |
最新支持版本 |
|---|---|---|---|---|---|
671B |
稀疏LLM |
Mcore/Legacy |
动态图/静态图 |
1.7.0、在研版本 |
|
0.6B/1.7B/4B/8B/14B/32B |
稠密LLM |
Mcore |
动态图/静态图 |
1.7.0、在研版本 |
|
30B-A3B/235B-A22B |
稀疏LLM |
Mcore |
静态图 |
1.7.0、在研版本 |
|
106B-A12B/355B-A32B |
稀疏LLM |
Mcore |
静态图 |
1.7.0、在研版本 |
|
9B |
稠密LLM |
Mcore/Legacy |
静态图 |
1.7.0、在研版本 |
|
0.5B/1.5B/7B/14B/32B/72B |
稠密LLM |
Legacy |
静态图 |
1.7.0、在研版本 |
|
7B/35B/115B |
稠密LLM |
Mcore |
静态图 |
1.7.0、在研版本 |
|
8B/70B |
稠密LLM |
Legacy |
静态图 |
1.7.0 |
|
8x7B |
稀疏LLM |
Legacy |
静态图 |
1.7.0 |
|
34B |
稠密LLM |
Legacy |
静态图 |
1.5.0 |
|
19B |
MM |
Legacy |
静态图 |
1.5.0 |
|
13B |
MM |
Legacy |
静态图 |
1.5.0 |
|
236B |
稀疏LLM |
Legacy |
静态图 |
1.5.0 |
|
7B |
稠密LLM |
Legacy |
静态图 |
1.5.0 |
|
33B |
稠密LLM |
Legacy |
静态图 |
1.5.0 |
|
6B |
稠密LLM |
Legacy |
静态图 |
1.5.0 |
|
6B |
稠密LLM |
Legacy |
静态图 |
1.5.0 |
|
7B/20B |
稠密LLM |
Legacy |
静态图 |
1.5.0 |
|
3B |
稠密LLM |
Legacy |
静态图 |
1.5.0 |
|
11B |
MM |
Legacy |
静态图 |
1.5.0 |
|
8B/70B |
稠密LLM |
Legacy |
静态图 |
1.5.0 |
|
0.5B/1.5B/7B/57B/57B-A14B/72B |
稠密/稀疏LLM |
Legacy |
静态图 |
1.5.0 |
|
7B/14B/72B |
稠密LLM |
Legacy |
静态图 |
1.5.0 |
|
9.6B |
MM |
Legacy |
静态图 |
1.5.0 |
|
7B/12B/52B |
稠密LLM |
Legacy |
静态图 |
1.5.0 |
|
1.5B |
MM |
Legacy |
静态图 |
1.5.0 |
|
6B/34B |
稠密LLM |
Legacy |
静态图 |
1.5.0 |
|
12B |
稠密LLM |
Legacy |
静态图 |
1.5.0 |
|
7B/13B/70B |
稠密LLM |
Legacy |
静态图 |
1.3.2 |
|
7B/13B |
稠密LLM |
Legacy |
静态图 |
1.3.2 |
|
6B |
稠密LLM |
Legacy |
静态图 |
1.3.2 |
|
124M/13B |
稠密LLM |
Legacy |
静态图 |
1.3.2 |
|
7B/20B |
稠密LLM |
Legacy |
静态图 |
1.3.2 |
|
7B/14B |
稠密LLM |
Legacy |
静态图 |
1.3.2 |
|
6B |
稠密LLM |
Legacy |
静态图 |
1.1.0 |
|
15B |
稠密LLM |
Legacy |
静态图 |
1.1.0 |
|
7B/13B |
稠密LLM |
Legacy |
静态图 |
1.0 |
|
8.1B |
MM |
Legacy |
静态图 |
1.0 |
|
560M/7.1B/65B/176B |
稠密LLM |
Legacy |
静态图 |
1.0 |
|
149M/428M |
MM |
Legacy |
静态图 |
1.0 |
|
13B |
稠密LLM |
Legacy |
静态图 |
1.0 |
|
6B |
稠密LLM |
Legacy |
静态图 |
1.0 |
|
13B |
稠密LLM |
Legacy |
静态图 |
1.0 |
|
7B/13B |
稠密LLM |
Legacy |
静态图 |
1.0 |
|
86M |
MM |
Legacy |
静态图 |
1.0 |
|
13B |
稠密LLM |
Legacy |
静态图 |
1.0 |
|
2.6B/13B |
稠密LLM |
Legacy |
静态图 |
1.0 |
|
91M/308M/636M |
MM |
Legacy |
静态图 |
1.0 |
|
13B |
稠密LLM |
Legacy |
静态图 |
1.0 |
|
88M |
MM |
Legacy |
静态图 |
1.0 |
|
14M/60M |
稠密LLM |
Legacy |
静态图 |
1.0 |
|
6B |
MM |
Legacy |
静态图 |
1.0 |
|
13B |
稠密LLM |
Legacy |
静态图 |
1.0 |
|
4M/110M |
稠密LLM |
Legacy |
静态图 |
0.8 |
注:LLM 表示大语言模型(Large Language Model);MM 表示多模态(Multi-Modal)。实现形态 列中标注「动态图/静态图」的模型同时支持两种运行模式;动态图启动方式见 快速开始,静态图实现详见静态图实现。