模型支持库

查看源文件

本页为 MindSpore Transformers 的统一「模型支持库」。表格中的 实现形态 列标注每个模型当前支持的运行模式:

  • 动态图(PyNative):通过 --mode 1 启动,逐算子下发、即时执行,便于调试与开发。当前动态图已支持的模型见下表标注,对应实现位于 mindformers/models/*/modeling_*_pynative.py

  • 静态图(GRAPH_MODE):图编译后整图执行,相关说明详见静态图实现

动态图当前已支持:DeepSeek-V3(MoE + MLA + MTP)、Qwen3(Dense)。其余既有模型为静态图实现。

模型列表

模型名

支持规格

模型类型

模型架构

实现形态

最新支持版本

DeepSeek-V3

671B

稀疏LLM

Mcore/Legacy

动态图/静态图

1.7.0、在研版本

Qwen3

0.6B/1.7B/4B/8B/14B/32B

稠密LLM

Mcore

动态图/静态图

1.7.0、在研版本

Qwen3-MoE

30B-A3B/235B-A22B

稀疏LLM

Mcore

静态图

1.7.0、在研版本

GLM4.5

106B-A12B/355B-A32B

稀疏LLM

Mcore

静态图

1.7.0、在研版本

GLM4

9B

稠密LLM

Mcore/Legacy

静态图

1.7.0、在研版本

Qwen2.5

0.5B/1.5B/7B/14B/32B/72B

稠密LLM

Legacy

静态图

1.7.0、在研版本

TeleChat2

7B/35B/115B

稠密LLM

Mcore

静态图

1.7.0、在研版本

Llama3.1

8B/70B

稠密LLM

Legacy

静态图

1.7.0

Mixtral

8x7B

稀疏LLM

Legacy

静态图

1.7.0

CodeLlama

34B

稠密LLM

Legacy

静态图

1.5.0

CogVLM2-Image

19B

MM

Legacy

静态图

1.5.0

CogVLM2-Video

13B

MM

Legacy

静态图

1.5.0

DeepSeek-V2

236B

稀疏LLM

Legacy

静态图

1.5.0

DeepSeek-Coder-V1.5

7B

稠密LLM

Legacy

静态图

1.5.0

DeepSeek-Coder

33B

稠密LLM

Legacy

静态图

1.5.0

GLM3-32K

6B

稠密LLM

Legacy

静态图

1.5.0

GLM3

6B

稠密LLM

Legacy

静态图

1.5.0

InternLM2

7B/20B

稠密LLM

Legacy

静态图

1.5.0

Llama3.2

3B

稠密LLM

Legacy

静态图

1.5.0

Llama3.2-Vision

11B

MM

Legacy

静态图

1.5.0

Llama3

8B/70B

稠密LLM

Legacy

静态图

1.5.0

Qwen2

0.5B/1.5B/7B/57B/57B-A14B/72B

稠密/稀疏LLM

Legacy

静态图

1.5.0

Qwen1.5

7B/14B/72B

稠密LLM

Legacy

静态图

1.5.0

Qwen-VL

9.6B

MM

Legacy

静态图

1.5.0

TeleChat

7B/12B/52B

稠密LLM

Legacy

静态图

1.5.0

Whisper

1.5B

MM

Legacy

静态图

1.5.0

Yi

6B/34B

稠密LLM

Legacy

静态图

1.5.0

YiZhao

12B

稠密LLM

Legacy

静态图

1.5.0

Llama2

7B/13B/70B

稠密LLM

Legacy

静态图

1.3.2

Baichuan2

7B/13B

稠密LLM

Legacy

静态图

1.3.2

GLM2

6B

稠密LLM

Legacy

静态图

1.3.2

GPT2

124M/13B

稠密LLM

Legacy

静态图

1.3.2

InternLM

7B/20B

稠密LLM

Legacy

静态图

1.3.2

Qwen

7B/14B

稠密LLM

Legacy

静态图

1.3.2

CodeGeex2

6B

稠密LLM

Legacy

静态图

1.1.0

WizardCoder

15B

稠密LLM

Legacy

静态图

1.1.0

Baichuan

7B/13B

稠密LLM

Legacy

静态图

1.0

Blip2

8.1B

MM

Legacy

静态图

1.0

Bloom

560M/7.1B/65B/176B

稠密LLM

Legacy

静态图

1.0

Clip

149M/428M

MM

Legacy

静态图

1.0

CodeGeex

13B

稠密LLM

Legacy

静态图

1.0

GLM

6B

稠密LLM

Legacy

静态图

1.0

iFlytekSpark

13B

稠密LLM

Legacy

静态图

1.0

Llama

7B/13B

稠密LLM

Legacy

静态图

1.0

MAE

86M

MM

Legacy

静态图

1.0

Mengzi3

13B

稠密LLM

Legacy

静态图

1.0

PanguAlpha

2.6B/13B

稠密LLM

Legacy

静态图

1.0

SAM

91M/308M/636M

MM

Legacy

静态图

1.0

Skywork

13B

稠密LLM

Legacy

静态图

1.0

Swin

88M

MM

Legacy

静态图

1.0

T5

14M/60M

稠密LLM

Legacy

静态图

1.0

VisualGLM

6B

MM

Legacy

静态图

1.0

Ziya

13B

稠密LLM

Legacy

静态图

1.0

Bert

4M/110M

稠密LLM

Legacy

静态图

0.8

注:LLM 表示大语言模型(Large Language Model);MM 表示多模态(Multi-Modal)。实现形态 列中标注「动态图/静态图」的模型同时支持两种运行模式;动态图启动方式见 快速开始,静态图实现详见静态图实现