模型支持列表
下表列出了 LiteBoost 当前支持的模型及其特性支持情况。
模型 |
硬件 |
并行 |
Attention |
量化 |
融合算子 |
备注 |
|---|---|---|---|---|---|---|
Atlas 300I Duo 推理卡 |
USP (CP) |
NPU Flash Attention |
不支持 |
不支持 |
RoPE改写(float32实数运算+缓存) |
|
Atlas 300I Duo 推理卡 |
USP (CP) + DP(时间切片) |
NPU Flash Attention |
不支持 |
不支持 |
RoPE改写(float32实数运算+缓存) |
列说明:
模型:模型名称,超链接到 LiteBoost 源码中对应的 README。
硬件:支持的昇腾硬件平台。
并行:
ParallelManager应用的并行策略。USP (CP) = Ulysses序列并行(上下文并行)用于DiT;DP = 数据并行时间切片用于VAE。Attention:Attention 实现替换,自动回退链为 Flash Attention 3 → Flash Attention 2 →
npu_prompt_flash_attention。量化:是否支持量化。
融合算子:是否使用 C++ 融合算子(通过
TORCH_LIBRARY注册并调用 CANNaclnn接口)。RoPE改写属于 Python 层优化,不属于融合算子范畴。备注:其他优化细节。