C++ API
JAVA API
Python API
C API
LLMEngine的状态类,用于表示推理任务状态。
获取该LLMEngine的prompt KV cache空计数。
获取PagedAttention空闲块数量。
获取PagedAttention块总数。
获取PagedAttention块大小。