返回项目列表

GPTQModel

LLM量化GPTQPython推理优化

大语言模型 GPTQ 量化工具库,支持将 LLM 模型量化为 4-bit/8-bit 以降低推理显存占用和提升推理速度。基于 GPTQ 算法实现,提供简洁的 Python API,兼容 vLLM、Transformers 等主流推理框架,广泛应用于模型部署场景。