系统梳理 vLLM 如何针对 SM70(V100) 到 SM121(DGX Spark) 八代 GPU 选择不同的 Attention 后端、GEMM kernel、MoE 实现和量化路径。源码级分析 kernel 选择逻辑,附完整的 SM×功能支持矩阵,并以 1Cat-vLLM 社区分支为例探讨向下兼容的工程挑战。