深入剖析 vLLM 如何使用 NVIDIA 加速库全栈:CUTLASS 量化 GEMM(FP8/INT8/W4A8)、cuBLAS 密集计算、FlashInfer 注意力引擎、Triton 自定义 kernel,以及 2:4 结构化稀疏。源码级分析 kernel 选择逻辑、架构适配策略和性能对比。