返回博客列表
标签
CUTLASS2 篇文章vLLM 对不同 GPU SM 架构的适配机制深度剖析
系统梳理 vLLM 如何针对 SM70(V100) 到 SM121(DGX Spark) 八代 GPU 选择不同的 Attention 后端、GEMM kernel、MoE 实现和量化路径。源码级分析 kernel 选择逻辑,附完整的 SM×功能支持矩阵,并以 1Cat-vLLM 社区分支为例探讨向下兼容的工程挑战。
vLLMCUDAGPU架构SMAI InfraCUTLASS
vLLM 与 NVIDIA 加速库:从 CUTLASS 到全栈 Kernel 选择的深度剖析
深入剖析 vLLM 如何使用 NVIDIA 加速库全栈:CUTLASS 量化 GEMM(FP8/INT8/W4A8)、cuBLAS 密集计算、FlashInfer 注意力引擎、Triton 自定义 kernel,以及 2:4 结构化稀疏。源码级分析 kernel 选择逻辑、架构适配策略和性能对比。
vLLMCUTLASSNVIDIACUDAAI Infra量化推理