返回博客列表
标签
CUDA2 篇文章vLLM 与 NVIDIA 加速库:从 CUTLASS 到全栈 Kernel 选择的深度剖析
深入剖析 vLLM 如何使用 NVIDIA 加速库全栈:CUTLASS 量化 GEMM(FP8/INT8/W4A8)、cuBLAS 密集计算、FlashInfer 注意力引擎、Triton 自定义 kernel,以及 2:4 结构化稀疏。源码级分析 kernel 选择逻辑、架构适配策略和性能对比。
vLLMCUTLASSNVIDIACUDAAI Infra量化推理
vLLM fused_moe Kernel 深度剖析:Know Why & Know How
从 MoE 架构本质出发,深入 vLLM fused_moe Triton kernel 的实现细节:门控融合动机、token routing 与 block 对齐、分块 GEMM 的内存布局、FP8 量化路径、Expert Parallel 通信,以及 DeepSeek V3/Mixtral 等模型的实际受益分析。
vLLMMoETritonCUDAAI InfraDeepSeek