以 vLLM 中 LlamaForCausalLM 的真实源码为入口，逐层拆解 Tensor Parallel 的权重切分（QKVParallelLinear、MergedColumnParallelLinear、RowParallelLinear）、Pipeline Parallel 的层间分配、PagedAttention 与分布式的结合，并以 Llama 3 70B 在 4×A100 上的具体数字示例说明。

vLLM分布式推理Tensor ParallelPipeline ParallelLLM

vLLM 与 NVIDIA 加速库：从 CUTLASS 到全栈 Kernel 选择的深度剖析

2026年3月10日

深入剖析 vLLM 如何使用 NVIDIA 加速库全栈：CUTLASS 量化 GEMM（FP8/INT8/W4A8）、cuBLAS 密集计算、FlashInfer 注意力引擎、Triton 自定义 kernel，以及 2:4 结构化稀疏。源码级分析 kernel 选择逻辑、架构适配策略和性能对比。

vLLMCUTLASSNVIDIACUDAAI Infra量化推理

vLLM fused_moe Kernel 深度剖析：Know Why & Know How

2026年3月9日

从 MoE 架构本质出发，深入 vLLM fused_moe Triton kernel 的实现细节：门控融合动机、token routing 与 block 对齐、分块 GEMM 的内存布局、FP8 量化路径、Expert Parallel 通信，以及 DeepSeek V3/Mixtral 等模型的实际受益分析。

vLLMMoETritonCUDAAI InfraDeepSeek