从 MoE 架构本质出发,深入 vLLM fused_moe Triton kernel 的实现细节:门控融合动机、token routing 与 block 对齐、分块 GEMM 的内存布局、FP8 量化路径、Expert Parallel 通信,以及 DeepSeek V3/Mixtral 等模型的实际受益分析。