廖维明
首页关于项目博客
返回博客列表

标签

MoE1 篇文章

vLLM fused_moe Kernel 深度剖析:Know Why & Know How

2026年3月9日

从 MoE 架构本质出发,深入 vLLM fused_moe Triton kernel 的实现细节:门控融合动机、token routing 与 block 对齐、分块 GEMM 的内存布局、FP8 量化路径、Expert Parallel 通信,以及 DeepSeek V3/Mixtral 等模型的实际受益分析。

vLLMMoETritonCUDAAI InfraDeepSeek

导航

  • 首页
  • 关于
  • 项目
  • 博客

技术栈

  • AI Agent / LLM
  • 推理优化 / vLLM
  • Data + AI
  • Cloud Native

联系

  • liaowm5@email.com
  • GitHub

© 2026 廖维明. All rights reserved.