廖维明
首页关于项目
返回博客列表

标签

SM1 篇文章

vLLM 对不同 GPU SM 架构的适配机制深度剖析

2026年3月18日

系统梳理 vLLM 如何针对 SM70(V100) 到 SM121(DGX Spark) 八代 GPU 选择不同的 Attention 后端、GEMM kernel、MoE 实现和量化路径。源码级分析 kernel 选择逻辑,附完整的 SM×功能支持矩阵,并以 1Cat-vLLM 社区分支为例探讨向下兼容的工程挑战。

vLLMCUDAGPU架构SMAI InfraCUTLASS

导航

  • 首页
  • 关于
  • 项目
  • 博客

技术栈

  • AI Agent / LLM
  • 推理优化 / vLLM
  • Data + AI
  • Cloud Native

联系

  • liaowm5@email.com
  • GitHub

© 2026 廖维明. All rights reserved.