廖维明
首页关于项目博客
返回博客列表

标签

CUTLASS1 篇文章

vLLM 与 NVIDIA 加速库:从 CUTLASS 到全栈 Kernel 选择的深度剖析

2026年3月10日

深入剖析 vLLM 如何使用 NVIDIA 加速库全栈:CUTLASS 量化 GEMM(FP8/INT8/W4A8)、cuBLAS 密集计算、FlashInfer 注意力引擎、Triton 自定义 kernel,以及 2:4 结构化稀疏。源码级分析 kernel 选择逻辑、架构适配策略和性能对比。

vLLMCUTLASSNVIDIACUDAAI Infra量化推理

导航

  • 首页
  • 关于
  • 项目
  • 博客

技术栈

  • AI Agent / LLM
  • 推理优化 / vLLM
  • Data + AI
  • Cloud Native

联系

  • liaowm5@email.com
  • GitHub

© 2026 廖维明. All rights reserved.