博客

分享 AI Agent、推理优化、大数据和云原生等技术实践。

vLLM 对不同 GPU SM 架构的适配机制深度剖析

2026年3月18日

系统梳理 vLLM 如何针对 SM70(V100) 到 SM121(DGX Spark) 八代 GPU 选择不同的 Attention 后端、GEMM kernel、MoE 实现和量化路径。源码级分析 kernel 选择逻辑，附完整的 SM×功能支持矩阵，并以 1Cat-vLLM 社区分支为例探讨向下兼容的工程挑战。

vLLMCUDAGPU架构SMAI InfraCUTLASS

从 llama.py 源码出发：vLLM 分布式推理机制深度剖析

2026年3月16日

以 vLLM 中 LlamaForCausalLM 的真实源码为入口，逐层拆解 Tensor Parallel 的权重切分（QKVParallelLinear、MergedColumnParallelLinear、RowParallelLinear）、Pipeline Parallel 的层间分配、PagedAttention 与分布式的结合，并以 Llama 3 70B 在 4×A100 上的具体数字示例说明。

vLLM分布式推理Tensor ParallelPipeline ParallelLLM

vLLM 与 NVIDIA 加速库：从 CUTLASS 到全栈 Kernel 选择的深度剖析

2026年3月10日

深入剖析 vLLM 如何使用 NVIDIA 加速库全栈：CUTLASS 量化 GEMM（FP8/INT8/W4A8）、cuBLAS 密集计算、FlashInfer 注意力引擎、Triton 自定义 kernel，以及 2:4 结构化稀疏。源码级分析 kernel 选择逻辑、架构适配策略和性能对比。

vLLMCUTLASSNVIDIACUDAAI Infra量化推理

vLLM fused_moe Kernel 深度剖析：Know Why & Know How

2026年3月9日

从 MoE 架构本质出发，深入 vLLM fused_moe Triton kernel 的实现细节：门控融合动机、token routing 与 block 对齐、分块 GEMM 的内存布局、FP8 量化路径、Expert Parallel 通信，以及 DeepSeek V3/Mixtral 等模型的实际受益分析。

vLLMMoETritonCUDAAI InfraDeepSeek

OpenClaw 深度解析：第一性原理看 2026 年个人 AI 助理的开端

2026年3月9日

从第一性原理出发，剖析为什么 2026 年是个人 AI 助理真正可用的元年。深入 OpenClaw 的 Gateway 架构、多渠道接入、技能系统、记忆系统与节点控制，探讨开源个人助理的独特定位与未来方向。

OpenClawAI AssistantAgent开源第一性原理

vLLM 深度解析：从 PagedAttention 到生产部署

2026年3月7日

全面剖析 vLLM 推理引擎：PagedAttention 内存管理、Continuous Batching 调度、架构设计、多卡推理原理，以及与 TGI/SGLang/TensorRT-LLM 的对比和生产部署实践。

vLLM推理优化LLMAI InfraPagedAttention

Ray：LLM 时代的分布式计算底座

2026年3月5日

深入解析 Ray 的架构设计、Core 三原语（Task/Actor/Object）、AI Libraries 生态以及在 LLM 训练和推理场景中的生产实践。

Ray分布式计算AI InfraLLMvLLM

2026年是 Multi Agent 元年

2026年3月1日

从行业标志性事件、核心架构模式、主流框架对比到实际落地案例，系统梳理为什么 2026 年是 Multi Agent 真正走向生产的元年。

AI AgentMulti AgentLangGraphCrewAIMCP工程实践

工程师的 AI 学习指南：从数学基础到生产落地

2025年2月28日

一份面向工程师的 AI 系统学习路径，从线性代数到 Transformer，从推理优化到 Agent 落地，结合实际工程经验梳理核心知识体系。

AILLM学习指南Transformer推理优化AI InfraAI Agent

vLLM 推理优化实践

2024年8月15日

深入探讨 vLLM 推理引擎的优化策略，包括 PagedAttention、连续批处理和量化部署的实战经验。

vLLM推理优化LLMAI Infra

AI Agent 工程实践：从 ReAct 到生产落地

2024年6月20日

分享 AI Agent 在企业级应用中的工程实践经验，包括 ReAct 模式、工具调用和生产部署的关键要点。

AI AgentLLMReAct工程实践

湖仓一体数据平台建设实践

2024年4月10日

分享基于 Spark、Flink 和 ClickHouse 构建湖仓一体数据平台的架构设计与实践经验。

数据平台SparkFlinkClickHouse

云原生实践：Kubernetes 部署与监控

2024年3月5日

介绍基于 Kubernetes 的云原生部署方案，以及使用 Prometheus + Grafana 构建监控体系的实践。

Kubernetes云原生Docker监控

欢迎来到我的博客

2024年1月15日

这是我的第一篇博客文章，介绍这个个人技术网站。