博客
分享 AI Agent、推理优化、大数据和云原生等技术实践。
vLLM 对不同 GPU SM 架构的适配机制深度剖析
系统梳理 vLLM 如何针对 SM70(V100) 到 SM121(DGX Spark) 八代 GPU 选择不同的 Attention 后端、GEMM kernel、MoE 实现和量化路径。源码级分析 kernel 选择逻辑,附完整的 SM×功能支持矩阵,并以 1Cat-vLLM 社区分支为例探讨向下兼容的工程挑战。
从 llama.py 源码出发:vLLM 分布式推理机制深度剖析
以 vLLM 中 LlamaForCausalLM 的真实源码为入口,逐层拆解 Tensor Parallel 的权重切分(QKVParallelLinear、MergedColumnParallelLinear、RowParallelLinear)、Pipeline Parallel 的层间分配、PagedAttention 与分布式的结合,并以 Llama 3 70B 在 4×A100 上的具体数字示例说明。
vLLM 与 NVIDIA 加速库:从 CUTLASS 到全栈 Kernel 选择的深度剖析
深入剖析 vLLM 如何使用 NVIDIA 加速库全栈:CUTLASS 量化 GEMM(FP8/INT8/W4A8)、cuBLAS 密集计算、FlashInfer 注意力引擎、Triton 自定义 kernel,以及 2:4 结构化稀疏。源码级分析 kernel 选择逻辑、架构适配策略和性能对比。
vLLM fused_moe Kernel 深度剖析:Know Why & Know How
从 MoE 架构本质出发,深入 vLLM fused_moe Triton kernel 的实现细节:门控融合动机、token routing 与 block 对齐、分块 GEMM 的内存布局、FP8 量化路径、Expert Parallel 通信,以及 DeepSeek V3/Mixtral 等模型的实际受益分析。
OpenClaw 深度解析:第一性原理看 2026 年个人 AI 助理的开端
从第一性原理出发,剖析为什么 2026 年是个人 AI 助理真正可用的元年。深入 OpenClaw 的 Gateway 架构、多渠道接入、技能系统、记忆系统与节点控制,探讨开源个人助理的独特定位与未来方向。
vLLM 深度解析:从 PagedAttention 到生产部署
全面剖析 vLLM 推理引擎:PagedAttention 内存管理、Continuous Batching 调度、架构设计、多卡推理原理,以及与 TGI/SGLang/TensorRT-LLM 的对比和生产部署实践。
Ray:LLM 时代的分布式计算底座
深入解析 Ray 的架构设计、Core 三原语(Task/Actor/Object)、AI Libraries 生态以及在 LLM 训练和推理场景中的生产实践。
2026年是 Multi Agent 元年
从行业标志性事件、核心架构模式、主流框架对比到实际落地案例,系统梳理为什么 2026 年是 Multi Agent 真正走向生产的元年。
工程师的 AI 学习指南:从数学基础到生产落地
一份面向工程师的 AI 系统学习路径,从线性代数到 Transformer,从推理优化到 Agent 落地,结合实际工程经验梳理核心知识体系。
vLLM 推理优化实践
深入探讨 vLLM 推理引擎的优化策略,包括 PagedAttention、连续批处理和量化部署的实战经验。
AI Agent 工程实践:从 ReAct 到生产落地
分享 AI Agent 在企业级应用中的工程实践经验,包括 ReAct 模式、工具调用和生产部署的关键要点。
湖仓一体数据平台建设实践
分享基于 Spark、Flink 和 ClickHouse 构建湖仓一体数据平台的架构设计与实践经验。
云原生实践:Kubernetes 部署与监控
介绍基于 Kubernetes 的云原生部署方案,以及使用 Prometheus + Grafana 构建监控体系的实践。
欢迎来到我的博客
这是我的第一篇博客文章,介绍这个个人技术网站。