返回博客列表

标签

LLM6 篇文章

从 llama.py 源码出发：vLLM 分布式推理机制深度剖析

2026年3月16日

以 vLLM 中 LlamaForCausalLM 的真实源码为入口，逐层拆解 Tensor Parallel 的权重切分（QKVParallelLinear、MergedColumnParallelLinear、RowParallelLinear）、Pipeline Parallel 的层间分配、PagedAttention 与分布式的结合，并以 Llama 3 70B 在 4×A100 上的具体数字示例说明。

vLLM分布式推理Tensor ParallelPipeline ParallelLLM

vLLM 深度解析：从 PagedAttention 到生产部署

2026年3月7日

全面剖析 vLLM 推理引擎：PagedAttention 内存管理、Continuous Batching 调度、架构设计、多卡推理原理，以及与 TGI/SGLang/TensorRT-LLM 的对比和生产部署实践。

vLLM推理优化LLMAI InfraPagedAttention

Ray：LLM 时代的分布式计算底座

2026年3月5日

深入解析 Ray 的架构设计、Core 三原语（Task/Actor/Object）、AI Libraries 生态以及在 LLM 训练和推理场景中的生产实践。

Ray分布式计算AI InfraLLMvLLM

工程师的 AI 学习指南：从数学基础到生产落地

2025年2月28日

一份面向工程师的 AI 系统学习路径，从线性代数到 Transformer，从推理优化到 Agent 落地，结合实际工程经验梳理核心知识体系。

AILLM学习指南Transformer推理优化AI InfraAI Agent

vLLM 推理优化实践

2024年8月15日

深入探讨 vLLM 推理引擎的优化策略，包括 PagedAttention、连续批处理和量化部署的实战经验。

vLLM推理优化LLMAI Infra

AI Agent 工程实践：从 ReAct 到生产落地

2024年6月20日

分享 AI Agent 在企业级应用中的工程实践经验，包括 ReAct 模式、工具调用和生产部署的关键要点。

AI AgentLLMReAct工程实践