返回博客列表
标签
LLM6 篇文章从 llama.py 源码出发:vLLM 分布式推理机制深度剖析
以 vLLM 中 LlamaForCausalLM 的真实源码为入口,逐层拆解 Tensor Parallel 的权重切分(QKVParallelLinear、MergedColumnParallelLinear、RowParallelLinear)、Pipeline Parallel 的层间分配、PagedAttention 与分布式的结合,并以 Llama 3 70B 在 4×A100 上的具体数字示例说明。
vLLM分布式推理Tensor ParallelPipeline ParallelLLM
vLLM 深度解析:从 PagedAttention 到生产部署
全面剖析 vLLM 推理引擎:PagedAttention 内存管理、Continuous Batching 调度、架构设计、多卡推理原理,以及与 TGI/SGLang/TensorRT-LLM 的对比和生产部署实践。
vLLM推理优化LLMAI InfraPagedAttention
Ray:LLM 时代的分布式计算底座
深入解析 Ray 的架构设计、Core 三原语(Task/Actor/Object)、AI Libraries 生态以及在 LLM 训练和推理场景中的生产实践。
Ray分布式计算AI InfraLLMvLLM
工程师的 AI 学习指南:从数学基础到生产落地
一份面向工程师的 AI 系统学习路径,从线性代数到 Transformer,从推理优化到 Agent 落地,结合实际工程经验梳理核心知识体系。
AILLM学习指南Transformer推理优化AI InfraAI Agent
vLLM 推理优化实践
深入探讨 vLLM 推理引擎的优化策略,包括 PagedAttention、连续批处理和量化部署的实战经验。
vLLM推理优化LLMAI Infra
AI Agent 工程实践:从 ReAct 到生产落地
分享 AI Agent 在企业级应用中的工程实践经验,包括 ReAct 模式、工具调用和生产部署的关键要点。
AI AgentLLMReAct工程实践