返回博客列表

标签

LLM6 篇文章

从 llama.py 源码出发:vLLM 分布式推理机制深度剖析

以 vLLM 中 LlamaForCausalLM 的真实源码为入口,逐层拆解 Tensor Parallel 的权重切分(QKVParallelLinear、MergedColumnParallelLinear、RowParallelLinear)、Pipeline Parallel 的层间分配、PagedAttention 与分布式的结合,并以 Llama 3 70B 在 4×A100 上的具体数字示例说明。

vLLM分布式推理Tensor ParallelPipeline ParallelLLM

vLLM 深度解析:从 PagedAttention 到生产部署

全面剖析 vLLM 推理引擎:PagedAttention 内存管理、Continuous Batching 调度、架构设计、多卡推理原理,以及与 TGI/SGLang/TensorRT-LLM 的对比和生产部署实践。

vLLM推理优化LLMAI InfraPagedAttention

Ray:LLM 时代的分布式计算底座

深入解析 Ray 的架构设计、Core 三原语(Task/Actor/Object)、AI Libraries 生态以及在 LLM 训练和推理场景中的生产实践。

Ray分布式计算AI InfraLLMvLLM

工程师的 AI 学习指南:从数学基础到生产落地

一份面向工程师的 AI 系统学习路径,从线性代数到 Transformer,从推理优化到 Agent 落地,结合实际工程经验梳理核心知识体系。

AILLM学习指南Transformer推理优化AI InfraAI Agent

vLLM 推理优化实践

深入探讨 vLLM 推理引擎的优化策略,包括 PagedAttention、连续批处理和量化部署的实战经验。

vLLM推理优化LLMAI Infra

AI Agent 工程实践:从 ReAct 到生产落地

分享 AI Agent 在企业级应用中的工程实践经验,包括 ReAct 模式、工具调用和生产部署的关键要点。

AI AgentLLMReAct工程实践