Grape's Infra Blog
AI Infra实战手册

AI Infra实战手册:开篇 — 当算法工程师必须懂基础设施

2 分钟阅读

从一次事故说起

模型在本地测试只需 50ms,但上线后 P99 延迟飙到 2s。排查了三天,发现是 GPU 显存碎片化导致的频繁重分配。

这不是一个算法问题,也不是一个工程问题——它是一个 Infra 问题

AI 工程师的必备 Infra 知识图谱

┌─────────────────────────────────────────┐
│           AI Infra 全景                  │
├────────────┬────────────┬───────────────┤
│  模型训练   │  模型推理   │   算力调度     │
│            │            │               │
│ 分布式训练  │ TensorRT   │  GPU 虚拟化   │
│ 混合精度    │ ONNX导出   │  调度器        │
│ 数据并行    │ 动态Batch  │  自动扩缩容    │
│ 梯度累积    │ KV Cache   │  多租户隔离    │
└────────────┴────────────┴───────────────┘

本系列聚焦什么

模块内容
推理优化TensorRT、vLLM、量化、投机采样
部署实战Docker、K8s、Triton Server
算力调度GPU 分配策略、自动扩缩容
芯片适配CUDA、ROCm、Ascend 适配经验

适合谁读

  • 算法工程师:想从「能跑」到「跑得又快又稳」
  • 后端工程师:想进入 AI 领域,需要 Infra 视角
  • DevOps/SRE:负责 AI 服务基础设施

下一篇将从推理优化入门,拆解模型从 PyTorch 到 TensorRT 的完整流程。

相关文章