Leon's Blog

分享一点有趣的技术

0%

LLM Inference

image-20250913200918688

引言:LLM推理

这一部分主要参考Stanford cs336 Inference class,主要目的是解读一下几个问题:

  • 为什么要关注模型推理?
  • 需要关注哪些模型推理的性能指标?
  • 加速模型推理有哪些方法/技术?
  • 有哪些模型推理框架值得关注?

接下来让我们step by step地尝试探讨着四个问题。

为什么要关注模型推理?

技术详解

KV Cache

Flash Attention

Learn By Examples

FlashInfer

vLLM

参考资料

  1. Stanford cs336 lect10