大模型部署三大推理引擎对比:

核心指标

  • vLLM——PagedAttention原创,吞吐量最高,开源免费
  • TGI(HuggingFace)——部署最简单(Docker一键),Flash Attention,免费
  • TensorRT-LLM(NVIDIA)——延迟最低(GPU优化到极致),免费但仅N卡

选型建议

追求吞吐→vLLM;快速部署→TGI;极致延迟→TensorRT-LLM。三者均支持连续批处理和流式输出。

编译来源:Anyscale (2026)