type: entity tags: [inference, gpu, nvidia, tensorrt, quantization, 推理框架] related: [[ggml-llamacpp-hf]], [[mnn-350]], [[vllm]], [[coremltools-9]] sources: - url: https://github.com/NVIDIA/TensorRT-LLM/releases/tag/v1.2.1 title: "NVIDIA/TensorRT-LLM v1.2.1" date: 2026-04-20 reliability: high created: 2026-04-21 updated: 2026-04-21

NVIDIA TensorRT-LLM v1.2.1¶

NVIDIA 的高性能 LLM 推理优化引擎，v1.2.1 于 2026-04-20 发布，持续优化 GPU 上的 LLM 推理性能。虽然主要面向服务器端 GPU，但其优化技术对手机端推理引擎设计有参考价值。

概述¶

TensorRT-LLM 是 NVIDIA 基于 TensorRT 的 LLM 专用推理引擎，提供： - FP8/INT8/INT4 量化：支持多种精度的模型压缩 - PagedAttention：高效的 KV-Cache 内存管理 - 连续批处理（Continuous Batching）：动态调度请求以最大化 GPU 利用率 - TensorRT 引擎编译：将模型编译为高度优化的 GPU kernel 序列 - 多 GPU/多节点推理：支持张量并行和流水线并行

v1.2.1 变更¶

版本发布于 2026-04-20
作为补丁版本，包含稳定性修复和性能优化
详细变更日志需参考 GitHub release notes

为什么重要¶

虽然 TensorRT-LLM 主要面向 NVIDIA GPU 服务器，但它对手机端 AIOS 的价值体现在： 1. 优化技术借鉴：PagedAttention、连续批处理等技术可以迁移到手机端推理引擎（如 MNN、llama.cpp） 2. 量化方法参考：FP8/INT4 量化方案在端侧部署中有直接参考价值 3. 生态对比：与 Apple CoreML、Qualcomm SNPE 等端侧推理方案形成技术竞争对比 4. 云端-端侧协同：手机端 Agent 可以将重负载卸载到运行 TensorRT-LLM 的云端 GPU

关联¶

[[ggml-llamacpp-hf]] — CPU/端侧推理引擎，与 TensorRT-LLM 形成互补
[[mnn-350]] — 阿里 MNN 端侧推理框架
[[vllm]] — 服务端 LLM 推理引擎，与 TensorRT-LLM 竞争
[[coremltools-9]] — Apple 端侧推理工具链