type: entity tags: [inference, gpu, nvidia, tensorrt, quantization, 推理框架] related: [[ggml-llamacpp-hf]], [[mnn-350]], [[vllm]], [[coremltools-9]] sources: - url: https://github.com/NVIDIA/TensorRT-LLM/releases/tag/v1.2.1 title: "NVIDIA/TensorRT-LLM v1.2.1" date: 2026-04-20 reliability: high created: 2026-04-21 updated: 2026-04-21
NVIDIA TensorRT-LLM v1.2.1¶
NVIDIA 的高性能 LLM 推理优化引擎,v1.2.1 于 2026-04-20 发布,持续优化 GPU 上的 LLM 推理性能。虽然主要面向服务器端 GPU,但其优化技术对手机端推理引擎设计有参考价值。
概述¶
TensorRT-LLM 是 NVIDIA 基于 TensorRT 的 LLM 专用推理引擎,提供: - FP8/INT8/INT4 量化:支持多种精度的模型压缩 - PagedAttention:高效的 KV-Cache 内存管理 - 连续批处理(Continuous Batching):动态调度请求以最大化 GPU 利用率 - TensorRT 引擎编译:将模型编译为高度优化的 GPU kernel 序列 - 多 GPU/多节点推理:支持张量并行和流水线并行
v1.2.1 变更¶
- 版本发布于 2026-04-20
- 作为补丁版本,包含稳定性修复和性能优化
- 详细变更日志需参考 GitHub release notes
为什么重要¶
虽然 TensorRT-LLM 主要面向 NVIDIA GPU 服务器,但它对手机端 AIOS 的价值体现在: 1. 优化技术借鉴:PagedAttention、连续批处理等技术可以迁移到手机端推理引擎(如 MNN、llama.cpp) 2. 量化方法参考:FP8/INT4 量化方案在端侧部署中有直接参考价值 3. 生态对比:与 Apple CoreML、Qualcomm SNPE 等端侧推理方案形成技术竞争对比 4. 云端-端侧协同:手机端 Agent 可以将重负载卸载到运行 TensorRT-LLM 的云端 GPU
关联¶
- [[ggml-llamacpp-hf]] — CPU/端侧推理引擎,与 TensorRT-LLM 形成互补
- [[mnn-350]] — 阿里 MNN 端侧推理框架
- [[vllm]] — 服务端 LLM 推理引擎,与 TensorRT-LLM 竞争
- [[coremltools-9]] — Apple 端侧推理工具链