type: concept tags: [端侧推理, multi-LoRA, 量化, 推理优化, edge-deployment, Qualcomm, Samsung, speculative-decoding] related: [[ggml-llamacpp-hf]], [[mnn-350]], [[imp-mobile-lmm]], [[scaling-npu-smartphone]] sources: - url: https://arxiv.org/abs/2604.18655 title: "Unlocking the Edge deployment and ondevice acceleration of multi-LoRA enabled one-for-all foundational LLM" date: 2026-04-22 reliability: high created: 2026-04-22 updated: 2026-04-22

多 LoRA 端侧部署与加速框架¶

一种面向智能手机的硬件感知多 LoRA 推理框架，在 Samsung Galaxy S24/S25 上实现 4-6x 内存与延迟优化

核心问题¶

在智能手机上部署大语言模型面临三重挑战： 1. 内存约束：手机 RAM 有限（8-12GB），模型加载后留给推理的空间很小 2. 延迟要求：用户期望毫秒级响应，但大模型 decode 速度慢 3. 多任务灵活性：不同场景（翻译、摘要、对话）需要不同能力，但不能为每个任务维护独立模型

传统方案要么为每个 LoRA 适配器单独加载模型（内存爆炸），要么合并 LoRA 后重新编译（无法动态切换）。

方法/架构¶

论文提出了一套面向 Qualcomm SM8650/SM8750 芯片组的端侧推理框架，核心创新包括：

1. 单冻结图 + 运行时 LoRA 注入¶

基础 LLaMA 多语言模型编译为单一冻结推理图
应用特定 LoRA 作为运行时输入注入，无需重新编译
支持动态任务切换，零额外内存开销

2. 多流解码（Multi-Stream Decoding）¶

在单次前向传播中同时生成多种风格变体（正式、礼貌、活泼）
利用 LoRA 的低秩特性，不同风格共享大部分计算
延迟降低高达 6 倍

3. 动态自推测解码（DS2D）¶

基于树的策略预测未来 token，无需额外 draft 模型
利用当前模型自身的置信度动态调整推测深度
解码速度提升 2.3 倍

4. INT4 量化 + 架构级优化¶

模型权重量化至 INT4，大幅降低内存占用
针对 Qualcomm NPU 的算子融合和内存布局优化

实验结果¶

在 Samsung Galaxy S24（SM8650）和 Galaxy S25（SM8750）上的测试结果：

指标	基线	优化后	提升
内存占用	基准	-4~6x	✅
推理延迟	基准	-4~6x	✅
多流解码延迟	基准	-6x	✅
DS2D 解码速度	基准	2.3x	✅

覆盖 9 种语言、8 个任务，准确率无明显损失。

关键洞察¶

"一图多用"范式：冻结基础模型 + 动态 LoRA 注入是端侧多任务 LLM 的正确架构。它避免了传统方案的"每任务一模型"内存灾难，同时保持了 LoRA 的轻量级适配能力。
多流解码的隐含价值：传统观点认为风格变体需要多次推理。多流解码证明了 LoRA 的低秩结构天然支持并行变体生成——这是 LoRA 理论的一个有趣推论。
无 draft 模型的推测解码：DS2D 不依赖额外小模型做 draft，而是用自身置信度动态推测。这解决了端侧部署的一个关键痛点：维护两个模型的内存开销。
Qualcomm 芯片组的实际优化：论文不只是理论，而是在真实商用设备（Galaxy S24/S25）上验证。这对产业落地有直接参考价值。

为什么重要¶

这篇论文直接回答了"如何在手机上高效运行多任务 LLM"这个产业核心问题： - 商用可行性：Samsung Galaxy 设备上的实际验证，不是模拟器实验 - 端侧多任务：一套模型服务多个场景，是 AI Agent 在手机上运行的基础 - 延迟-内存联合优化：同时解决两个最核心的端侧瓶颈 - Qualcomm 生态：针对 SM8650/SM8750 的优化可直接用于大量 Android 旗舰机

关联¶

[[ggml-llamacpp-hf]] — llama.cpp 也是端侧推理引擎，但侧重 CPU/GPU 通用优化而非芯片组特化
[[mnn-350]] — 阿里 MNN 同样关注端侧推理优化，但 LoRA 动态注入是独特创新
[[imp-mobile-lmm]] — Imp 同样在手机上部署多模态模型，但未涉及多 LoRA
[[scaling-npu-smartphone]] — 同样利用手机 NPU 加速 LLM，互补方向