跳转至

type: concept tags: [模型压缩, 推理优化, 动态稀疏, 压缩感知, structured-pruning, 端侧部署] related: [[kv-cache-quantization-ondevice]], [[edgeflow-cold-start]], [[ahc-mcu-continual-detection]] sources: - url: https://arxiv.org/abs/2604.14156 title: "Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models" date: 2026-04-17 reliability: high created: 2026-04-17 updated: 2026-04-17


压缩感知引导的推理感知结构化缩减

将 LLM 推理建模为"测量-恢复"问题,动态选择每个 prompt 激活的稀疏子网络

核心问题

LLM 部署面临三重成本:参数量、内存占用和解码延迟。现有工作分别从模型压缩(剪枝、结构化稀疏)和提示压缩(移除冗余输入 token)两个方向推进,但这两条路线基本是分离的。模型压缩方法是静态的、离线优化的,无法利用"不同 prompt 和解码步骤激活不同的潜在计算路径"这一事实。

方法/架构

本文提出将 LLM 动态执行建模为压缩感知(Compressed Sensing)测量与恢复问题

核心思路:不需要在每个 prompt/每个 token 都执行完整的稠密网络。相反,用少量随机特征测量来推断当前计算上下文相关的稀疏结构化子网络。

四大组件联合优化: 1. Prompt 保留:自适应选择哪些输入 token 对当前任务重要 2. 任务条件子网络选择:不同任务激活不同的网络子集 3. Token 自适应执行:每个解码步骤使用不同的稀疏模式 4. 硬件可行的结构化稀疏:确保稀疏模式可以映射到实际硬件加速

与现有方法的关键区别

方法 压缩维度 自适应性 任务感知
静态剪枝 权重 ❌ 固定
提示压缩 输入 token
激活稀疏 激活值 部分
本文方法 权重+输入+激活 ✅ 动态

实验结果

评估覆盖 5 大任务族(摘要、代码生成、长上下文检索、数学推理、开放对话),使用自回归 decoder-only 模型。

关键发现: - 不同任务需要完全不同的稀疏模式——摘要任务的稀疏模式与代码生成几乎没有重叠 - 联合优化比单独优化任一组件效果更好 - 压缩感知测量的开销远小于全模型执行的节省 - 质量-延迟-内存的三维 Pareto 前沿显著优于所有单轴优化方法

关键洞察

"一刀切"的压缩是次优的:本文最重要的发现是,不同 prompt 激活完全不同的计算路径。这意味着端侧部署时,可以根据当前任务类型动态调整活跃参数量,而不是使用固定的量化模型。

对端侧部署的启示: - 手机上运行的 LLM 可以根据当前任务(聊天 vs 搜索 vs 代码)动态调整活跃参数量 - 压缩感知测量可以用极低开销(几层线性投影)完成 - 与量化可以叠加——先选子网络,再对子网络量化 - 动态稀疏 + 电量感知 = 根据剩余电量自动调整计算量

为什么重要

对于手机端 AIOS 的模型部署: - 动态稀疏意味着可以根据任务需求和电量状态调整计算量 - 与 [[edgeflow-cold-start]] 的冷启动优化互补——冷启动后可以选择最精简的子网络 - 为端侧自适应推理提供了理论框架:不是"用小模型"而是"用大模型的最优子网络" - 压缩感知视角是全新的,可能启发更多端侧优化方法

关联

  • [[kv-cache-quantization-ondevice]] — KV-Cache 量化关注注意力层压缩,本文方法可以与之叠加
  • [[edgeflow-cold-start]] — 冷启动优化 + 动态子网络选择 = 端侧最优推理管线
  • [[ahc-mcu-continual-detection]] — MCU 上的持续检测也面临类似的选择活跃参数问题