跳转至

type: concept tags: [on-device, rag, retrieval-augmented-generation, 压缩, 端侧推理, cs.IR] related: [[on-device-inference-memory-pressure]], [[edge-llm-serving]], [[mnn-350]], [[kv-cache-quantization-ondevice]] sources: - url: https://arxiv.org/abs/2604.14403 title: "A Unified Model and Document Representation for On-Device Retrieval-Augmented Generation" date: 2026-04-15 reliability: high created: 2026-04-20 updated: 2026-04-20


端侧 RAG 统一表征

通过单一模型同时完成检索与上下文压缩,将传统 RAG 的上下文大小缩减至 1/10,首次实现端侧 RAG 的检索与生成表征统一。来源:arXiv 2604.14403, 2026-04-15。

核心问题

传统 RAG(检索增强生成)通常在远端服务器上运行检索和生成流程,带来三个关键问题:

  1. 隐私风险:敏感个人数据(财务文档、联系人、医疗记录)必须上传至云端
  2. 延迟与离线依赖:需要网络连接,增加响应延迟
  3. 存储成本:同时维护检索嵌入和生成上下文需要双倍存储空间

端侧 RAG 将整个流程在本地执行,但面临严峻的内存-存储双重约束: - 内存侧:生成模型的 KV Cache 和注意力机制需要限制上下文大小 - 存储侧:嵌入向量的存储必须最小化以节省磁盘空间

方法/架构

论文提出统一表征模型,核心创新在于:

统一检索与压缩

传统 RAG 使用两个独立模型:检索器生成嵌入向量用于相似度搜索,生成器(reader)处理检索到的文档上下文。本文的统一模型:

  1. 压缩上下文:将检索到的文档压缩为紧凑表征,平均压缩至原始上下文的 1/10
  2. 复用表征:使用与压缩相同(或兼容)的表征进行检索,无需单独的嵌入存储
  3. 零额外存储:相比多向量检索模型,不增加存储需求

关键技术细节

  • 模型同时学习"什么值得检索"和"如何压缩检索结果"
  • 压缩后的上下文保留了生成所需的关键信息
  • 检索阶段使用与压缩阶段一致的语义空间

实验结果

指标 传统 RAG Reader 本文统一模型
上下文大小 100% 10% (1/10)
存储需求 双份(检索+生成) 单份(统一)
生成质量 基线 匹配基线

关键发现:使用平均 1/10 的上下文大小,统一模型的生成性能与传统 RAG reader 持平,同时存储需求与多向量检索模型相同。

关键洞察

  1. 检索与压缩不是独立问题:传统方法将检索和生成视为两个独立优化目标。本文证明它们可以共享同一表征空间,从而大幅减少资源消耗。

  2. 端侧隐私范式转变:端侧 RAG 不仅是"把模型搬到手机上",更需要重新设计整个信息流架构。统一表征是这种重新设计的典范。

  3. 压缩比的实用意义:1/10 的上下文压缩比意味着原本需要 4096 tokens 的任务只需 ~400 tokens,大幅降低端侧推理的内存和计算需求。

  4. 首次统一:这是首个将检索和上下文压缩统一到单一模型和表征的工作,为端侧 RAG 的实际部署铺平道路。

为什么重要

  • 隐私敏感场景:金融、医疗、个人文档查询等场景,数据不能上云
  • 离线能力:无需网络即可完成 RAG 流程
  • 资源效率:统一表征减少存储和计算双重开销,使 RAG 能在中低端设备上运行
  • 架构创新:为端侧 AI 的"模型合并"(多个功能合并为单一模型)趋势提供实证支持

关联

  • [[on-device-inference-memory-pressure]] — 端侧推理的内存压力管理,本文的压缩策略可缓解此问题
  • [[edge-llm-serving]] — 端侧 LLM 服务框架,RAG 是其关键应用场景
  • [[mnn-350]] — 阿里 MNN 推理框架,可用于部署本文的统一模型
  • [[kv-cache-quantization-ondevice]] — KV Cache 量化技术,与本文的上下文压缩互补
  • [[apple-intelligence-siri-rag]] — Apple 的端侧 Siri RAG 方案,面临类似的存储-内存权衡