type: concept tags: [on-device, rag, retrieval-augmented-generation, 压缩, 端侧推理, cs.IR] related: [[on-device-inference-memory-pressure]], [[edge-llm-serving]], [[mnn-350]], [[kv-cache-quantization-ondevice]] sources: - url: https://arxiv.org/abs/2604.14403 title: "A Unified Model and Document Representation for On-Device Retrieval-Augmented Generation" date: 2026-04-15 reliability: high created: 2026-04-20 updated: 2026-04-20

端侧 RAG 统一表征¶

通过单一模型同时完成检索与上下文压缩，将传统 RAG 的上下文大小缩减至 1/10，首次实现端侧 RAG 的检索与生成表征统一。来源：arXiv 2604.14403, 2026-04-15。

核心问题¶

传统 RAG（检索增强生成）通常在远端服务器上运行检索和生成流程，带来三个关键问题：

隐私风险：敏感个人数据（财务文档、联系人、医疗记录）必须上传至云端
延迟与离线依赖：需要网络连接，增加响应延迟
存储成本：同时维护检索嵌入和生成上下文需要双倍存储空间

端侧 RAG 将整个流程在本地执行，但面临严峻的内存-存储双重约束： - 内存侧：生成模型的 KV Cache 和注意力机制需要限制上下文大小 - 存储侧：嵌入向量的存储必须最小化以节省磁盘空间

方法/架构¶

论文提出统一表征模型，核心创新在于：

统一检索与压缩¶

传统 RAG 使用两个独立模型：检索器生成嵌入向量用于相似度搜索，生成器（reader）处理检索到的文档上下文。本文的统一模型：

压缩上下文：将检索到的文档压缩为紧凑表征，平均压缩至原始上下文的 1/10
复用表征：使用与压缩相同（或兼容）的表征进行检索，无需单独的嵌入存储
零额外存储：相比多向量检索模型，不增加存储需求

关键技术细节¶

模型同时学习"什么值得检索"和"如何压缩检索结果"
压缩后的上下文保留了生成所需的关键信息
检索阶段使用与压缩阶段一致的语义空间

实验结果¶

指标	传统 RAG Reader	本文统一模型
上下文大小	100%	10% (1/10)
存储需求	双份（检索+生成）	单份（统一）
生成质量	基线	匹配基线

关键发现：使用平均 1/10 的上下文大小，统一模型的生成性能与传统 RAG reader 持平，同时存储需求与多向量检索模型相同。

关键洞察¶

检索与压缩不是独立问题：传统方法将检索和生成视为两个独立优化目标。本文证明它们可以共享同一表征空间，从而大幅减少资源消耗。
端侧隐私范式转变：端侧 RAG 不仅是"把模型搬到手机上"，更需要重新设计整个信息流架构。统一表征是这种重新设计的典范。
压缩比的实用意义：1/10 的上下文压缩比意味着原本需要 4096 tokens 的任务只需 ~400 tokens，大幅降低端侧推理的内存和计算需求。
首次统一：这是首个将检索和上下文压缩统一到单一模型和表征的工作，为端侧 RAG 的实际部署铺平道路。

为什么重要¶

隐私敏感场景：金融、医疗、个人文档查询等场景，数据不能上云
离线能力：无需网络即可完成 RAG 流程
资源效率：统一表征减少存储和计算双重开销，使 RAG 能在中低端设备上运行
架构创新：为端侧 AI 的"模型合并"（多个功能合并为单一模型）趋势提供实证支持

关联¶

[[on-device-inference-memory-pressure]] — 端侧推理的内存压力管理，本文的压缩策略可缓解此问题
[[edge-llm-serving]] — 端侧 LLM 服务框架，RAG 是其关键应用场景
[[mnn-350]] — 阿里 MNN 推理框架，可用于部署本文的统一模型
[[kv-cache-quantization-ondevice]] — KV Cache 量化技术，与本文的上下文压缩互补
[[apple-intelligence-siri-rag]] — Apple 的端侧 Siri RAG 方案，面临类似的存储-内存权衡