type: concept tags: [on-device, rag, retrieval-augmented-generation, 压缩, 端侧推理, cs.IR] related: [[on-device-inference-memory-pressure]], [[edge-llm-serving]], [[mnn-350]], [[kv-cache-quantization-ondevice]] sources: - url: https://arxiv.org/abs/2604.14403 title: "A Unified Model and Document Representation for On-Device Retrieval-Augmented Generation" date: 2026-04-15 reliability: high created: 2026-04-20 updated: 2026-04-20
端侧 RAG 统一表征¶
通过单一模型同时完成检索与上下文压缩,将传统 RAG 的上下文大小缩减至 1/10,首次实现端侧 RAG 的检索与生成表征统一。来源:arXiv 2604.14403, 2026-04-15。
核心问题¶
传统 RAG(检索增强生成)通常在远端服务器上运行检索和生成流程,带来三个关键问题:
- 隐私风险:敏感个人数据(财务文档、联系人、医疗记录)必须上传至云端
- 延迟与离线依赖:需要网络连接,增加响应延迟
- 存储成本:同时维护检索嵌入和生成上下文需要双倍存储空间
端侧 RAG 将整个流程在本地执行,但面临严峻的内存-存储双重约束: - 内存侧:生成模型的 KV Cache 和注意力机制需要限制上下文大小 - 存储侧:嵌入向量的存储必须最小化以节省磁盘空间
方法/架构¶
论文提出统一表征模型,核心创新在于:
统一检索与压缩¶
传统 RAG 使用两个独立模型:检索器生成嵌入向量用于相似度搜索,生成器(reader)处理检索到的文档上下文。本文的统一模型:
- 压缩上下文:将检索到的文档压缩为紧凑表征,平均压缩至原始上下文的 1/10
- 复用表征:使用与压缩相同(或兼容)的表征进行检索,无需单独的嵌入存储
- 零额外存储:相比多向量检索模型,不增加存储需求
关键技术细节¶
- 模型同时学习"什么值得检索"和"如何压缩检索结果"
- 压缩后的上下文保留了生成所需的关键信息
- 检索阶段使用与压缩阶段一致的语义空间
实验结果¶
| 指标 | 传统 RAG Reader | 本文统一模型 |
|---|---|---|
| 上下文大小 | 100% | 10% (1/10) |
| 存储需求 | 双份(检索+生成) | 单份(统一) |
| 生成质量 | 基线 | 匹配基线 |
关键发现:使用平均 1/10 的上下文大小,统一模型的生成性能与传统 RAG reader 持平,同时存储需求与多向量检索模型相同。
关键洞察¶
-
检索与压缩不是独立问题:传统方法将检索和生成视为两个独立优化目标。本文证明它们可以共享同一表征空间,从而大幅减少资源消耗。
-
端侧隐私范式转变:端侧 RAG 不仅是"把模型搬到手机上",更需要重新设计整个信息流架构。统一表征是这种重新设计的典范。
-
压缩比的实用意义:1/10 的上下文压缩比意味着原本需要 4096 tokens 的任务只需 ~400 tokens,大幅降低端侧推理的内存和计算需求。
-
首次统一:这是首个将检索和上下文压缩统一到单一模型和表征的工作,为端侧 RAG 的实际部署铺平道路。
为什么重要¶
- 隐私敏感场景:金融、医疗、个人文档查询等场景,数据不能上云
- 离线能力:无需网络即可完成 RAG 流程
- 资源效率:统一表征减少存储和计算双重开销,使 RAG 能在中低端设备上运行
- 架构创新:为端侧 AI 的"模型合并"(多个功能合并为单一模型)趋势提供实证支持
关联¶
- [[on-device-inference-memory-pressure]] — 端侧推理的内存压力管理,本文的压缩策略可缓解此问题
- [[edge-llm-serving]] — 端侧 LLM 服务框架,RAG 是其关键应用场景
- [[mnn-350]] — 阿里 MNN 推理框架,可用于部署本文的统一模型
- [[kv-cache-quantization-ondevice]] — KV Cache 量化技术,与本文的上下文压缩互补
- [[apple-intelligence-siri-rag]] — Apple 的端侧 Siri RAG 方案,面临类似的存储-内存权衡