type: concept tags: [edge-llm, handover, kv-cache, mobile, 5g, inference, latency, streaming, on-device] related: [[kv-cache-quantization-ondevice]], [[edgeflow-cold-start]], [[llamacpp]], [[mnn-350]] sources: - url: https://arxiv.org/abs/2603.28018 title: "Low-Latency Edge LLM Handover via Joint KV Cache Transfer and Token Prefill" date: 2026-03-17 reliability: high created: 2026-04-20 updated: 2026-04-20

Edge LLM Handover: 联合 KV 缓存传输与 Token Prefill 的低延迟切换方案¶

解决移动用户在基站间切换时 Edge LLM 服务中断的问题，提出 ctHO 联合优化框架最小化最差用户切换延迟。来自 Seunghun Lee, Jihong Park, Ce Zheng。

核心问题¶

Edge LLM（边缘部署的大型语言模型）为移动用户提供低延迟 token 流式服务，但当用户在基站（BS）之间移动并触发切换（Handover, HO）时，目标基站没有该用户的 KV 缓存，无法立即恢复解码上下文，导致服务中断。

现有两种方案各有缺陷： - token-based HO (tHO)：将已解码 token 转发给目标基站，重新执行 prefill 重建 KV 缓存。问题：prefill 计算密集，产生大的 TTFT（Time-To-First-Token）延迟，且多用户同时切换时批处理 prefill 的最差用户延迟成为瓶颈。 - cache-based HO (cHO)：通过回传链路直接传输 KV 缓存。问题：KV 缓存体量巨大（十亿参数模型约 GB 级），受限的回传带宽在多用户同时切换时成为瓶颈。

方法/架构¶

ctHO 联合框架¶

提出 ctHO (cache-token HO) 联合方案，同时利用 token-based prefill 和 KV 缓存直接传输：

源基站 ──[token转发]──→ 目标基站 → prefill 重建部分 KV
     └──[KV缓存传输 over backhaul]──→ 目标基站 → 获取剩余 KV
                                    ↓
                           取两者最大值 = HO 延迟

关键优化： 1. Prefill 长度 L 优化：决定对多少 token 执行 prefill（vs 直接传输 KV 缓存）。所有用户的 batch prefill 共享一个公共前缀长度 L。 2. 回传带宽分配：在 K 个用户之间分配回传带宽 R_bh，最小化最差用户的 HO 延迟。 3. 分步求解：将联合优化问题分解为： - 给定 L，优化带宽分配（凸优化） - 搜索最优 L（离散搜索）

系统模型¶

多用户场景（K=4 UEs）
1D 线性网络模型：源基站 x=0，目标基站 x=300m，切换边界 x=150m
用户速度 v=20m/s，从 x₀∈[120,130]m 出发
每 token KV 缓存大小：s_KV = 2·N_ℓ·N_kv·d_h·q bits

实验结果¶

使用 Qwen2.5-7B-Instruct（N_ℓ=28, N_kv=4, d_h=128, q=16bit），每 token KV 缓存 458,752 bits，3072 token 时总缓存约 176 MB。

参数	ctHO 优势
回传速率 R_bh	在所有 R_bh 下 ctHO 均优于 tHO 和 cHO
Prefill 速度	ctHO 对 prefill 速度变化不敏感（因联合优化可调节 L）
最大缓存大小 C_max	C_max 越大，cHO 越差（传输量增大），ctHO 通过部分 prefill 保持低延迟
用户数 K	用户越多，ctHO 相对优势越大（批 prefill 效率 + 带宽分配优化）

核心结论：ctHO 在所有仿真设置下一致优于纯 tHO 和纯 cHO，通过联合优化 prefill 长度和回传带宽分配，最小化最差用户的 HO 延迟。

关键洞察¶

端侧 LLM 的移动性是被忽视的系统挑战：现有研究聚焦单基站推理优化，但真实移动场景中用户跨基站移动是常态。切换时的 KV 缓存迁移直接影响用户体验连续性。
Batch prefill 的双刃剑：批处理 prefill 可以共享计算，但强制所有用户使用相同的前缀长度 L，可能对 token 数少的用户造成浪费（零填充）。ctHO 的核心创新在于找到最优 L 平衡各方。
KV 缓存传输 vs 重新计算的权衡：本质上是"传输数据"vs"本地计算"的经典 trade-off，与 MEC（移动边缘计算）中的 offloading 问题一脉相承。
未来方向：论文提出向 soft HO 扩展——目标基站预计算（pre-computation）+ 源基站继续解码，实现更无缝的服务连续性。这对 6G 网络中的 AI-native 架构设计有重要参考价值。

为什么重要¶

随着 ChatGPT、Gemini 等 LLM 服务在移动端的普及（数十亿用户），edge LLM 成为 5G/6G 网络的关键应用。但 移动性管理 是 edge LLM 落地的核心障碍之一：

云 LLM 依赖远端数据中心，切换影响小（用户始终连接同一云端）
Edge LLM 将模型部署在基站侧，切换意味着 KV 缓存丢失
如果不能解决切换延迟，edge LLM 的低延迟优势将被移动性破坏

本论文首次系统地建模和优化 edge LLM 切换问题，为运营商和设备厂商的 edge LLM 部署提供了理论基础和实用方案。

关联¶

[[kv-cache-quantization-ondevice]] — KV 缓存量化可减小传输数据量，降低 cHO 的回传带宽需求
[[edgeflow-cold-start]] — Edge LLM 冷启动问题，切换场景是冷启动的变体
[[llamacpp]] — llama.cpp 的端侧推理能力是 Edge LLM 部署的基础
[[mnn-350]] — MNN 作为竞争方案，同样面临移动性挑战