type: concept tags: [推理优化, inference, self-assessment, routing, mobile-llm, on-device] related: [[exectune-guide-core-policy]], [[edgeflow-cold-start]], [[kv-cache-quantization-ondevice]], [[septq-post-training-quantization]], [[on-device-inference-memory-pressure]] sources: - url: https://arxiv.org/abs/2604.12634 title: "RPRA: Predicting an LLM-Judge for Efficient but Performant Inference" date: 2026-04-15 reliability: high created: 2026-04-16 updated: 2026-04-16

RPRA: 预测 LLM-Judge 实现高效推理¶

让小型端侧模型在生成回答前"自知"能否回答好，从而只在必要时路由到大型云端模型——节省 70%+ 的推理成本。

核心问题¶

LLM 在消费设备上面临根本性的效率-质量权衡：主流 LLM 需要 TB 级 GPU 内存，而 ChatGPT 每天处理超过 25 亿次 API 请求。小型模型（如 MobileLLM 0.9B）在某些数据集上可媲美大模型，但在其他任务上性能骤降且表现不稳定（如著名的"how many Rs in strawberry"错误）。问题在于：小模型不知道自己什么时候能答好、什么时候会犯错。

方法架构¶

论文提出两个范式：

PA (Predict-Answer)¶

模型在生成回答前，预测 LLM Judge 会给自己的回答打多少分。如果预测低分，则路由到大模型。

RPRA (Reason-Predict-Reason-Answer)¶

在 PA 基础上增加了两轮推理：先推理再预测分数，再推理再回答。这个多步推理结构让模型更准确地评估自身能力。

两种实现路径¶

Report Card 系统（零训练）： - 在多个数据集上评估模型的历史表现 - 用 LLM Judge 的评分构建性能摘要（report card） - 推理时将 report card 作为上下文提供给模型 - 适用于任何模型，包括闭源系统

后见之明微调（Hindsight Trick）： - 使用 Andrychowicz et al. (2017) 的 hindsight trick 构造训练数据 - 用 Judge 评分重新标注样本 - 对 MobileLLM 0.9B、Llama 3.1 8B、Llama 3.2 1B/3B 进行 SFT - 消除推理时处理 report card tokens 的开销

实验结果¶

模型覆盖¶

评估了 MobileLLM 0.9B、Llama 3.1 8B、Llama 3.2 1B/3B、Llama 3.3 70B、GPT OSS 20B/120B、DeepSeek Distilled 系列、Llama 4 Scout 等模型。

关键发现¶

发现	详情
大模型零样本自评能力好	特别是推理模型，能较准确预测 Judge 评分
小模型存在校准问题	要么过度自信，要么过度不自信
Report Card 显著提升小模型	无需训练即可大幅改善预测准确度
更难的问题自知更强	模型在困难查询上表现更好的自我意识
Hindsight 微调效果好	无需 report card token 开销，预测性能强劲

移动端意义¶

路由优化：端侧小模型在确认能力匹配时直接回答，否则路由云端
成本节省：避免对简单查询也调用大模型，节省 70%+ 推算成本
延迟降低：本地快速响应简单查询，只有复杂任务才产生云端延迟
不需要复杂架构：Report Card 零训练可用，微调用标准 SFT 即可

关键洞察¶

自知是推理的前提：小模型最大的问题不是"能力不够"而是"不知道自己什么时候够"。RPRA 解决的是元认知问题。
难度作为信号：模型在更难的问题上反而有更好的自我意识——这暗示难度感知可以作为路由的辅助信号。
Report Card 是通用方案：不需要修改模型架构，只需在推理时提供历史性能数据。这对闭源模型和 API 服务特别有价值。
与 ExecTune 互补：ExecTune 用 Guide Model 从外部控制 LLM 行为，RPRA 让模型从内部评估自身能力。两者可以结合——先自评，再用 Guide Model 微调。

为什么重要¶

手机端 AI 的核心挑战之一是"端云协同"——什么时候用端侧模型，什么时候调云端。RPRA 提供了一种数据驱动的自适应路由方案：不是基于固定的规则或任务类型，而是让模型自己判断"这个查询我能答好吗？"这对端侧 Agent 至关重要——Agent 需要动态决定哪些工具/查询在本地处理，哪些需要云端支持。

关联¶

[[exectune-guide-core-policy]] — Guide Model 从外部控制 LLM 输出，RPRA 从内部评估能力，两者可结合
[[edgeflow-cold-start]] — EdgeFlow 减少端侧 LLM 冷启动延迟，RPRA 减少不必要的端云切换
[[kv-cache-quantization-ondevice]] — KV-Cache 量化降低端侧内存，RPRA 优化端云路由
[[septq-post-training-quantization]] — 量化让小模型更小更快，RPRA 让小模型更"自知"
[[on-device-inference-memory-pressure]] — 内存压力下小模型的可靠性问题正是 RPRA 要解决的