type: concept tags: [推理优化, LLM-Judge, 自评估, 模型路由, 效率, 小模型, 端侧推理] related: [[edgeflow-cold-start]], [[septq-post-training-quantization]], [[gemma4-ondevice]], [[pAirZero-federated-finetuning]] sources: - url: https://arxiv.org/abs/2604.12634 title: "RPRA: Predicting an LLM-Judge for Efficient but Performant Inference" date: 2026-04-14 reliability: high created: 2026-04-16 updated: 2026-04-16
RPRA:用 LLM-Judge 预测实现高效推理¶
让小模型预测自己在 LLM-Judge 评估中的得分,通过报告卡(report card)和事后训练(hindsight training)实现高效的推理路由。2026 年 4 月 Meta/IDSIA 联合发表。
核心问题¶
当前 LLM 服务面临一个效率困境: - 大模型(如 Llama 3.3 70B、GPT-120B)质量好但推理成本极高 - 小模型(如 MobileLLM 0.9B、Llama 3.2 1B/3B)成本低但质量不稳定 - 用户查询的难度差异巨大——简单查询用大模型是浪费,困难查询用小模型是失败
核心问题:如何让系统自动判断"这条查询我的小模型能处理好"?
方法架构¶
方法一:报告卡(Report Card)¶
为每个模型生成一份详细的"成绩单": 1. 在多个数据集上评估模型的历史表现 2. 用 LLM-Judge(如 GPT-4)对模型输出评分 3. 基于模态评分构建性能描述 4. 将报告卡提供给模型作为上下文
优势:无需额外训练,适用于任何模型(包括闭源模型如 ChatGPT)
方法二:事后训练(Hindsight Training)¶
用"后见之明"微调模型: 1. 先用大模型生成输出 2. 用 LLM-Judge 评估这些输出的质量 3. 将评分作为额外训练信号微调小模型 4. 模型学会预测"如果我这样回答,Judge 会给我多少分"
优势:无需运行时携带报告卡,推理成本更低
关键发现¶
- 大模型表现好:reasoning 模型(特别是大型推理模型)能较好地预测 Judge 评分
- 小模型校准差:小模型通常过度自信或不够自信——这正是报告卡/事后训练需要解决的
- 报告卡效果显著:MobileLLM 0.9B 在携带报告卡后,上下文预测精度大幅提升
- 事后训练最高效:训练后的小模型无需额外上下文即可自评估
实验结果¶
评估覆盖模型:MobileLLM 0.9B、Llama 3.1 8B、Llama 3.2 1B/3B、Llama 3.3 70B、GPT OSS 20B/120B、DeepSeek Distilled 14B/32B/70B、Llama 4 Scout
关键数据点: - AIME 2024:最小模型(1B-3B)在事后训练后精度提升最为戏剧化 - MedQA:即使大型非推理模型,报告卡也带来显著改善 - MobileLLM 0.9B 在事后训练后,上下文预测精度接近更大的模型
关键洞察¶
- 自知之明的价值:让模型知道自己"能做好什么"比让模型"什么都能做"更具实际价值
- 路由而非替代:RPRA 不是替代大小模型,而是实现智能路由——简单查询用小模型、困难查询升级到大模型
- 端侧可行性:MobileLLM 0.9B 级别的模型在事后训练后能有效自评估,这对端侧部署意义重大
- 报告卡的泛化性:无需训练即可为任何模型(包括闭源)提供自评估能力
为什么重要¶
对于手机端 AIOS 生态: - 智能模型路由:端侧小模型可以自判断是否需要云端大模型辅助,实现端云协同推理 - 成本优化:90%+ 的简单查询可以用小模型处理,仅在需要时升级到大模型 - 用户体验:系统可以透明地在质量和速度之间权衡,用户感知不到路由过程 - 端侧自适应:模型可以根据自身报告卡动态调整行为
关联¶
- [[edgeflow-cold-start]] — 端侧 LLM 冷启动优化,RPRA 可用于决定何时加载大模型
- [[septq-post-training-quantization]] — 量化小模型 + RPRA 自评估 = 高效端侧推理
- [[gemma4-ondevice]] — Gemma 4 作为端侧小模型可受益于 RPRA 路由
- [[pAirZero-federated-finetuning]] — 事后训练可在联邦微调框架中实现