type: concept tags: [推理优化, edge-cloud, small model, speculative reasoning, Agent, 推理框架] related: [[rpra-llm-judge-inference]], [[on-device-inference-memory-pressure]], [[edge-cloud-offloading]], [[exectune-guide-core-policy]], [[chain-of-modality]], [[clawmobile-agentic]] sources: - url: https://arxiv.org/abs/2604.14847 title: "TrigReason: Trigger-Based Collaboration between Small and Large Reasoning Models" date: 2026-04-16 reliability: high - url: https://github.com/QQQ-yi/TrigReason title: "TrigReason GitHub Repository" date: 2026-04-16 reliability: high created: 2026-04-18 updated: 2026-04-18
TrigReason: 触发式小大模型推理协作¶
用触发器替代轮询,让小模型跑大部分推理、大模型只在关键时刻介入——edge-cloud 场景下延迟降 43.9%,API 成本降 73.3%
核心问题¶
Large Reasoning Models (LRMs) 如 QwQ-32B 通过扩展思维链 (CoT) 在复杂任务上表现强劲,但自回归生成数千个 thinking tokens 导致推理延迟极高。现有加速方法(RL 长度惩罚、变长 CoT 微调、prompt 工程)通常强制缩减 token 预算,可能跳过关键逻辑步骤或阻止必要的自我纠错。
核心矛盾: 如何在保持推理质量的同时大幅降低推理成本?
方法/架构¶
TrigReason 提出触发式协作推理框架,用选择性干预替代持续轮询(SpecReason 的方式)。系统将大部分推理委托给 Small Reasoning Model (SRM),仅在三种特定场景激活 LRM 干预:
三大触发器¶
1. Strategic Priming Trigger(战略引导触发器) — 解决 Path Divergence Risk - SRM 缺乏构建初始规划的战略能力,推理容易偏离最可能路径 - 先让 LRM 生成前 n 个推理步骤(默认 n=20),建立有效推理轨迹 - 然后将控制权交给 SRM 继续推理 - 减少 n 从 20 到 0 会导致 25.4% 的绝对准确率下降
2. Cognitive Offload Trigger(认知卸载触发器) — 解决 Cognitive Overload Risk - 利用 SRM 的 "overconfidence" 作为早期预警信号 - 定义 token 级困惑度 PPL(t),当某个推理步骤的 PPL 异常低时(SRM 过于自信),触发 LRM 介入 - 阈值 ρ 是模型相关的:DeepSeek-R1-1.5B 最优 ρ=0.85,Qwen3-0.6B 最优 ρ=0.75 - 禁用此触发器会导致准确率显著下降
3. Intervention Request Trigger(干预请求触发器) — 解决 Recovery Inability Risk - SRM 缺乏强健的自反思和纠错机制 - 当推理陷入无产出循环时,触发 LRM 接管
架构流程¶
输入问题 x
↓
[Strategic Priming] LRM 生成前 n 步 → 建立推理方向
↓
[SRM Execution] SRM 接管后续推理
↓
[Cognitive Offload] 检测 PPL 异常 → LRM 干预
↓
[Intervention Request] 检测推理循环 → LRM 接管
↓
输出最终答案
实验结果¶
模型配置¶
| 角色 | 模型 | 参数量 |
|---|---|---|
| LRM | QwQ-32B (dense) | 32B |
| LRM | Qwen3-30B-A3B-Thinking-2507 (MoE) | 30B, 3B active |
| SRM | DeepSeek-R1-1.5B | 1.5B |
| SRM | Qwen3-0.6B | 0.6B |
准确率(相对 LRM 全量推理的比例)¶
| Benchmark | TrigReason (平均) | 备注 |
|---|---|---|
| AIME24 | 105.8% | 最高 119.3% (Qwen3-0.6B + Qwen3-30B) |
| AIME25 | 104.7% | 部分配置超越 LRM baseline |
| GPQA Diamond | 99.6% | 研究生级多选题 |
效率提升¶
- SRM token 占比: 相比 SpecReason 提升 1.70× ~ 4.79×(四种组合均显著)
- Edge-Cloud 部署 (SRM 本地 + LRM 通过 DeepSeek API):
- 延迟降低 43.9%
- API 成本降低 73.3%
- 59.4% 推理 token 卸载到 SRM,仅 2.49% 绝对准确率下降
对比 SpecReason 的关键差异¶
SpecReason 使用 LRM 作为验证器(verifier)接受/拒绝 SRM 推理步骤,但发现 DeepSeek-V3.1 作为验证器时会受自身归纳偏见影响,给语义薄弱的 SRM 步骤打高分 → 错误传播 → 最终解题错误。TrigReason 用触发器替代验证器,避免了这一问题。
关键洞察¶
-
Overconfidence 是信号而非噪声: TrigReason 的核心发现是 SRM 的异常低困惑度(overconfidence)可以作为 "需要大模型介入" 的可靠信号。这与直觉相反——通常我们认为高困惑度(不确定)才需要帮助。
-
战略规划比逐步验证更重要: Strategic Priming Trigger(仅 n=20 步的 LRM 引导)贡献了最大的准确率提升(25.4%),说明 SRM 的主要瓶颈不是执行能力而是规划能力。这对 mobile agent 架构设计有直接启示。
-
触发器比轮询更高效: 相比 SpecReason 的持续轮询验证,TrigReason 的选择性干预在相同准确率下将 SRM 利用率提升了 1.7-4.8 倍。这意味着边缘设备可以承担更多推理负载。
-
超参数的模型依赖性: ρ(认知卸载阈值)在不同 SRM 间差异显著(0.75 vs 0.85),反映了不同小模型在平均困惑度和推理可靠性上的内在差异。实际部署需要 per-model 调参。
为什么重要¶
TrigReason 对手机端 AIOS 生态具有直接价值:
-
端云协同推理: 框架天然适配 edge-cloud 架构——SRM 在手机本地运行(如 Qwen3-0.6B),LRM 在云端。43.9% 延迟降低 + 73.3% 成本降低直接改善用户体验。
-
Agent 任务分解启示: 三类推理风险(路径偏离、认知过载、恢复失败)映射到 mobile agent 的任务分解场景。Strategic Priming 的有效性说明让大模型做规划、小模型做执行是正确分工。
-
能耗优化: 将 59.4% 推理 token 转移到本地小模型,大幅减少云端调用,对电池续航敏感的移动设备尤其重要。
-
与现有推理优化互补: TrigReason 可以与量化、KV-cache 优化等技术叠加使用——小模型本地推理可以进一步用 [[kv-cache-quantization-ondevice]] 加速。
关联¶
- [[rpra-llm-judge-inference]] — RPRA 用 LLM-Judge 预测最优推理模型,TrigReason 用触发器动态切换,两者互补
- [[on-device-inference-memory-pressure]] — SRM 本地运行面临内存压力问题
- [[edge-cloud-offloading]] — TrigReason 是 edge-cloud 推理卸载的精确实现
- [[exectune-guide-core-policy]] — ExecTune 用 Guide Model 指导黑盒 LLM,TrigReason 类似但聚焦推理场景
- [[chain-of-modality]] — 动态编排思想的多模态扩展
- [[clawmobile-agentic]] — Mobile agent 架构中 SRM+LRM 协作的潜在应用