type: concept tags: [llm, inference, optimization, agent, quantization, on-device] related: [[edgeflow-cold-start]], [[on-device-vs-cloud-agentic-tool-calling]], [[clawmobile-agentic]] sources: - url: https://arxiv.org/abs/2604.09741 title: "ExecTune: Effective Steering of Black-Box LLMs with Guide Models" date: 2026-04-09 reliability: high created: 2026-04-15 updated: 2026-04-15

ExecTune：用 Guide 模型高效引导黑盒 LLM¶

AWS AI 团队提出的 Guide-Core Policy（GCoP）框架，通过小模型引导大模型推理，在 GSM8K 上提升 9.2% 准确率同时降低 22.4% 推理成本。Haiku-3.5 配合 ExecTune 可超越 Sonnet-3.5。

核心问题¶

黑盒 LLM API 的部署困境：

推理成本高：重复调用 API 的累积成本远超一次性训练成本
无法定制：黑盒模型无法直接微调或修改
效率浪费：现有 prompt 引导和 advisor 模式产生的策略经常"不可执行"——核心模型无法忠实遵循 guide 的意图

关键洞察：现有方法优化的是 guide 的"信息量"，但真正决定端到端性能的是 guide 的"可执行性"（executability）——核心模型能多大程度上忠实执行 guide 策略的概率。

方法/架构¶

GCoP（Guide-Core Policy）框架¶

将推理分解为两个阶段：

Guide（小模型，可训练） → 生成结构化策略 → Core（大模型，黑盒） → 执行策略输出结果

形式化目标函数（成本敏感效用）：

$$J^\pi(s_0) = V^\pi(s_0) - \lambda T^\pi(s_0)$$

其中 $V$ 是任务奖励，$T$ 是推理成本，$\lambda$ 是成本-性能权衡系数。

核心发现：端到端性能由 guide 平均可执行性 决定——策略能被核心模型忠实执行的概率。

ExecTune 训练配方¶

两阶段训练：

阶段 1：初始化 - Teacher-guided Acceptance Sampling：用强 teacher 模型提出策略，再用目标 core 模型验证是否可执行 - 监督微调（SFT）：用高可执行性策略数据初始化 guide

阶段 2：结构化强化学习 - 使用 GRPO（Group Relative Policy Optimization）进行结构感知 RL - 奖励设计： - ✅ 策略格式正确/可解析 - ✅ 执行成功 - ✅ 成本效率 - ❌ 策略缺失、格式错误、偏题

模型配置¶

Guide 模型：Qwen3-1.7B（极小） Core 模型：Claude Haiku-3.5 / Haiku-3.0（黑盒 API）

实验结果/关键数据¶

数学推理（GSM8K，Core = Haiku-3.5）¶

方法	准确率	相对成本
Core-only (Haiku-3.5)	基线	1x
Prompting	略有提升	~1.2x
SFT Guide	中等提升	~1.1x
ExecTune GCoP	+9.2%	0.776x

代码生成（KodCode，Core = Haiku-3.0）¶

准确率提升 9.2%，推理成本降低 22.4%
Haiku-3.5 + ExecTune 超越 Sonnet-3.5
距离 Sonnet-4 仅差 1.7% 绝对精度，但成本低 38%

关键数据点¶

Guide 模型仅 1.7B 参数，训练成本极低
模块化适配：更新 guide 无需重训 core
持续学习、领域适配、定向遗忘均可通过更新 guide 实现

关键洞察¶

可执行性 > 信息量：传统方法认为 guide 应该"更有信息量"，但 ExecTune 证明"更可执行"更重要。一个简单但可执行的策略，优于一个复杂但难执行的策略。
小模型引导大模型的可行性：1.7B 的 guide 模型就能有效引导 Haiku 级别的 core 模型，说明"策略生成"是比"任务执行"更轻量的能力。
对端侧推理的启示：
手机端可以运行小 guide 模型（1-3B），将复杂推理外包给云端大模型
Guide 模型可以本地微调，Core 模型保持黑盒
这是一种新型的端云协作模式——不是任务拆分，而是策略引导
模块化适应性：同一个 Core 模型可以通过更换 Guide 适配不同场景（数学、代码、客服），无需重新训练——这对手机端多场景 Agent 非常有价值。

为什么重要¶

对手机端 AIOS 生态的关键启示：

新型端云协作模式：传统的端云协作是"任务拆分"（边缘处理简单任务，云端处理复杂任务）。ExecTune 提出了"策略引导"模式——端侧小模型生成策略，云端大模型执行，比传统模式更高效。
降低成本门槛：Haiku + ExecTune 接近 Sonnet-4 水平但成本低 38%，这意味着手机端 AI 功能的部署成本可以大幅降低。
Guide 模型本地化：1.7B 的 guide 模型完全可以在手机端运行（如通过 [[mnn-350]] 或 [[llamacpp]] 推理），实现完全本地的策略生成 + 云端执行。
隐私保护：Guide 模型在本地运行，只有最终策略（不含原始数据）发送到云端，天然提供隐私保护。

关联¶

[[edgeflow-cold-start]] — ExecTune 可能加速冷启动（guide 本地预热）
[[on-device-vs-cloud-agentic-tool-calling]] — 新的端云协作范式
[[clawmobile-agentic]] — 手机 Agent 可采用 GCoP 架构
[[mnn-350]] — 可作为端侧 Guide 模型的推理引擎
[[llamacpp]] — 可作为端侧 Guide 模型的推理引擎
[[septq-post-training-quantization]] — Guide 模型可进一步量化以减小体积