SpecGuard: 验证感知的投机解码框架¶
基本信息¶
- 论文: From Tokens to Steps: Verification-Aware Speculative Decoding for Efficient Multi-Step Reasoning
- 分类: cs.CL
- 关键词: speculative decoding, step-level verification, model-internal signals
核心思想¶
SpecGuard 是一个验证感知的投机解码(Speculative Decoding)框架,通过步骤级验证(step-level verification)而非传统的逐 token 验证来加速 LLM 推理。
传统投机解码的局限¶
传统投机解码以 token 为中心,允许轻量级草稿模型(draft model)提出候选输出,由目标模型(target model)验证。但这种方法存在关键问题:
- 错误传播: 单个 token 错误会沿序列传播
- 外部依赖: 先前方法需要外部奖励模型,增加延迟和计算开销
- 泛化性受限: 外部模型难以覆盖所有领域
SpecGuard 的创新¶
- 步骤级验证: 在每个解码步骤采样多个候选,使用模型内部信号进行验证
- 无外部依赖: 仅依赖模型自身的概率分布和隐藏状态,无需额外奖励模型
- 更低延迟: 避免了外部模型的推理开销
对端侧推理的意义¶
投机解码是提升端侧 LLM 推理速度的核心技术之一:
- 减少推理延迟: 在相同硬件上实现更快的响应速度
- 降低能耗: 验证阶段的计算量远低于完整生成
- 适用于移动设备: 无需额外模型,节省存储和内存