PYTHALAB-MERA: Validation-Grounded Memory, Retrieval, and Acceptance Control for Frozen-LLM Coding Agents¶
摘要¶
本地 LLM 代码 Agent 越来越多地在严格验证驱动的环境中工作:正确性通过执行反馈、持久状态和有界修复获得,而非单次流畅回答。静态检索、长上下文提示、自我改进、执行反馈修复和 RL 权重调优各只解决部分问题,无法联合提供验证接地的情景记忆、自适应检索-动作选择、延迟信用分配和围绕冻结本地模型的结构化技能复用。PYTHALAB-MERA 是面向本地验证条件代码生成的轻量外部控制器。冻结语言模型负责生成完整源文件,控制器决定哪些记忆记录和 AST 导出技能进入下一提示,通过 fail-fast 管道验证每个候选,将验证结果转为有界塑形奖励,通过 TD(λ) 风格 Eligibility Traces 传播延迟信用。在严格验证门的 RL 编码任务上,PYTHALAB-MERA 通过 8/9 严格验证(基线自改进和 GRACE 扩展均 0/9)。
核心贡献¶
- 验证接地的情景记忆:外部记忆记录验证结果和执行轨迹,而非仅存储成功方案。
- 自适应检索-动作选择:控制器动态决定是从记忆检索还是直接生成修改。
- TD(λ) 延迟信用分配:通过 Eligibility Traces 将延迟的验证信号回传至早期决策点,解决长因果链信用分配难题。
- 有界声称:论文刻意限定适用范围——在记录的设置下外部记忆-检索控制器提升了验证成功率,不声称通用代码合成或 SOTA 性能。
为什么重要¶
PYTHALAB-MERA 解决了本地/边缘 LLM Agent 的特殊约束:无法微调权重、验证资源有限、长程序因果链信用分配困难。其设计哲学(冻结模型+外部控制器+验证驱动)对端侧代码助手、IDE 集成等场景有直接参考价值。严格的验证门设计也值得其他 Agent 系统借鉴。
与移动端/端侧相关性¶
高度相关。论文的核心场景就是"本地模型"——不依赖云端微调的边缘部署。PYTHALAB-MERA 的外部控制器架构(冻结模型+记忆+验证)天然适合端侧资源约束,是少有的明确以端侧为重点的 Agent 记忆论文。
参考文献¶
- 详见原论文