PYTHALAB-MERA: Validation-Grounded Memory, Retrieval, and Acceptance Control for Frozen-LLM Coding Agents¶

摘要¶

本地 LLM 代码 Agent 越来越多地在严格验证驱动的环境中工作：正确性通过执行反馈、持久状态和有界修复获得，而非单次流畅回答。静态检索、长上下文提示、自我改进、执行反馈修复和 RL 权重调优各只解决部分问题，无法联合提供验证接地的情景记忆、自适应检索-动作选择、延迟信用分配和围绕冻结本地模型的结构化技能复用。PYTHALAB-MERA 是面向本地验证条件代码生成的轻量外部控制器。冻结语言模型负责生成完整源文件，控制器决定哪些记忆记录和 AST 导出技能进入下一提示，通过 fail-fast 管道验证每个候选，将验证结果转为有界塑形奖励，通过 TD(λ) 风格 Eligibility Traces 传播延迟信用。在严格验证门的 RL 编码任务上，PYTHALAB-MERA 通过 8/9 严格验证（基线自改进和 GRACE 扩展均 0/9）。

核心贡献¶

验证接地的情景记忆：外部记忆记录验证结果和执行轨迹，而非仅存储成功方案。
自适应检索-动作选择：控制器动态决定是从记忆检索还是直接生成修改。
TD(λ) 延迟信用分配：通过 Eligibility Traces 将延迟的验证信号回传至早期决策点，解决长因果链信用分配难题。
有界声称：论文刻意限定适用范围——在记录的设置下外部记忆-检索控制器提升了验证成功率，不声称通用代码合成或 SOTA 性能。

为什么重要¶

PYTHALAB-MERA 解决了本地/边缘 LLM Agent 的特殊约束：无法微调权重、验证资源有限、长程序因果链信用分配困难。其设计哲学（冻结模型+外部控制器+验证驱动）对端侧代码助手、IDE 集成等场景有直接参考价值。严格的验证门设计也值得其他 Agent 系统借鉴。

与移动端/端侧相关性¶

高度相关。论文的核心场景就是"本地模型"——不依赖云端微调的边缘部署。PYTHALAB-MERA 的外部控制器架构（冻结模型+记忆+验证）天然适合端侧资源约束，是少有的明确以端侧为重点的 Agent 记忆论文。

参考文献¶

详见原论文