SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety

摘要¶

随着基础模型的快速发展，大语言模型（LLM）Agent 展现出日益强大的工具调用能力。然而，这种能力也带来了显著的安全风险——恶意行为者可以操纵 Agent 执行工具来生成有害内容。现有防御机制虽然有效，但普遍面临过度拒绝（over-refusal）问题：安全策略越严格，对良性任务的实用性损害越大。

SafeHarbor 提出了一种新颖框架，通过分层记忆系统为 LLM Agent 建立精确的决策边界。与静态规则不同，SafeHarbor 通过增强对抗生成提取上下文感知的防御规则，并设计了一个本地分层记忆系统实现动态规则注入，提供免训练、高效、即插即用的解决方案。

核心贡献¶

1. 分层记忆架构¶

SafeHarbor 采用本地分层记忆系统进行动态规则注入： - 节点分裂（Node Splitting）：当记忆节点承载的规则冲突增加时，自动分裂为多个专门节点 - 节点合并（Node Merging）：当规则收敛时，合并相似节点以降低计算开销 - 这种自适应结构使 Agent 能够在不同安全级别间平滑切换

2. 信息熵自演化机制¶

SafeHarbor 引入了基于信息熵的自演化机制： - 通过动态节点分裂与合并，持续优化记忆结构 - 无需人工干预，记忆自动适应新型攻击模式 - 实验表明，该机制在多种对抗场景下均能保持高效的防御性能

3. 免训练的即插即用设计¶

不需要模型微调或额外训练
规则通过对抗生成自动提取
可直接集成到现有 LLM Agent 系统中

关键发现¶

Over-Refusal 问题的解决¶

方法	良性任务利用率	有害请求拒绝率
静态规则	~40%	~95%
SafeHarbor	63.6%	>93%

SafeHarbor 在 GPT-4o 上实现了 63.6% 的峰值良性利用率，同时保持超过 93% 的有害请求拒绝率，有效缓解了安全与实用性之间的权衡。

分层记忆的效果¶

信息熵驱动的节点管理使记忆结构始终保持最优状态
动态节点数量随攻击复杂度自适应调整
在复杂对抗场景下，记忆调用延迟降低约 40%

为什么重要¶

Agent 安全的根本性突破：首次将记忆系统引入安全防护，而非依赖静态规则或单一决策边界
解决 over-refusal 痛点：传统安全方法以牺牲用户满意度为代价，SafeHarbor 首次在高安全性和高实用性间取得平衡
即插即用的实用性：无需重新训练 Agent，降低了实际部署的门槛

与端侧/移动端的相关性¶

低计算开销：分层记忆采用本地存储，推理时计算量极小，适合移动端部署
隐私保护：规则存储在本地，无需上传用户交互数据
自适应防护：能够识别新型攻击，无需云端更新
实时性：动态节点管理在边缘设备上运行流畅

关键词：记忆防护、分层记忆、LLM Agent 安全、过度拒绝问题、动态规则注入、端侧 AI 安全