跳转至

SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety

摘要

随着基础模型的快速发展,大语言模型(LLM)Agent 展现出日益强大的工具调用能力。然而,这种能力也带来了显著的安全风险——恶意行为者可以操纵 Agent 执行工具来生成有害内容。现有防御机制虽然有效,但普遍面临过度拒绝(over-refusal)问题:安全策略越严格,对良性任务的实用性损害越大。

SafeHarbor 提出了一种新颖框架,通过分层记忆系统为 LLM Agent 建立精确的决策边界。与静态规则不同,SafeHarbor 通过增强对抗生成提取上下文感知的防御规则,并设计了一个本地分层记忆系统实现动态规则注入,提供免训练、高效、即插即用的解决方案。

核心贡献

1. 分层记忆架构

SafeHarbor 采用本地分层记忆系统进行动态规则注入: - 节点分裂(Node Splitting):当记忆节点承载的规则冲突增加时,自动分裂为多个专门节点 - 节点合并(Node Merging):当规则收敛时,合并相似节点以降低计算开销 - 这种自适应结构使 Agent 能够在不同安全级别间平滑切换

2. 信息熵自演化机制

SafeHarbor 引入了基于信息熵的自演化机制: - 通过动态节点分裂与合并,持续优化记忆结构 - 无需人工干预,记忆自动适应新型攻击模式 - 实验表明,该机制在多种对抗场景下均能保持高效的防御性能

3. 免训练的即插即用设计

  • 不需要模型微调或额外训练
  • 规则通过对抗生成自动提取
  • 可直接集成到现有 LLM Agent 系统中

关键发现

Over-Refusal 问题的解决

方法 良性任务利用率 有害请求拒绝率
静态规则 ~40% ~95%
SafeHarbor 63.6% >93%

SafeHarbor 在 GPT-4o 上实现了 63.6% 的峰值良性利用率,同时保持超过 93% 的有害请求拒绝率,有效缓解了安全与实用性之间的权衡。

分层记忆的效果

  • 信息熵驱动的节点管理使记忆结构始终保持最优状态
  • 动态节点数量随攻击复杂度自适应调整
  • 在复杂对抗场景下,记忆调用延迟降低约 40%

为什么重要

  1. Agent 安全的根本性突破:首次将记忆系统引入安全防护,而非依赖静态规则或单一决策边界
  2. 解决 over-refusal 痛点:传统安全方法以牺牲用户满意度为代价,SafeHarbor 首次在高安全性和高实用性间取得平衡
  3. 即插即用的实用性:无需重新训练 Agent,降低了实际部署的门槛

与端侧/移动端的相关性

  • 低计算开销:分层记忆采用本地存储,推理时计算量极小,适合移动端部署
  • 隐私保护:规则存储在本地,无需上传用户交互数据
  • 自适应防护:能够识别新型攻击,无需云端更新
  • 实时性:动态节点管理在边缘设备上运行流畅

关键词:记忆防护、分层记忆、LLM Agent 安全、过度拒绝问题、动态规则注入、端侧 AI 安全