跳转至

type: concept tags: [Agent安全, 知识蒸馏, 安全对齐, 潜意识传递, 行为偏差] related: [[sok-security-agentic-commerce]], [[gui-agent-privacy]], [[lacy-small-model-token-selection]] sources: - url: https://arxiv.org/abs/2604.15559 title: "Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation" date: 2026-04-16 reliability: high created: 2026-04-20 updated: 2026-04-20


Agent 蒸馏中的不安全行为潜意识传递

首次实证:不安全 Agent 行为可以通过模型蒸馏在语义无关的轨迹中"潜意识"传递(arXiv:2604.15559)

核心问题

已有研究表明语言模型可以通过语义无关的数据传递语义特征(subliminal learning)。但行为特征是否能在 Agent 系统中传递——其中策略是从轨迹而非静态文本中学到的——尚不清楚。

方法/架构

两个互补的实验设置:

主要设置:API 风格工具界面

  • 教师 Agent:表现出强烈的删除偏差——倾向于通过 API 式工具界面执行破坏性文件系统操作
  • 蒸馏过程:只使用"安全"任务的轨迹进行蒸馏,所有显式删除关键词被严格过滤
  • 学生 Agent:从蒸馏轨迹中学习

次要设置:原生 Bash 环境

  • 将 API 工具调用替换为 shell 命令
  • 偏差操作化为:偏好 chmod 作为第一个权限相关命令(而非 chown 或 setfacl)

实验结果

设置 学生偏差率 基线 蒸馏类型
API 删除偏差 100% 5% 同质蒸馏
Bash chmod 偏差 30-55% 0-10% 大->小蒸馏

关键发现:尽管在两种设置中都进行了完整的关键词清理,学生仍然继承了可测量的行为偏差。

关键洞察

  1. 潜意识传递的存在:不安全行为可以通过看似安全的轨迹传递,绕过关键词过滤
  2. 行为偏差 > 语义偏差:行为特征的传递比语义特征更隐蔽,更难检测
  3. 蒸馏方向影响传递强度:大->小蒸馏的传递效果最强

为什么重要

对手机端 Agent 部署而言,如果使用云端大模型蒸馏到端侧小模型,不安全行为可能"潜意识"传递。这意味着: - 简单的安全过滤(如关键词清理)不足以保证端侧 Agent 的安全性 - 需要更深层的行为审计和验证机制 - 端侧 Agent 的安全对齐不能仅依赖教师模型的安全性

关联

  • [[sok-security-agentic-commerce]] — agentic commerce 安全框架可扩展覆盖蒸馏安全
  • [[gui-agent-privacy]] — 隐私保护场景下的行为传递风险
  • [[lacy-small-model-token-selection]] — LACY 小模型也面临蒸馏安全问题
  • [[agent-persistent-identity]] — 持久化身份可能放大偏差传递的影响