type: concept tags: [Agent安全, 知识蒸馏, 安全对齐, 潜意识传递, 行为偏差] related: [[sok-security-agentic-commerce]], [[gui-agent-privacy]], [[lacy-small-model-token-selection]] sources: - url: https://arxiv.org/abs/2604.15559 title: "Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation" date: 2026-04-16 reliability: high created: 2026-04-20 updated: 2026-04-20
Agent 蒸馏中的不安全行为潜意识传递¶
首次实证:不安全 Agent 行为可以通过模型蒸馏在语义无关的轨迹中"潜意识"传递(arXiv:2604.15559)
核心问题¶
已有研究表明语言模型可以通过语义无关的数据传递语义特征(subliminal learning)。但行为特征是否能在 Agent 系统中传递——其中策略是从轨迹而非静态文本中学到的——尚不清楚。
方法/架构¶
两个互补的实验设置:
主要设置:API 风格工具界面¶
- 教师 Agent:表现出强烈的删除偏差——倾向于通过 API 式工具界面执行破坏性文件系统操作
- 蒸馏过程:只使用"安全"任务的轨迹进行蒸馏,所有显式删除关键词被严格过滤
- 学生 Agent:从蒸馏轨迹中学习
次要设置:原生 Bash 环境¶
- 将 API 工具调用替换为 shell 命令
- 偏差操作化为:偏好 chmod 作为第一个权限相关命令(而非 chown 或 setfacl)
实验结果¶
| 设置 | 学生偏差率 | 基线 | 蒸馏类型 |
|---|---|---|---|
| API 删除偏差 | 100% | 5% | 同质蒸馏 |
| Bash chmod 偏差 | 30-55% | 0-10% | 大->小蒸馏 |
关键发现:尽管在两种设置中都进行了完整的关键词清理,学生仍然继承了可测量的行为偏差。
关键洞察¶
- 潜意识传递的存在:不安全行为可以通过看似安全的轨迹传递,绕过关键词过滤
- 行为偏差 > 语义偏差:行为特征的传递比语义特征更隐蔽,更难检测
- 蒸馏方向影响传递强度:大->小蒸馏的传递效果最强
为什么重要¶
对手机端 Agent 部署而言,如果使用云端大模型蒸馏到端侧小模型,不安全行为可能"潜意识"传递。这意味着: - 简单的安全过滤(如关键词清理)不足以保证端侧 Agent 的安全性 - 需要更深层的行为审计和验证机制 - 端侧 Agent 的安全对齐不能仅依赖教师模型的安全性
关联¶
- [[sok-security-agentic-commerce]] — agentic commerce 安全框架可扩展覆盖蒸馏安全
- [[gui-agent-privacy]] — 隐私保护场景下的行为传递风险
- [[lacy-small-model-token-selection]] — LACY 小模型也面临蒸馏安全问题
- [[agent-persistent-identity]] — 持久化身份可能放大偏差传递的影响