跳转至

type: concept tags: [差分隐私, 合成数据, 隐私保护, LLM模拟器, 端侧隐私] related: [[gui-agent-privacy]], [[experience-compression-spectrum]], [[sok-security-agentic-commerce]] sources: - url: https://arxiv.org/abs/2604.15461 title: "Evaluating LLM Simulators as Differentially Private Data Generators" date: 2026-04-16 reliability: high created: 2026-04-20 updated: 2026-04-20


LLM 模拟器作为差分隐私数据生成器的评估

LLM 在差分隐私保护下生成合成数据的能力评估——发现系统性偏差是主要瓶颈(arXiv:2604.15461)

核心问题

金融机构持有大量可用于加速欺诈检测研究的交易数据,但隐私法规严重限制了数据共享。差分隐私(DP)合成数据生成提供了解决方案,但传统的边际方法(如 AIM、PrivBayes)面临根本性的可扩展性挑战:维度增加时效用急剧下降。

LLM-based 模拟器提供了一条有趣的替代路径——利用预训练知识从高级描述生成逼真数据。

方法/架构

使用 PersonaLedger(一个 agentic 金融模拟器)进行评估: - 以 DP 合成 persona 为种子(来自真实用户统计) - 生成合成交易数据 - 评估欺诈检测效用

实验结果

指标 结果
欺诈检测 AUC 0.70(epsilon=1)
主要问题 分布漂移
漂移原因 系统性 LLM 偏差

关键发现:LLM 的学习先验会覆盖输入统计数据中的时间和人口统计特征——这是需要解决的根本性偏差。

关键洞察

  1. 学习先验覆盖输入:LLM 的预训练知识会"覆盖"差分隐私保护下的输入统计,导致分布漂移
  2. 维度 vs 偏差权衡:LLM 在高维表示上有优势,但偏差问题使其难以处理更丰富的用户表示
  3. 端侧隐私应用潜力:如果偏差问题解决,LLM 可以在设备上本地生成隐私保护的合成数据

为什么重要

对手机端 AI 而言,差分隐私是保护用户数据的关键技术。本研究揭示了 LLM 在 DP 场景下的系统性偏差问题,为端侧隐私保护数据生成提供了改进方向。未来端侧 Agent 可以在本地生成合成数据用于训练或分享,同时保证差分隐私。

关联

  • [[gui-agent-privacy]] — GUI Agent 隐私保护可借鉴 DP 合成数据方法
  • [[experience-compression-spectrum]] — 经验压缩中的隐私保护考量
  • [[sok-security-agentic-commerce]] — agentic commerce 中的数据隐私需求
  • [[on-device-vs-cloud-agentic-tool-calling]] — 端侧数据生成 vs 云端处理的隐私权衡