type: concept tags: [差分隐私, 合成数据, 隐私保护, LLM模拟器, 端侧隐私] related: [[gui-agent-privacy]], [[experience-compression-spectrum]], [[sok-security-agentic-commerce]] sources: - url: https://arxiv.org/abs/2604.15461 title: "Evaluating LLM Simulators as Differentially Private Data Generators" date: 2026-04-16 reliability: high created: 2026-04-20 updated: 2026-04-20

LLM 模拟器作为差分隐私数据生成器的评估¶

LLM 在差分隐私保护下生成合成数据的能力评估——发现系统性偏差是主要瓶颈（arXiv:2604.15461）

核心问题¶

金融机构持有大量可用于加速欺诈检测研究的交易数据，但隐私法规严重限制了数据共享。差分隐私（DP）合成数据生成提供了解决方案，但传统的边际方法（如 AIM、PrivBayes）面临根本性的可扩展性挑战：维度增加时效用急剧下降。

LLM-based 模拟器提供了一条有趣的替代路径——利用预训练知识从高级描述生成逼真数据。

方法/架构¶

使用 PersonaLedger（一个 agentic 金融模拟器）进行评估： - 以 DP 合成 persona 为种子（来自真实用户统计） - 生成合成交易数据 - 评估欺诈检测效用

实验结果¶

指标	结果
欺诈检测 AUC	0.70（epsilon=1）
主要问题	分布漂移
漂移原因	系统性 LLM 偏差

关键发现：LLM 的学习先验会覆盖输入统计数据中的时间和人口统计特征——这是需要解决的根本性偏差。

关键洞察¶

学习先验覆盖输入：LLM 的预训练知识会"覆盖"差分隐私保护下的输入统计，导致分布漂移
维度 vs 偏差权衡：LLM 在高维表示上有优势，但偏差问题使其难以处理更丰富的用户表示
端侧隐私应用潜力：如果偏差问题解决，LLM 可以在设备上本地生成隐私保护的合成数据

为什么重要¶

对手机端 AI 而言，差分隐私是保护用户数据的关键技术。本研究揭示了 LLM 在 DP 场景下的系统性偏差问题，为端侧隐私保护数据生成提供了改进方向。未来端侧 Agent 可以在本地生成合成数据用于训练或分享，同时保证差分隐私。

关联¶

[[gui-agent-privacy]] — GUI Agent 隐私保护可借鉴 DP 合成数据方法
[[experience-compression-spectrum]] — 经验压缩中的隐私保护考量
[[sok-security-agentic-commerce]] — agentic commerce 中的数据隐私需求
[[on-device-vs-cloud-agentic-tool-calling]] — 端侧数据生成 vs 云端处理的隐私权衡