type: concept tags: [on-device, llm, mental-health, privacy, mobile-app, quantization, gemma, phi, qwen, edge-inference] related: [[agentee-confidential-edge-agent]], [[gemma4-ondevice]], [[edge-cloud-offloading]] sources: - url: https://arxiv.org/abs/2604.18302 title: "Toward Zero-Egress Psychiatric AI: On-Device LLM Deployment for Privacy-Preserving Mental Health Decision Support" date: 2026-04-21 reliability: high created: 2026-04-21 updated: 2026-04-21
Zero-Egress 精神科 AI: 端侧 LLM 部署的隐私保护精神健康决策支持¶
在移动设备上完全本地运行 LLM 集群,为精神科诊断提供零数据外泄的 AI 辅助决策。arXiv: 2604.18302
核心问题¶
精神科诊断涉及极度敏感的患者数据(创伤史、药物滥用、自杀倾向等),但在军事、惩教、偏远医疗等高敏感场景中,现有 AI 辅助诊断系统几乎全部依赖云端推理——患者数据必须离开设备、经过外部服务器,这在这些场景中构成不可接受的隐私风险,甚至可能导致患者完全拒绝求助。
方法/架构¶
系统架构:三模型本地集群¶
该平台采用 fine-tuned LLM consortium 架构,在移动端完全本地运行三个轻量化 LLM:
| 模型 | 参数量 | 量化 | 角色 |
|---|---|---|---|
| Gemma | 2B | INT4 | 症状提取与初步评估 |
| Phi-3.5-mini | 3.8B | INT4 | DSM-5 标准匹配 |
| Qwen2 | 1.5B | INT4 | 鉴别诊断推理 |
零外泄(Zero-Egress)设计¶
- 完全本地推理:所有推理在设备端完成,无任何网络请求
- 加密存储:患者数据和会话历史使用设备密钥加密存储
- 无遥测:不收集任何使用数据、崩溃报告或诊断结果
- 跨平台:iOS 和 Android 均支持,使用统一推理引擎
共识诊断机制¶
三模型输出通过 ensemble consensus 机制整合: 1. 每个模型独立生成诊断评估 2. 系统检查三模型的一致性(DSM-5 标准对齐度) 3. 高一致性时输出共识诊断;低一致性时标记为"需要临床审查" 4. 所有诊断附带证据链接(哪些症状/回答支持该诊断)
实验结果¶
在标准化精神科评估数据集上的表现:
| 指标 | 服务端版本 | 端侧版本(本方案) |
|---|---|---|
| DSM-5 诊断准确率 | 87.3% | 85.1% |
| 症状提取 F1 | 0.91 | 0.88 |
| 鉴别诊断准确率 | 82.6% | 80.2% |
| 推理延迟 | 200-500ms (网络) | 800-1500ms (本地) |
| 数据外泄风险 | 高 | 零 |
关键发现: - 端侧版本准确率仅下降 2-3%,但消除了所有数据外泄风险 - 在中高端手机(Snapdragon 8 Gen 2+)上,单次诊断推理耗时 3-5 秒,临床可用 - INT4 量化对精神科领域术语的理解影响有限(准确率下降 <2%) - 共识机制有效降低了单模型幻觉风险(假阳性率降低 37%)
关键洞察¶
这项工作验证了一个关键假设:端侧 LLM 可以在高敏感领域达到接近服务端的性能。精神科诊断是极端场景——错误的代价极高,隐私要求极严——如果端侧方案在这里可行,那么在大多数其他领域(日程管理、邮件摘要、客服对话等)的端侧部署就更没有障碍。
另一个重要发现是 LLM consortium(模型集群)模式的实用性。多个小模型的 ensemble 比单个大模型更具鲁棒性,且更适合端侧部署——小模型可以轮流加载到内存中,而大模型可能根本装不下。
为什么重要¶
对手机端 AIOS 生态的意义: - 隐私优先的 AI 范式验证:证明了"零数据外泄"在实际场景中可行 - 端侧 LLM consortium 模式:多小模型 ensemble 比单大模型更适合移动设备的内存约束 - 垂直领域示范:精神科只是开始——法律咨询、金融建议、个人健康等领域同样需要端侧隐私保护 - 硬件需求合理化:INT4 量化的 2-4B 模型在中端手机即可运行,降低了 AI 功能的设备门槛
关联¶
- [[agentee-confidential-edge-agent]] — TEE 方案提供了另一种端侧隐私保护路径
- [[gemma4-ondevice]] — Gemma 是本方案采用的核心模型之一
- [[edge-cloud-offloading]] — 在非敏感场景可结合端云卸载提升性能
- [[kv-cache-quantization-ondevice]] — 端侧推理的 KV Cache 管理是关键优化点