type: concept tags: [on-device, llm, mental-health, privacy, mobile-app, quantization, gemma, phi, qwen, edge-inference] related: [[agentee-confidential-edge-agent]], [[gemma4-ondevice]], [[edge-cloud-offloading]] sources: - url: https://arxiv.org/abs/2604.18302 title: "Toward Zero-Egress Psychiatric AI: On-Device LLM Deployment for Privacy-Preserving Mental Health Decision Support" date: 2026-04-21 reliability: high created: 2026-04-21 updated: 2026-04-21

Zero-Egress 精神科 AI: 端侧 LLM 部署的隐私保护精神健康决策支持¶

在移动设备上完全本地运行 LLM 集群，为精神科诊断提供零数据外泄的 AI 辅助决策。arXiv: 2604.18302

核心问题¶

精神科诊断涉及极度敏感的患者数据（创伤史、药物滥用、自杀倾向等），但在军事、惩教、偏远医疗等高敏感场景中，现有 AI 辅助诊断系统几乎全部依赖云端推理——患者数据必须离开设备、经过外部服务器，这在这些场景中构成不可接受的隐私风险，甚至可能导致患者完全拒绝求助。

方法/架构¶

系统架构：三模型本地集群¶

该平台采用 fine-tuned LLM consortium 架构，在移动端完全本地运行三个轻量化 LLM：

模型	参数量	量化	角色
Gemma	2B	INT4	症状提取与初步评估
Phi-3.5-mini	3.8B	INT4	DSM-5 标准匹配
Qwen2	1.5B	INT4	鉴别诊断推理

零外泄（Zero-Egress）设计¶

完全本地推理：所有推理在设备端完成，无任何网络请求
加密存储：患者数据和会话历史使用设备密钥加密存储
无遥测：不收集任何使用数据、崩溃报告或诊断结果
跨平台：iOS 和 Android 均支持，使用统一推理引擎

共识诊断机制¶

三模型输出通过 ensemble consensus 机制整合： 1. 每个模型独立生成诊断评估 2. 系统检查三模型的一致性（DSM-5 标准对齐度） 3. 高一致性时输出共识诊断；低一致性时标记为"需要临床审查" 4. 所有诊断附带证据链接（哪些症状/回答支持该诊断）

实验结果¶

在标准化精神科评估数据集上的表现：

指标	服务端版本	端侧版本（本方案）
DSM-5 诊断准确率	87.3%	85.1%
症状提取 F1	0.91	0.88
鉴别诊断准确率	82.6%	80.2%
推理延迟	200-500ms (网络)	800-1500ms (本地)
数据外泄风险	高	零

关键发现： - 端侧版本准确率仅下降 2-3%，但消除了所有数据外泄风险 - 在中高端手机（Snapdragon 8 Gen 2+）上，单次诊断推理耗时 3-5 秒，临床可用 - INT4 量化对精神科领域术语的理解影响有限（准确率下降 <2%） - 共识机制有效降低了单模型幻觉风险（假阳性率降低 37%）

关键洞察¶

这项工作验证了一个关键假设：端侧 LLM 可以在高敏感领域达到接近服务端的性能。精神科诊断是极端场景——错误的代价极高，隐私要求极严——如果端侧方案在这里可行，那么在大多数其他领域（日程管理、邮件摘要、客服对话等）的端侧部署就更没有障碍。

另一个重要发现是 LLM consortium（模型集群）模式的实用性。多个小模型的 ensemble 比单个大模型更具鲁棒性，且更适合端侧部署——小模型可以轮流加载到内存中，而大模型可能根本装不下。

为什么重要¶

对手机端 AIOS 生态的意义： - 隐私优先的 AI 范式验证：证明了"零数据外泄"在实际场景中可行 - 端侧 LLM consortium 模式：多小模型 ensemble 比单大模型更适合移动设备的内存约束 - 垂直领域示范：精神科只是开始——法律咨询、金融建议、个人健康等领域同样需要端侧隐私保护 - 硬件需求合理化：INT4 量化的 2-4B 模型在中端手机即可运行，降低了 AI 功能的设备门槛

关联¶

[[agentee-confidential-edge-agent]] — TEE 方案提供了另一种端侧隐私保护路径
[[gemma4-ondevice]] — Gemma 是本方案采用的核心模型之一
[[edge-cloud-offloading]] — 在非敏感场景可结合端云卸载提升性能
[[kv-cache-quantization-ondevice]] — 端侧推理的 KV Cache 管理是关键优化点