type: concept tags: [on-device, fine-tuning, lora, medical-ai, llama, privacy, quantization, healthcare] related: [[lacy-small-model-token-selection]], [[on-device-inference-memory-pressure]], [[edgeflow-cold-start]], [[biotrain-ondevice-finetuning]] sources: - url: http://arxiv.org/abs/2507.03033 title: "Preserving Privacy, Increasing Accessibility, and Reducing Cost: An On-Device Artificial Intelligence Model for Medical Transcription and Note Generation" date: 2025-07-03 reliability: high created: 2026-04-18 updated: 2026-04-18

端侧医疗AI：隐私保护的医学转录与笔记生成¶

在浏览器中完全本地运行的Llama 3.2 1B微调模型，实现高质量医学转录到结构化笔记的自动生成

核心问题¶

临床文档记录是医疗工作者的重大负担——医生每天花费长达2小时在行政任务上。现有基于大语言模型的解决方案虽然有效，但面临两大痛点：隐私合规（患者数据不能上传云端）和计算资源（医院IT环境有限）。需要一种完全在设备端运行、无需联网的医疗AI方案。

方法/架构¶

模型选择与微调¶

基础模型：Llama 3.2 1B（参数量仅10亿）
微调方法：PEFT + LoRA（参数高效微调）
训练数据：1,500对合成医学转录→结构化笔记
部署方式：完全在浏览器中运行（WebAssembly / WebGPU）

评估体系¶

双维度评估： 1. 统计指标：ROUGE、BERTScore、BLEURT 2. LLM-as-Judge：多维度临床质量评估

实验结果¶

指标	基础Llama 3.2 1B	微调后OnDevice模型	提升
ROUGE-1	0.346	0.496	+43%
BERTScore F1	0.832	0.866	+4.1%
重大幻觉数	85/100	35/100	-59%
事实正确性(1-5)	2.81	3.54	+26%

在内部内分泌科数据集上也观察到类似提升模式。

关键洞察¶

小模型+精准微调 > 大模型+零微调。10亿参数的模型经LoRA微调后，ROUGE-1提升43%、幻觉减少59%，说明在特定领域任务上，微调带来的质量提升远超模型规模的差异。

浏览器即部署环境。不需要安装任何软件、不需要GPU服务器、不需要网络连接——模型直接在Chrome/Firefox中运行。这对医疗场景至关重要：任何有浏览器的设备都能用。

数据主权完整保留。患者数据从不离开本地设备，从根本上满足HIPAA等隐私法规要求。

为什么重要¶

医疗AI的端侧范式验证：证明了10亿参数量级的模型在经过精心微调后，足以胜任临床文档生成等专业任务
LoRA在端侧的实用性展示：LoRA微调的成本极低（1,500个样本），但效果显著，为其他垂直领域的端侧AI提供了可复制的方法论
隐私与性能的兼得：打破了"隐私必须牺牲性能"的传统假设
可及性提升：不需要高端硬件或云计算资源，发展中国家和资源匮乏地区的医疗机构也能受益

关联¶

[[lacy-small-model-token-selection]] — 小模型能力边界与Token选择策略
[[on-device-inference-memory-pressure]] — 端侧推理的内存约束与优化
[[edgeflow-cold-start]] — 端侧LLM冷启动优化
[[biotrain-ondevice-finetuning]] — 端侧微调的另一案例（生物信号领域）
[[defakeq-edge-deepfake-detection]] — 端侧AI在特定任务上的有效性验证