type: concept tags: [slm, llm, 端侧推理, 模型压缩, 知识蒸馏, 量化, 对比分析] related: [[gemma4-ondevice]], [[qwen35-small]], [[lacy-small-model-token-selection]], [[septq-post-training-quantization]], [[biotrain-ondevice-finetuning-mcu]] sources: - url: https://hn.algolia.com/api/v1/items/47000145 title: "Small Language Models (SLMs) vs. Large Language Models (LLMs)" date: 2026-04-16 reliability: medium created: 2026-04-16 updated: 2026-04-16

小语言模型 vs 大语言模型：端侧推理的模型选型指南¶

SLM 与 LLM 的系统性对比——覆盖设计、训练、部署和应用维度。

核心问题¶

大语言模型（LLM，数十亿到数千亿参数）在零样本推理、指令遵循和多轮对话上持续突破，但需要大型 GPU/TPU、可靠云连接和高推理成本——这些约束严重阻碍了低延迟、隐私保护和离线应用场景（移动端、机器人、IoT）。

小语言模型（SLM，通常 < 7B 参数）经过任务优化，可以在设备端或受限服务器上运行，缩小了与 LLM 的能力差距，同时开启了新的应用场景。

维度对比¶

维度	SLM (< 7B)	LLM (> 70B)
参数量	0.1B ~ 7B	70B ~ 1.8T
推理延迟	毫秒~秒级（端侧）	秒~十秒级（云端）
内存需求	1~14GB（可量化到 <4GB）	140GB+（多GPU）
部署环境	手机、边缘设备、IoT	数据中心
隐私性	✅ 数据不出设备	❌ 数据上传云端
离线能力	✅	❌
零样本泛化	有限	强
多步推理	弱	强
训练成本	低~中	极高

核心压缩技术¶

1. 知识蒸馏（Knowledge Distillation）¶

Teacher-Student 架构：用大模型指导小模型训练
代表：DistilBERT、TinyLlama（1.1B，从 Llama 2 蒸馏）
典型压缩比：教师模型 1/3 参数保留 97% 性能

2. 量化（Quantization）¶

FP32 → INT8/INT4：模型大小缩减 4-8 倍
后训练量化（PTQ）：无需重新训练
量化感知训练（QAT）：训练时模拟量化，精度更高
代表：GGUF/GPTQ/AWQ 格式

3. 参数高效微调（PEFT）¶

LoRA/QLoRA：仅训练 0.1-1% 参数
适配器（Adapters）：在冻结模型上添加轻量模块
Prefix Tuning：优化虚拟 token 前缀

4. 剪枝（Pruning）¶

结构化剪枝：移除整个注意力头/层
非结构化剪枝：移除单个权重（需要稀疏硬件支持）
移动端挑战：非结构化剪枝在 ARM CPU 上收益有限

代表性 SLM¶

模型	参数量	特色
Gemma 2	2B/7B	Google 出品，端侧优化
Qwen 3.5	0.6B~7B	阿里通义千问小模型系列
MiniCPM	0.5B~8B	端侧多模态领先
Phi-3	3.8B	微软，小模型推理突破
TinyLlama	1.1B	超轻量，IoT 场景
Apple Intelligence	3B	Apple 端侧主力模型

关键洞察¶

SLM 不是 LLM 的降级版：通过蒸馏+量化+任务微调的组合拳，SLM 在特定任务上可以达到甚至超过通用 LLM。差距主要在需要深层推理和广泛知识的任务上。
端侧推理的瓶颈正在被打破：NPU、移动端 GPU（如 Apple Neural Engine、高通 Hexagon）的进步使得 7B 模型在手机上以可接受的延迟运行。
SLM + LLM 混合架构：越来越多的系统采用"SLM 处理简单任务 + LLM 处理复杂任务"的分层策略（如 Apple Intelligence 的端云协同）。
隐私驱动 SLM 需求：欧盟 AI 法案、各国数据主权法规推动了对端侧推理的需求，SLM 是唯一可行的离线隐私保护方案。

为什么重要¶

SLM vs LLM 的选型是移动 AIOS 架构设计的核心决策。选择 SLM 意味着更低延迟、更好隐私和离线能力，但需要在功能上做出妥协。理解两者的权衡对于设计端侧 Agent 系统至关重要。

关联¶

[[gemma4-ondevice]] — Gemma 4 端侧部署
[[qwen35-small]] — Qwen 3.5 小模型系列
[[lacy-small-model-token-selection]] — SLM 的 token 选择策略
[[septq-post-training-quantization]] — 后训练量化技术
[[biotrain-ondevice-finetuning-mcu]] — 端侧微调
[[ggml-llamacpp-hf]] — 端侧推理框架