type: concept tags: [小模型, Token选择, 知识蒸馏, 端侧推理, Apple] related: [[gemma4-ondevice]], [[qwen35-small]], [[septq-post-training-quantization]], [[lcsb-finetuning-ondevice]] sources: - url: https://machinelearning.apple.com/research/lacy title: "LaCy: What Small Language Models Can and Should Learn is Not Just a Question of Loss" date: 2026-04 reliability: high created: 2026-04-16 updated: 2026-04-16
LaCy:小语言模型应该学什么——超越损失函数的Token选择哲学¶
Apple 机器学习团队提出的新型预训练方法,解决小语言模型 (SLM) 在端侧部署中的核心矛盾:哪些知识应该自己掌握,哪些应该委托给外部大模型。
核心问题¶
小语言模型 (SLM) 的参数容量有限,预训练能压缩的世界知识有明确上限。实践中通过让 SLM 访问外部来源(查询大模型、文档或数据库)来缓解这一问题。但一个根本性问题未被回答:在预训练中,哪些 token SLM 应该自己学会预测,哪些应该通过 <CALL> token 委托给外部资源?
方法/架构¶
关键发现¶
-
损失值不是唯一信号:虽然损失值可以预测预测 token 是否与 ground-truth 匹配,但某些 token 即使损失很高,也是预训练文档的可接受替代延续(truthful alternative continuations),不应触发
<CALL>。 -
语法解析辅助判断:spaCy 语法解析器可以帮助增强损失信号,区分:SLM 应该委托的 token(事实性错误风险高) vs 应该学习的 token(即使损失高,也是安全的替代延续)。
-
LaCy 预训练方法:基于上述 token 选择哲学的新型预训练流程。
工作机制¶
For each token position:
1. Compute loss
2. If loss HIGH:
a. Use spaCy grammar parser to check if token is a valid syntactic alternative
b. If valid alternative → LEARN (safe to predict)
c. If likely factual error → DELEGATE (use <CALL> token)
3. If loss LOW → LEARN normally
实验结果¶
- LaCy 模型成功学习了哪些 token 自己预测,哪些需要委托
- 在与大模型级联生成时,FactScore 显著提升
- 优于 Rho 和 LLM-judge 训练的 SLM 方法
关键洞察¶
- "可接受的替代延续"是关键概念:不是所有与 ground-truth 不同的预测都是错误的。语言的多义性意味着某些高损失预测仍然是"正确的"——这颠覆了传统以损失为唯一信号的训练哲学
- 与端侧Agent的关联:手机端 SLM 可以用 LaCy 方法训练,在大多数情况下自主处理,只在高风险事实性场景中才调用云端大模型——这本质上是一种智能的端云协同策略
- Apple 的研究方向信号:这暗示 Apple 正在深入研究如何让设备端小模型更智能地决定何时需要外部帮助
为什么重要¶
对于手机端 AIOS 而言,LaCy 提供了一个优雅的端云协同范式:不是简单地在端侧运行小模型或在云端运行大模型,而是让端侧模型学会"自知之明"——知道自己知道什么、不知道什么,在合适的时机委托给外部资源。这与 [[trispirit-cognitive-architecture]] 的分层推理理念和 [[on-device-vs-cloud-agentic-tool-calling]] 的端云决策高度契合。
关联¶
- [[gemma4-ondevice]] — Gemma 4 等端侧模型可从 LaCy 的 token 选择策略中受益
- [[qwen35-small]] — 小型 Qwen 模型同样面临容量限制问题
- [[septq-post-training-quantization]] — 量化和 token 选择是端侧优化的两个互补维度
- [[lcsb-finetuning-ondevice]] — LCSB 的内存高效微调与 LaCy 的选择性学习哲学一致
- [[trispirit-cognitive-architecture]] — 分层推理与 LaCy 的委托决策机制互补