type: concept tags: [taxonomy, survey, llm, scaling, 效率, 端侧推理, agentic] related: [[slms-vs-llms]], [[edgeflow-cold-start]], [[kv-cache-quantization-ondevice]], [[networking-energy-agentic]], [[exectune-guide-core-policy]] sources: - url: https://arxiv.org/abs/2601.14053v2 title: "LLMOrbit: A Circular Taxonomy of Large Language Models" date: 2026-04-17 reliability: high created: 2026-04-17 updated: 2026-04-17
LLMOrbit: LLM 圆形分类体系¶
全面的 LLM 分类框架,涵盖 2019-2025 年 50+ 模型,揭示三大危机和六种突破范式
核心问题¶
LLM 领域发展迅速但缺乏系统性分类。从 Transformer 到推理系统,需要一个统一的框架来理解整个生态——尤其是当暴力扩展(brute-force scaling)遇到瓶颈时,哪些效率路径才是可持续的。
方法/架构:八维轨道模型¶
LLMOrbit 提出一个圆形分类法(Circular Taxonomy),将 50+ 模型按 8 个相互关联的维度组织:
- 架构创新:Transformer 变体、MoE、MLA(Multi-head Latent Attention)
- 训练方法:RLHF、GRPO、纯 RL、ORPO
- 效率模式:量化、蒸馏、剪枝
- 推理优化:测试时计算(test-time compute)
- 规模化路径:从 14B 到 1.8T 参数
- 部署场景:云端、边缘、端侧
- 能力维度:语言、视觉、代码、推理
- 生态系统:开源 vs 闭源,15 个组织
三大危机¶
论文识别出暴力扩展路线面临的三个根本瓶颈:
- 数据枯竭:9-27T token 将在 2026-2028 年耗尽
- 成本爆炸:5 年内从 $3M 飙升至 $300M+
- 能耗不可持续:22 倍增长
六种突破范式¶
论文发现 6 种方法正在打破扩展墙:
| 范式 | 代表 | 效果 |
|---|---|---|
| 测试时计算 | o1, DeepSeek-R1 | 10x 推理计算达到 GPT-4 性能 |
| 量化 | 多种方法 | 4-8x 压缩 |
| 分布式边缘计算 | 边缘部署 | 10x 成本降低 |
| 模型融合 | 多种方法 | 能力组合 |
| 高效训练 | ORPO | 内存减少 50% |
| 小型专用模型 | Phi-4 14B | 匹敌更大模型 |
关键洞察¶
- 后训练收益显著:RLHF、GRPO、纯 RL 贡献巨大,DeepSeek-R1 在 MATH 上达到 79.8%
- MoE 路由效率惊人:18x 效率提升
- MLA 压缩革命:Multi-head Latent Attention 实现 8x KV cache 压缩,使 GPT-4 级性能成本低于 $0.30/M token
- 小模型崛起:Phi-4 14B 等小型模型匹敌更大模型,这对端侧部署意义重大
为什么重要¶
这篇综述对手机端 AIOS 的核心价值在于:
- 量化路线图:4-8x 压缩直接关联端侧模型部署的可行性
- 分布式边缘计算:10x 成本降低验证了边缘推理的经济性
- 小模型趋势:Phi-4 14B 级别的模型匹配大模型,意味着端侧运行高质量 LLM 已经可行
- MLA + MoE:这些架构创新直接降低端侧推理的内存和计算需求
- 能耗分析:22x 能耗增长不可持续,推动端侧推理成为必要选择
关联¶
- [[slms-vs-llms]] — 小型语言模型的能力边界,与 LLMOrbit 的小模型范式直接呼应
- [[edgeflow-cold-start]] — 端侧 LLM 冷启动优化,应对 LLMOrbit 指出的推理成本问题
- [[kv-cache-quantization-ondevice]] — KV cache 量化,与 MLA 的 8x 压缩原理互补
- [[networking-energy-agentic]] — Agent 推理的能耗分析,呼应 22x 能耗危机
- [[exectune-guide-core-policy]] — Guide Model 测试时计算范式的具体实现