type: concept tags: [能效优化, TinyML, 硬件协同设计, LLM推理, 边缘计算, 量化, 调度] related: [[tinyml-cnn-accelerator-approx-matrix-decomp]], [[aeg-baremetal-ai-acceleration]], [[ggml-llamacpp-hf]], [[mnn-350]], [[kv-cache-quantization-ondevice]] sources: - url: https://arxiv.org/abs/2603.23668 title: "Energy Efficient Software Hardware CoDesign for Machine Learning: From TinyML to Large Language Models" date: 2026-04-04 reliability: high created: 2026-04-20 updated: 2026-04-20

TinyML 到 LLM 的能效软硬件协同设计¶

系统综述从边缘推理到数据中心的能效优化方法，覆盖加速器架构、量化、调度和运行时适配

核心问题¶

AI 的快速扩张带来了严重的可持续性挑战： - 训练碳排放：训练单个 LLM 的碳排放相当于多辆乘用车的生命周期排放 - 推理能耗占比：推理现在占 LLM 全生命周期排放的一半以上（不仅是训练！） - 边缘设备约束：数十亿边缘设备必须在严格能耗约束下运行 - 数据移动瓶颈：能耗越来越受限于数据搬运和内存系统行为，而非算力本身

方法架构¶

综述了从边缘到数据中心的能效协同设计方法：

覆盖的优化技术栈：

层级	技术
硬件架构	ASIC/FPGA 数据流、Processing-in-Memory (PIM)、Compute-in-Memory (CIM)
模型优化	量化（INT4/INT8/FP8）、剪枝、知识蒸馏
系统级	分区、调度、运行时适配、动态电压频率调节
编译优化	算子融合、内存规划、数据布局优化

关键洞察 — 跨层级共同设计杠杆： - 量化 + 定制数据流 + 调度的组合效果远超单独优化 - 边缘和数据中心的最优策略差异巨大（边缘注重延迟/能耗，数据中心注重吞吐/总拥有成本） - 运行时自适应（根据负载动态调整精度/频率）是被忽视的关键技术

关键发现¶

重复出现的差距： 1. 跨平台泛化能力不足：为特定硬件设计的优化难以迁移到其他平台 2. 协同设计搜索空间过大：软硬件联合优化的搜索空间爆炸 3. 基准测试不一致：不同工作使用不同基准和指标，难以公平对比

分层分解视角：提出将优化策略按计算角色（数据搬运、算术计算、控制逻辑）进行分层映射，支持增量适配。

为什么重要¶

端到端视角：首次将 TinyML 到 LLM 的能效优化统一在一个框架下
推理碳排放关注：明确指出推理（而非训练）是主要能耗来源，改变了行业关注点
实践指导：为构建能耗和碳感知的 ML 系统提供了实用指南
研究空白识别：帮助研究者找到最有价值的研究方向

关联¶

[[tinyml-cnn-accelerator-approx-matrix-decomp]] — TinyML 硬件加速的具体实现
[[aeg-baremetal-ai-acceleration]] — 硬件直接访问加速方案
[[kv-cache-quantization-ondevice]] — KV-Cache 量化优化技术
[[ggml-llamacpp-hf]] — 端侧推理框架的量化实现
[[mnn-350]] — 阿里端侧推理引擎