type: concept tags: [AI加速器, Baremetal, 异构计算, 边缘推理, 硬件抽象, RTOS替代] related: [[tinyml-cnn-accelerator-approx-matrix-decomp]], [[energy-efficient-sw-hw-codesign-tinyml]], [[edgecim-hardware-codesign]] sources: - url: https://arxiv.org/abs/2604.09565 title: "AEG: A Baremetal Framework for AI Acceleration via Direct Hardware Access in Heterogeneous Accelerators" date: 2026-04-13 reliability: high created: 2026-04-20 updated: 2026-04-20

AEG: 裸机 AI 加速框架¶

通过直接硬件访问绕过操作系统开销，在异构加速器上实现高性能端侧 ML 推理

核心问题¶

边缘系统部署 AI 推理的需求日益增长（低延迟、高能效），但现有框架存在根本瓶颈： - 操作系统开销：TVM、嵌入式 ML 运行时等框架假设 OS 中介执行环境，引入内核交叉、调度延迟、内存子系统开销 - RTOS 复杂性：TinyML 框架依赖实时操作系统（RTOS），引入不必要的复杂性和性能瓶颈 - 可移植性 vs 性能矛盾：OS 抽象提高可移植性但牺牲性能

以 AMD Versal ACAP（集成 AIE 向量处理器阵列）为例：硬件提供高吞吐能力，但软件栈成为瓶颈。

方法架构¶

"Control as Data" 范式：核心创新是将复杂控制逻辑展平为线性可执行的运行时控制块（RCB）：

运行时硬件抽象层（RHAL）：最小化硬件抽象，避免 OS 介入
RCB 机制：将高级模型（ADF 图）转换为线性执行序列
运行时平台管理（RTPM）：处理系统级资源管理
运行时平台监控（RTPMon）：监控加速器状态

架构设计： - 运行时与硬件细节完全解耦 - 通用引擎通过 RHAL 驱动不同加速器 - 支持 AIE 阵列的直接编程访问

关键洞察¶

为什么重要： - 性能天花板突破：消除 OS 开销意味着接近硬件理论峰值的推理性能 - 异构计算统一：单一框架覆盖 AI Engine、GPU、NPU 等异构加速器 - 延迟关键应用：对于毫秒级延迟要求的应用（实时目标检测、语音唤醒），OS 开销可能是性能瓶颈 - 端侧推理新范式：证明了"裸机推理"的可行性和优势

深层分析： - 这种方法特别适合确定性延迟要求的场景（如安全关键系统） - "Control as Data" 概念借鉴了数据流计算的思想，将控制流转换为数据流 - 对比 TinyML 生态（TensorFlow Lite Micro 等依赖 RTOS），AEG 提供了更激进但更高效的替代方案

关联¶

[[tinyml-cnn-accelerator-approx-matrix-decomp]] — 另一种硬件加速路径
[[energy-efficient-sw-hw-codesign-tinyml]] — 软硬件协同设计综述
[[edgecim-hardware-codesign]] — 边缘硬件协同设计