type: concept tags: [npu, reliability, hardware-accelerator, fault-tolerance, safety-critical, edge-ai] related: [[llm-inference-edge-npu-gpu]], [[edgecim-hardware-codesign]], [[rl-asic-exploration]] sources: - url: https://arxiv.org/abs/2604.10484 title: "Strix: Re-thinking NPU Reliability from a System Perspective" date: 2026-04-19 reliability: high created: 2026-04-19 updated: 2026-04-19

Strix: 从系统层面重新思考 NPU 可靠性¶

一个全栈 NPU 可靠性框架，在开源 SoC 上实现微架构 + ISA + 编程方法三层保护，性能损失仅 1.07×，面积开销仅 8.7%

核心问题¶

随着 DNN/LLM 模型规模从数十亿增长到数万亿参数，SoC 越来越多地将面积分配给加速器（NPU/GPU）。在自动驾驶等安全关键场景中，硬件故障可能直接导致灾难性后果——已有报告指出卡车被误识别为自行车的案例。

现有的系统级保护机制通常将 NPU 视为黑盒，采用粗粒度复制（如 TMR 三模冗余），导致 1.83×-3.68× 的性能惩罚和巨大的硬件开销。这使得可靠性方案在实际部署中不可行。

方法/架构¶

Strix 提出了一个全栈 NPU 可靠性框架，从三个层面重新设计保护机制：

1. 微架构层¶

将 NPU 从"整体保护"改为细粒度功能单元级保护
识别计算阵列、片上 SRAM、数据通路等不同组件的故障特征
针对性地部署保护电路，而非全局复制

2. ISA 层¶

扩展指令集以支持可靠性感知的计算调度
允许编译器指定哪些计算路径需要保护
支持选择性冗余——只对关键路径做校验

3. 编程方法层¶

提供编程接口让开发者标注安全关键操作
自动化工具分析计算图，识别需要保护的节点
支持混合精度下的可靠性配置

实验结果¶

方案	性能开销	面积开销	说明
TMR（三模冗余）	1.83×-3.68×	~200%	传统方案，全局复制
IR（指令级冗余）	1.13×-1.95×	~50%	指令级校验
ReaLM（SOTA）	1.22×-1.59×	~30%	最新研究方案
Strix	≤1.07×	8.7%	全栈细粒度保护

在典型故障率（<10⁻⁶）下，Strix 有效缓解神经网络的性能退化。功耗开销仅为 16.8%，远低于传统方案。

关键洞察¶

NPU 不应被视为黑盒：将 NPU 分解为多个功能单元后，可以发现不同区域有不同的故障脆弱性——计算阵列对 SEU（单粒子翻转）敏感，SRAM 对软错误敏感，数据通路对时序故障敏感。针对性保护比全局复制高效得多。
安全关键场景的"可部署性"是核心指标：学术界的可靠性方案往往忽视部署成本。Strix 的 8.7% 面积开销意味着可以在不重新设计芯片的情况下集成到现有 NPU 中。
与模型内在鲁棒性的协同：DNN 本身对某些扰动具有鲁棒性，Strix 利用这一特性，只保护模型鲁棒性无法覆盖的故障类型。

为什么重要¶

对于手机端 AIOS 生态： - NPU 是手机端 AI 推理的核心：高通 Snapdragon、联发科天玑、三星 Exynos 的 NPU 承担了大量端侧推理任务。随着端侧模型越来越大（从 3B 到 7B+），NPU 的可靠性直接影响用户体验和安全。 - 功耗预算极小：手机的功耗预算远低于服务器。传统 TMR 方案的 200% 面积开销在手机芯片上完全不可行。Strix 的 8.7% 开销是可接受的。 - 自动驾驶/AR 等场景：手机正在进入更安全关键的场景（如 AR 导航、车辆控制辅助），NPU 可靠性从"nice-to-have"变为"must-have"。

关联¶

[[llm-inference-edge-npu-gpu]] — NPU 上的 LLM 推理性能权衡，Strix 为其提供可靠性保障
[[edgecim-hardware-codesign]] — 边缘计算存内一体设计，与 Strix 的硬件-软件协同理念一致
[[rl-asic-exploration]] — RL 驱动的 ASIC 设计探索，NPU 可靠性是 ASIC 设计的重要约束
[[sustainability-ondevice-intelligence]] — 端侧智能的可持续性权衡，可靠性保护的面积/功耗开销需要纳入可持续性分析