type: concept tags: [asic, 硬件设计, on-device, 推理优化, rl-optimization, 芯片协同设计] related: [[edgecim-hardware-codesign]], [[llamacpp-b8791]], [[on-device-inference-memory-pressure]] sources: - url: https://arxiv.org/abs/2604.07526 title: "From LLM to Silicon: RL-Driven ASIC Architecture Exploration for On-Device AI Inference" date: 2026-04-15 reliability: high created: 2026-04-15 updated: 2026-04-15
从 LLM 到硅片:RL 驱动的端侧 AI 推理 ASIC 架构探索¶
用强化学习自动探索 ASIC 架构设计空间,让 Llama 3.1 8B 在 3nm 工艺上跑出 29809 tok/s
核心问题¶
为端侧 AI 推理设计 ASIC 面临一个组合爆炸问题:mesh 拓扑 × 每核微架构 × 算子分区 × 内存层次 × 工作负载分配 = 无穷的设计空间。传统方法依赖工程师手动调参,无法跨工艺节点复用设计。如何让一个编译器自动发现最优的硬件-软件协同配置?
方法/架构¶
提出 RL-ASIC-Explorer,将整个硬件-软件协同优化问题建模为一个单一 MDP:
状态空间(73 维,SAC 使用 52 维子集)¶
| 类别 | 维度 | 关键特征 |
|---|---|---|
| Workload | 5 | 指令数、ILP、内存密度、向量利用率、matmul 比例 |
| Configuration | 21 | Mesh 尺寸、取指/STANUM/VLEN、DMEM/WMEM/IMEM |
| Partitioning | 3 | DMEM 输入/输出/scratch 分配比 |
| Load Distribution | 4 | 负载方差、最大/最小比、均衡分数 |
| PPA Observation | 5 | 功耗、性能、面积、tok/s、能效比 |
| 精度分布 | 6 | FP32/FP16/BF16/FP8/INT8/混合精度比 |
| LLM Config | 3 | Batch size、KV 策略、KV 压缩 |
动作空间¶
混合离散-连续动作: - 离散:mesh 宽度/高度、取指宽度、VLEN、DMEM/WMEM/IMEM 大小 - 连续:算子分区比、KV-cache 策略参数、时钟频率
RL 算法¶
Soft Actor-Critic(SAC)+ Mixture-of-Experts 门控: - MoE 门控根据 workload 特征动态选择专家 - 约4600 episodes/node,自适应探索率(ε: 0.5→0.1) - 贝叶斯早停 + 收敛检测 - 维护 Pareto 最优前沿,用户通过 PPA 权重选择最终配置
目标函数¶
统一的 Power-Performance-Area(PPA)打分:
reward = w_p * power_score + w_w * performance_score + w_a * area_score - constraint_penalty
实验结果/关键数据¶
验证的两种工作负载模式¶
高性能模式(Llama 3.1 8B FP16): - 3nm 工艺:29,809 tok/s - 自动发现的 mesh:41×42 = 1,722 个 TCC 核心 - 优化目标:最大化吞吐量
低功耗模式(SmolVLM): - 所有工艺节点:< 13 mW - 自动发现的 mesh:2×4 到 3×4(极小) - 运行频率:10 MHz - 优化目标:最小化功耗
跨 7 个工艺节点的自适应¶
RL 自动适配 3nm 到 28nm 的不同工艺特性: - 3nm:大规模 mesh(1722 TCC),激进的并行化 - 28nm:小规模 mesh,侧重能效 - 无需手动重调:同一 RL 策略跨节点泛化
PPA 权重配置效果¶
| 配置 | 权重 (w_p, w_w, w_a) | 3nm 结果 |
|---|---|---|
| 高性能 | 0.4, 0.4, 0.2 | 大 mesh, 高吞吐 |
| 低功耗 | 0.2, 0.6, 0.2 | 小 mesh, 低功耗 |
关键洞察¶
- Transformer 特异性:状态/动作编码了 KV-cache、注意力头、MLP 维度等 transformer 特征,对非 transformer 架构需要重新设计
- Pareto 前沿 > 单一最优:硬件设计不存在"唯一最优解",Pareto 前沿让设计师根据实际约束选择
- 工艺节点无关性:最大的价值在于"一套 RL 策略,7 个工艺节点"——这大幅降低了 ASIC 设计周期
- 从 LLM 到专用芯片的桥梁:论文展示了如何将 LLM 的推理需求直接转化为硬件设计参数,实现了从软件需求到硬件实现的自动化
为什么重要¶
这是"LLM 驱动芯片设计"范式的早期验证: 1. 降低 ASIC 设计门槛:传统需要数月的架构探索,RL 可以自动完成 2. 端侧 AI 芯片加速:手机 NPU/AI 芯片的设计迭代可以从年级别缩短到周级别 3. 工作负载感知:不再需要工程师手动分析 LLM 特征,RL 自动学习最优映射 4. 工艺适配自动化:同一套工具跨 3nm-28nm,覆盖从旗舰到入门级芯片
对小米/华为/三星等厂商:这意味着未来可以更快地为新一代手机定制 AI 芯片架构,而不需要从头开始的漫长设计周期。
关联¶
- [[edgecim-hardware-codesign]] — 同样是硬件-软件协同设计,但侧重 CIM(存内计算)
- [[llamacpp-b8791]] — llama.cpp 持续优化,软件层面的推理加速
- [[on-device-inference-memory-pressure]] — 内存层次优化是 ASIC 设计的核心约束之一
- [[gemma4-ondevice]] — Gemma 4 是本文验证的工作负载之一的同类型模型