type: concept tags: [asic, 硬件设计, on-device, 推理优化, rl-optimization, 芯片协同设计] related: [[edgecim-hardware-codesign]], [[llamacpp]], [[on-device-inference-memory-pressure]] sources: - url: https://arxiv.org/abs/2604.07526 title: "From LLM to Silicon: RL-Driven ASIC Architecture Exploration for On-Device AI Inference" date: 2026-04-15 reliability: high created: 2026-04-15 updated: 2026-04-15

从 LLM 到硅片：RL 驱动的端侧 AI 推理 ASIC 架构探索¶

用强化学习自动探索 ASIC 架构设计空间，让 Llama 3.1 8B 在 3nm 工艺上跑出 29809 tok/s

核心问题¶

为端侧 AI 推理设计 ASIC 面临一个组合爆炸问题：mesh 拓扑 × 每核微架构 × 算子分区 × 内存层次 × 工作负载分配 = 无穷的设计空间。传统方法依赖工程师手动调参，无法跨工艺节点复用设计。如何让一个编译器自动发现最优的硬件-软件协同配置？

方法/架构¶

提出 RL-ASIC-Explorer，将整个硬件-软件协同优化问题建模为一个单一 MDP：

状态空间（73 维，SAC 使用 52 维子集）¶

类别	维度	关键特征
Workload	5	指令数、ILP、内存密度、向量利用率、matmul 比例
Configuration	21	Mesh 尺寸、取指/STANUM/VLEN、DMEM/WMEM/IMEM
Partitioning	3	DMEM 输入/输出/scratch 分配比
Load Distribution	4	负载方差、最大/最小比、均衡分数
PPA Observation	5	功耗、性能、面积、tok/s、能效比
精度分布	6	FP32/FP16/BF16/FP8/INT8/混合精度比
LLM Config	3	Batch size、KV 策略、KV 压缩

动作空间¶

混合离散-连续动作： - 离散：mesh 宽度/高度、取指宽度、VLEN、DMEM/WMEM/IMEM 大小 - 连续：算子分区比、KV-cache 策略参数、时钟频率

RL 算法¶

Soft Actor-Critic（SAC）+ Mixture-of-Experts 门控： - MoE 门控根据 workload 特征动态选择专家 - 约4600 episodes/node，自适应探索率（ε: 0.5→0.1） - 贝叶斯早停 + 收敛检测 - 维护 Pareto 最优前沿，用户通过 PPA 权重选择最终配置

目标函数¶

统一的 Power-Performance-Area（PPA）打分：

reward = w_p * power_score + w_w * performance_score + w_a * area_score - constraint_penalty

实验结果/关键数据¶

验证的两种工作负载模式¶

高性能模式（Llama 3.1 8B FP16）： - 3nm 工艺：29,809 tok/s - 自动发现的 mesh：41×42 = 1,722 个 TCC 核心 - 优化目标：最大化吞吐量

低功耗模式（SmolVLM）： - 所有工艺节点：< 13 mW - 自动发现的 mesh：2×4 到 3×4（极小） - 运行频率：10 MHz - 优化目标：最小化功耗

跨 7 个工艺节点的自适应¶

RL 自动适配 3nm 到 28nm 的不同工艺特性： - 3nm：大规模 mesh（1722 TCC），激进的并行化 - 28nm：小规模 mesh，侧重能效 - 无需手动重调：同一 RL 策略跨节点泛化

PPA 权重配置效果¶

配置	权重 (w_p, w_w, w_a)	3nm 结果
高性能	0.4, 0.4, 0.2	大 mesh, 高吞吐
低功耗	0.2, 0.6, 0.2	小 mesh, 低功耗

关键洞察¶

Transformer 特异性：状态/动作编码了 KV-cache、注意力头、MLP 维度等 transformer 特征，对非 transformer 架构需要重新设计
Pareto 前沿 > 单一最优：硬件设计不存在"唯一最优解"，Pareto 前沿让设计师根据实际约束选择
工艺节点无关性：最大的价值在于"一套 RL 策略，7 个工艺节点"——这大幅降低了 ASIC 设计周期
从 LLM 到专用芯片的桥梁：论文展示了如何将 LLM 的推理需求直接转化为硬件设计参数，实现了从软件需求到硬件实现的自动化

为什么重要¶

这是"LLM 驱动芯片设计"范式的早期验证： 1. 降低 ASIC 设计门槛：传统需要数月的架构探索，RL 可以自动完成 2. 端侧 AI 芯片加速：手机 NPU/AI 芯片的设计迭代可以从年级别缩短到周级别 3. 工作负载感知：不再需要工程师手动分析 LLM 特征，RL 自动学习最优映射 4. 工艺适配自动化：同一套工具跨 3nm-28nm，覆盖从旗舰到入门级芯片

对小米/华为/三星等厂商：这意味着未来可以更快地为新一代手机定制 AI 芯片架构，而不需要从头开始的漫长设计周期。

关联¶

[[edgecim-hardware-codesign]] — 同样是硬件-软件协同设计，但侧重 CIM（存内计算）
[[llamacpp]] — llama.cpp 持续优化，软件层面的推理加速
[[on-device-inference-memory-pressure]] — 内存层次优化是 ASIC 设计的核心约束之一
[[gemma4-ondevice]] — Gemma 4 是本文验证的工作负载之一的同类型模型