type: concept tags: [gui-agent, lightweight, multi-role, on-device, mobile, mllm, multi-agent] related: [[secagent-mobile-gui]], [[pspa-bench-gui-agent]], [[clawmobile-agentic]], [[turing-test-mobile-gui]], [[mobiflow-benchmark]], [[clawgui-unified-framework]] sources: - url: https://arxiv.org/abs/2604.13488 title: "Towards Scalable Lightweight GUI Agents via Multi-role Orchestration" date: 2026-04-15 reliability: high created: 2026-04-16 updated: 2026-04-16

LAMO: 面向多角色编排的轻量级 GUI Agent¶

浙大 + 蚂蚁集团提出的框架，让轻量级多模态大模型在资源受限设备上实现可扩展的 GUI 自动化

核心问题¶

当前 GUI Agent 领域面临一个根本性的 成本-可扩展性困境： - 大规模 MLLM（如 GPT-4V）驱动的 GUI Agent 效果好，但部署成本过高，无法在手机等端侧设备运行 - 轻量级 MLLM（~3B 参数）虽然可部署，但容量有限，在复杂真实场景中表现差 - 端到端训练下，轻量模型的任务可扩展性差，难以适应多 Agent 系统（MAS） - 训练多个技能专家（skill-specific experts）成本高昂

关键问题：能否在成本与可扩展性之间找到有效平衡，让轻量 MLLM 参与真实 GUI 工作流？

方法/架构¶

LAMO 框架包含三大核心组件：

1. 角色导向数据合成（Role-Oriented Data Synthesis）¶

通过角色定义生成训练数据，使轻量模型获得 GUI 专业知识
支持多种角色：perceiver（感知）、planner（规划）、executor（执行）

2. 两阶段训练方案¶

阶段一：监督微调（SFT）
使用 Perplexity-Weighted Cross-Entropy 优化
实现知识蒸馏 + 视觉感知增强
从大模型向轻量模型迁移 GUI 知识
阶段二：强化学习（RL）
角色导向的协作探索（role-oriented cooperative exploration）
让模型在多角色场景下学会协调配合

3. LAMO-3B：任务可扩展的原生 GUI Agent¶

基于 3B 参数的轻量 MLLM
支持单体执行（monolithic execution）和 MAS 编排
作为即插即用的策略执行器，与高级规划器配合使用时可持续受益于规划器升级
核心优势：不需重新训练即可配合更强的规划器提升效果

实验结果/关键数据¶

LAMO-3B 作为轻量 GUI Agent，在资源受限设备上实现可部署
支持与高级规划器的即插即用集成，无需重新训练即可提升性能
在多角色编排场景下，轻量模型的 capability boundary 被有效扩展
相比训练多个技能专家，LAMO 的统一多角色方案显著降低成本

关键洞察¶

为什么 LAMO 重要：

打破了"大模型才能做 Agent"的假设：通过角色编排，3B 模型可以在复杂 GUI 任务中发挥作用
即插即用设计：LAMO-3B 不依赖特定规划器，随着规划器进步自动受益——这是移动端部署的关键特性
从 episodic learning 到 cooperative exploration：RL 阶段的角色导向探索突破了传统端到端训练的可扩展性瓶颈
蚂蚁集团的实际需求驱动：来自工业界的实践验证，非纯学术探索

对手机端 AI 生态的意义¶

端侧 GUI Agent 的可行路径：证明 3B 参数级别的模型可以作为实用的 GUI Agent
MAS 架构在端侧的落地：多角色编排为手机端多 Agent 协作提供了技术基础
降低部署门槛：无需 70B+ 的大模型，3B 模型配合编排即可完成复杂任务
与 [[clawmobile-agentic]] 的互补：ClawMobile 强调原生化设计，LAMO 强调轻量化编排

关联¶

[[secagent-mobile-gui]] — 同为移动端 GUI Agent，SecAgent 侧重语义上下文，LAMO 侧重多角色编排
[[pspa-bench-gui-agent]] — 个性化 GUI Agent 基准，LAMO-3B 可在此基准上测试
[[clawmobile-agentic]] — 手机原生 Agent 系统，LAMO 提供了轻量化实现路径
[[turing-test-mobile-gui]] — GUI Agent 人性化基准，可评估 LAMO 的自然交互能力
[[clawgui-unified-framework]] — 同期发布的 GUI Agent 框架，ClawGUI 提供完整训练-评估-部署管线
[[mga-memory-gui-agent]] — 记忆驱动 GUI Agent，LAMO 的角色编排可与记忆机制结合