type: concept tags: [基准测试, 移动GUI, Agent个性化, 用户偏好, 主动协助] related: [[pspa-bench-gui-agent]], [[mga-memory-gui-agent]], [[secagent-mobile-gui]], [[clawmobile-agentic]] sources: - url: https://arxiv.org/abs/2604.08455 title: "KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation" date: 2026-04-09 reliability: high created: 2026-04-17 updated: 2026-04-17
KnowU-Bench: 个性化移动 Agent 在线评测基准¶
42 个通用 GUI 任务 + 86 个个性化任务 + 64 个主动任务,强制 Agent 进行真实偏好推理而非上下文查找。
核心问题¶
现有基准无法捕捉个性化移动 Agent 的真实需求:无法测试 Agent 是否能通过交互引导缺失偏好,也无法测试何时介入 vs 保持沉默。
方法/架构¶
三类任务设计¶
| 任务类型 | 数量 | 评估维度 |
|---|---|---|
| 通用 GUI | 42 | 基础操作能力 |
| 个性化任务 | 86 | 偏好推理与个性化执行 |
| 主动任务 | 64 | 何时介入 vs 保持沉默 |
关键创新¶
- 隐藏用户画像:不把偏好作为静态上下文传入,只暴露行为日志。Agent 必须从交互中真正推理偏好。
- LLM 驱动的用户模拟器:支持多轮偏好引导对话和主动同意处理。
- 在线评测协议:严格遵循时间因果关系,评估增量存储过程中的表现。
关键洞察¶
- "偏好推理"≠"偏好查找":当偏好需要从行为中推断时,Agent 表现断崖式下降。当前 Agent 缺乏真正的用户建模能力。
- 主动协助的时机选择极难:过早介入让用户烦躁,过晚介入错过最佳时机。
- 用户模拟器是可扩展评测的关键:没有 LLM 驱动的模拟器,无法大规模评估多轮偏好引导交互。
为什么重要¶
端侧 AI Agent 的终极形态是"懂你的助手",而非"听话的工具"。KnowU-Bench 为这个方向提供了第一个系统化的评测框架。
关联¶
- [[pspa-bench-gui-agent]] — KnowU-Bench 扩展了 PSPA 的个性化维度
- [[mga-memory-gui-agent]] — 记忆驱动 Agent 是偏好推理的基础
- [[secagent-mobile-gui]] — 安全约束下的个性化执行
- [[clawmobile-agentic]] — 原生 Agent 架构需要个性化能力