type: concept tags: [基准测试, 移动GUI, Agent个性化, 用户偏好, 主动协助] related: [[pspa-bench-gui-agent]], [[mga-memory-gui-agent]], [[secagent-mobile-gui]], [[clawmobile-agentic]] sources: - url: https://arxiv.org/abs/2604.08455 title: "KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation" date: 2026-04-09 reliability: high created: 2026-04-17 updated: 2026-04-17

KnowU-Bench: 个性化移动 Agent 在线评测基准¶

42 个通用 GUI 任务 + 86 个个性化任务 + 64 个主动任务，强制 Agent 进行真实偏好推理而非上下文查找。

核心问题¶

现有基准无法捕捉个性化移动 Agent 的真实需求：无法测试 Agent 是否能通过交互引导缺失偏好，也无法测试何时介入 vs 保持沉默。

方法/架构¶

三类任务设计¶

任务类型	数量	评估维度
通用 GUI	42	基础操作能力
个性化任务	86	偏好推理与个性化执行
主动任务	64	何时介入 vs 保持沉默

关键创新¶

隐藏用户画像：不把偏好作为静态上下文传入，只暴露行为日志。Agent 必须从交互中真正推理偏好。
LLM 驱动的用户模拟器：支持多轮偏好引导对话和主动同意处理。
在线评测协议：严格遵循时间因果关系，评估增量存储过程中的表现。

关键洞察¶

"偏好推理"≠"偏好查找"：当偏好需要从行为中推断时，Agent 表现断崖式下降。当前 Agent 缺乏真正的用户建模能力。
主动协助的时机选择极难：过早介入让用户烦躁，过晚介入错过最佳时机。
用户模拟器是可扩展评测的关键：没有 LLM 驱动的模拟器，无法大规模评估多轮偏好引导交互。

为什么重要¶

端侧 AI Agent 的终极形态是"懂你的助手"，而非"听话的工具"。KnowU-Bench 为这个方向提供了第一个系统化的评测框架。

关联¶

[[pspa-bench-gui-agent]] — KnowU-Bench 扩展了 PSPA 的个性化维度
[[mga-memory-gui-agent]] — 记忆驱动 Agent 是偏好推理的基础
[[secagent-mobile-gui]] — 安全约束下的个性化执行
[[clawmobile-agentic]] — 原生 Agent 架构需要个性化能力