type: concept tags: [multi-agent, agent-collaboration, theory-of-mind, instruction-inference, reasoning, 人机协作] related: [[clawmobile-agentic]], [[secagent-mobile-gui]], [[mga-memory-gui-agent]], [[long-horizon-task-mirage]], [[synergy-agentic-web-agent]] sources: - url: https://arxiv.org/abs/2507.02935 title: "Theory of Mind in Action: The Instruction Inference Task in Dynamic Human-Agent Collaboration" date: 2025-07-04 reliability: high created: 2026-04-17 updated: 2026-04-17

Theory of Mind in Action: 指令推理与动态人机协作¶

提出 Instruction Inference Task，检验 Agent 在不完整/模糊指令下推断人类隐含意图的能力——这是 mobile agent 真正理解用户需求的关键能力。

核心问题¶

Mobile GUI Agent 目前依赖精确、完整的指令描述（如"点击设置→显示→亮度"），但现实场景中用户的指令往往是模糊的、不完整的、甚至有歧义的。Agent 需要具备 Theory of Mind（心智理论）能力，从共享上下文中推断出用户的真实意图。

当前人机协作的瓶颈不在于执行能力，而在于理解意图——Agent 需要从不完整的指令中推断出"未说出口的部分"。

方法/架构¶

论文提出了 Instruction Inference Task 作为评估框架：

场景设计：Agent 与人类（principal）协作完成任务，人类给出的指令可能是不完整或模糊的
推理要求：Agent 必须从共享上下文（shared context）中推断出未明确表达的意图
关键挑战：如何在动态交互中维护对人类意图的持续理解

这与传统 NLU 任务不同——它强调的是动态协作场景中的意图推断，而非静态的指令解析。

实验结果¶

论文通过 human-agent 团队实验展示了： - Agent 在缺乏明确指令时的失败模式 - 共享上下文（shared context）对意图推断的重要性 - Theory of Mind 能力的缺乏是当前 Agent 系统的主要瓶颈

关键洞察¶

指令 ≠ 意图：用户的指令是意图的部分表达，Agent 需要补全缺失的部分
共享上下文是关键：没有共享的背景知识，意图推断是不可能的
动态性：协作场景中指令和意图会随交互演化，Agent 需要持续更新理解
对 mobile agent 的启示：手机端 Agent 面对的是用户日常的模糊交互（"帮我弄一下那个"），ToM 能力是实现自然交互的前提

为什么重要¶

手机端 AI Agent 要真正融入用户日常生活，不能依赖结构化的精确指令。用户会说"把那个发给老张"或"帮我订个好吃的"——这些模糊指令需要 Agent 具备推断意图的能力。本论文为评估和构建具备 ToM 能力的 Agent 提供了理论框架和实验方法，对 mobile agent 的交互设计有直接指导意义。

关联¶

[[clawmobile-agentic]] — ClawMobile 的原生 Agent 架构需要集成 ToM 能力
[[secagent-mobile-gui]] — GUI Agent 的屏幕理解是 ToM 的视觉基础
[[mga-memory-gui-agent]] — 记忆驱动的 GUI Agent 可以通过交互历史提升意图推断
[[long-horizon-task-mirage]] — 长程任务中的意图漂移是 ToM 的挑战
[[synergy-agentic-web-agent]] — Web Agent 的多步骤推理也依赖意图理解