type: concept tags: [agent-architecture, prediction, evolutionary, llm-agent, reasoning] related: [[agent-persistent-identity]], [[clawmobile-agentic]], [[exectune-guide-core-policy]] sources: - url: https://arxiv.org/abs/2604.15719 title: "The World Leaks the Future: Harness Evolution for Future Prediction Agents" date: 2026-04-17 reliability: high created: 2026-04-20 updated: 2026-04-20
The World Leaks the Future: Harness Evolution for Future Prediction Agents¶
提出 Milkyway 框架,利用演化信号(时间序列中的模式演变)来增强 LLM Agent 的未来预测能力。在 FutureX 和 FutureWorld 基准上显著超越 GPT-5.4 等强基线。
核心问题¶
未来预测(Future Prediction)是一个独特的 Agent 任务:Agent 必须在目标结果尚未发生时,仅基于当前可获取的公开信息做出预测。这与传统 QA 任务(答案已存在)本质不同——证据是部分的、动态演化的,且需要等待未来才能验证正确性。
传统方法的局限: - 单次证据采集:Agent 获取一次信息后做出预测,无法捕捉随时间演化的信号 - 缺乏演化建模:忽略"世界正在泄漏未来"这一关键直觉——当前事件的模式往往隐含未来走向
方法/架构:Milkyway¶
Milkyway 引入 Harness Evolution(驾驭演化) 机制:
三阶段迭代框架¶
- 初始预测:基于当前证据形成基线预测
- 演化信号采集:在多轮迭代中,系统地追踪时间序列模式的演变——不只是"发生了什么",而是"变化的趋势是什么"
- 预测修正:利用演化信号修正先前预测,持续迭代直到收敛
核心设计决策¶
- 将演化信号建模为可操作的观测变量,而非噪声
- 引入 external experience-reuse 机制,允许从历史预测案例中学习
- 架构兼容通用 Agent 能力——禁用 harness-evolution 后在 GAIA 和 HLE 上仍保持竞争力
实验结果¶
FutureX 基准(2026年3月第3周切片)¶
| 方法 | L1 | L2 | L3 | L4 | Overall |
|---|---|---|---|---|---|
| GPT-5.4 (web search) | 62.14 | 59.80 | 44.24 | 31.57 | 44.07 |
| MiroFlow† | 64.29 | 72.82 | 59.45 | 46.80 | 58.84 |
| Flash-Searcher | 86.8 | 81.4 | 73.1 | — | 81.8 |
| Milkyway | — | — | — | — | 最优 |
FutureWorld 基准(2026年3月30日-4月3日,100题)¶
- Milkyway: 62.22 ± 2.79(GPT-5.4 对比基线)
- 五天日均窗口结果稳定
通用 Agent 能力(GAIA / HLE)¶
| 方法 | GAIA Lvl1 | Lvl2 | Lvl3 | Overall | HLE |
|---|---|---|---|---|---|
| MiroFlow | 90.6 | 83.7 | 72.5 | 84.2 | 41.2 |
| Flash-Searcher | 86.8 | 81.4 | 73.1 | 81.8 | 44.8 |
| Milkyway | 88.7 | 80.2 | 76.9 | 82.4 | 43.9 |
Milkyway 在 Level 3 最难任务上达到 76.9%(MiroFlow 72.5%),表明演化信号对复杂推理尤其有效。
关键洞察¶
- "世界在泄漏未来"是一个深刻直觉:当前事件的演化模式(趋势、节奏、关联变化)包含预测信号,远超单次快照的信息量
- 演化建模是 Agent 架构的通用组件:不仅限于预测任务,任何需要跟踪时间动态的 Agent(用户行为预测、系统状态预判)都可以借鉴
- 与移动端 Agent 的关联:手机端 Agent 持续感知用户行为模式,本质上也是在做"未来预测"——下一个意图、下一个 App、下一个位置。Milkyway 的演化信号采集机制可以类比迁移到端侧行为预测
为什么重要¶
Milkyway 展示了 Agent 不仅仅是"回答问题",而是可以主动建模世界动态。这对手机端 AIOS 的 Agent 架构设计有直接启示: - 意图预测:通过追踪用户交互模式的演化来预判下一步操作 - 资源预分配:基于使用模式演化预加载 App、预热模型 - 上下文感知:环境变化(位置、时间、社交场景)的演化信号可用于主动服务
关联¶
- [[agent-persistent-identity]] — Agent 持久身份可集成演化信号记忆
- [[clawmobile-agentic]] — 原生 Agent 架构可嵌入演化预测模块
- [[exectune-guide-core-policy]] — Guide Model 的策略可基于演化信号动态调整
- [[mga-memory-gui-agent]] — 记忆驱动的 GUI Agent 可利用演化模式提升预测准确性
- [[edgeflow-cold-start]] — 冷启动优化可利用演化信号预加载资源