跳转至

Temporal Taskification in Streaming Continual Learning: A Source of Evaluation Instability

论文基本信息

  • 作者: Nicolae Filat, Ahmed Hussain, Konstantinos Kalogiannis
  • arXiv: https://arxiv.org/abs/2604.21930
  • 领域: cs.LG, cs.AI

摘要

流式持续学习(Streaming Continual Learning)通常通过时间划分将连续数据流转换为离散任务序列。该论文指出,时间任务化不是中性的预处理选择,而是一个结构性评估组件——同一数据流的不同有效划分会诱导不同的 CL 机制,从而产生不同的基准结论。论文系统分析了任务划分对 CL 评估的影响,揭示了当前基准评估的不稳定性来源,并提出更稳定的评估协议。

核心贡献

  1. Taskification Effect 分析: 系统揭示时间任务化对 CL 评估的实质性影响
  2. Evaluation Instability 发现: 证明不同任务划分会产生显著不同的基准结论
  3. Stabilized Evaluation Protocol: 提出更稳定可靠的 CL 评估方法
  4. Task Boundary Sensitivity: 分析 CL 方法对任务边界定义的敏感性
  5. Streaming CL 基准分析: 对现有流式 CL 基准的评估有效性提出质疑

研究背景与问题

持续学习基准通常将连续数据流人为划分为离散任务,但这种划分方式的选择对评估结论的影响此前被忽视。相同数据流用不同划分可能得出相反的方法排名结论。

核心方法

  1. Taskification Operator: 定义时间任务化的不同策略(固定窗口、可变窗口、语义聚类)
  2. Method × Taskification Matrix: 在多种任务划分下测试多种 CL 方法
  3. Ranking Instability Metric: 量化方法排名的稳定性
  4. Ground Truth Simulation: 在受控环境下分析任务划分对已知真相的影响

为什么重要

该论文对 CL 领域的基础评估实践提出重要质疑。对 Agent 系统的持续学习模块设计,这意味着不能仅依赖现有基准的单一评估结论,需要更全面的测试。

与移动端/端侧相关性

  1. 流式数据场景: 移动端传感器数据本质上是流式的,理解任务划分影响对部署至关重要
  2. 边缘部署测试: 在边缘设备上测试 CL 方法时,评估稳定性直接影响系统可靠性
  3. 个性化适应: 用户交互数据的任务划分影响个性化 Agent 的适应质量