Temporal Taskification in Streaming Continual Learning: A Source of Evaluation Instability¶

论文基本信息¶

作者: Nicolae Filat, Ahmed Hussain, Konstantinos Kalogiannis
arXiv: https://arxiv.org/abs/2604.21930
领域: cs.LG, cs.AI

摘要¶

流式持续学习（Streaming Continual Learning）通常通过时间划分将连续数据流转换为离散任务序列。该论文指出，时间任务化不是中性的预处理选择，而是一个结构性评估组件——同一数据流的不同有效划分会诱导不同的 CL 机制，从而产生不同的基准结论。论文系统分析了任务划分对 CL 评估的影响，揭示了当前基准评估的不稳定性来源，并提出更稳定的评估协议。

核心贡献¶

Taskification Effect 分析: 系统揭示时间任务化对 CL 评估的实质性影响
Evaluation Instability 发现: 证明不同任务划分会产生显著不同的基准结论
Stabilized Evaluation Protocol: 提出更稳定可靠的 CL 评估方法
Task Boundary Sensitivity: 分析 CL 方法对任务边界定义的敏感性
Streaming CL 基准分析: 对现有流式 CL 基准的评估有效性提出质疑

研究背景与问题¶

持续学习基准通常将连续数据流人为划分为离散任务，但这种划分方式的选择对评估结论的影响此前被忽视。相同数据流用不同划分可能得出相反的方法排名结论。

核心方法¶

Taskification Operator: 定义时间任务化的不同策略（固定窗口、可变窗口、语义聚类）
Method × Taskification Matrix: 在多种任务划分下测试多种 CL 方法
Ranking Instability Metric: 量化方法排名的稳定性
Ground Truth Simulation: 在受控环境下分析任务划分对已知真相的影响

为什么重要¶

该论文对 CL 领域的基础评估实践提出重要质疑。对 Agent 系统的持续学习模块设计，这意味着不能仅依赖现有基准的单一评估结论，需要更全面的测试。

与移动端/端侧相关性¶

流式数据场景: 移动端传感器数据本质上是流式的，理解任务划分影响对部署至关重要
边缘部署测试: 在边缘设备上测试 CL 方法时，评估稳定性直接影响系统可靠性
个性化适应: 用户交互数据的任务划分影响个性化 Agent 的适应质量