Temporal Taskification in Streaming Continual Learning: A Source of Evaluation Instability¶
论文基本信息¶
- 作者: Nicolae Filat, Ahmed Hussain, Konstantinos Kalogiannis
- arXiv: https://arxiv.org/abs/2604.21930
- 领域: cs.LG, cs.AI
摘要¶
流式持续学习(Streaming Continual Learning)通常通过时间划分将连续数据流转换为离散任务序列。该论文指出,时间任务化不是中性的预处理选择,而是一个结构性评估组件——同一数据流的不同有效划分会诱导不同的 CL 机制,从而产生不同的基准结论。论文系统分析了任务划分对 CL 评估的影响,揭示了当前基准评估的不稳定性来源,并提出更稳定的评估协议。
核心贡献¶
- Taskification Effect 分析: 系统揭示时间任务化对 CL 评估的实质性影响
- Evaluation Instability 发现: 证明不同任务划分会产生显著不同的基准结论
- Stabilized Evaluation Protocol: 提出更稳定可靠的 CL 评估方法
- Task Boundary Sensitivity: 分析 CL 方法对任务边界定义的敏感性
- Streaming CL 基准分析: 对现有流式 CL 基准的评估有效性提出质疑
研究背景与问题¶
持续学习基准通常将连续数据流人为划分为离散任务,但这种划分方式的选择对评估结论的影响此前被忽视。相同数据流用不同划分可能得出相反的方法排名结论。
核心方法¶
- Taskification Operator: 定义时间任务化的不同策略(固定窗口、可变窗口、语义聚类)
- Method × Taskification Matrix: 在多种任务划分下测试多种 CL 方法
- Ranking Instability Metric: 量化方法排名的稳定性
- Ground Truth Simulation: 在受控环境下分析任务划分对已知真相的影响
为什么重要¶
该论文对 CL 领域的基础评估实践提出重要质疑。对 Agent 系统的持续学习模块设计,这意味着不能仅依赖现有基准的单一评估结论,需要更全面的测试。
与移动端/端侧相关性¶
- 流式数据场景: 移动端传感器数据本质上是流式的,理解任务划分影响对部署至关重要
- 边缘部署测试: 在边缘设备上测试 CL 方法时,评估稳定性直接影响系统可靠性
- 个性化适应: 用户交互数据的任务划分影响个性化 Agent 的适应质量