跳转至

Toward Agentic RAG for Ukrainian

论文基本信息

  • 标题: Toward Agentic RAG for Ukrainian
  • arXiv ID: 2604.14896
  • 发表日期: 2026-04-16
  • 作者: Marta Sumyk, Oleksandr Kosovan
  • 方向: 记忆检索 · Agentic RAG · 多语言
  • 类别: cs.AI

摘要(原文翻译)

本文介绍了对乌克兰语 Agentic 检索增强生成(Agentic RAG)的初步研究,成果在 UNLP 2026 多领域文档理解共享任务中呈现。系统结合两阶段检索(BGE-M3 配合 BGE 重排)与轻量级智能体层,在 Qwen2.5-3B-Instruct 之上执行查询改写和答案重试循环。分析表明检索质量是主要瓶颈:智能体重试机制提高了答案准确率,但整体分数仍受文档和页面识别的制约。本文讨论了离线智能体流水线的实际局限,并提出将更强检索与更先进智能体推理相结合的乌克兰语方向。

核心贡献

  1. 乌克兰语 Agentic RAG 基准:首个针对低资源语言的 Agentic RAG 系统与评估
  2. 两阶段检索架构:BGE-M3 检索 + BGE 重排 + 查询改写智能体层
  3. 瓶颈分析:实证发现检索质量(文档/页面识别)是主要局限,智能体重试机制的效果受限于检索底层的精度

为什么重要

Agentic RAG 的研究目前集中在英语和高资源语言,对低资源语言的适配探索较少。乌克兰语的词形变化丰富、语法复杂,对检索系统有特殊挑战。本文揭示了即使引入 Agentic 推理层,如果底层检索质量不足,整体系统仍会达到瓶颈。这对记忆系统的启示是:记忆编码和索引的质量比检索策略更重要。

与移动端/端侧的相关性

  • 中等相关性:多语言记忆系统是端侧个性化助手的核心需求
  • 小模型部署:Qwen2.5-3B 适合在移动端部署,结合轻量级 Agentic RAG 层级
  • 离线能力:共享任务中讨论的离线 Agentic 流水线对移动端场景有参考价值

参考文献

  • 原论文: https://arxiv.org/abs/2604.14896