Toward Agentic RAG for Ukrainian¶

论文基本信息¶

标题: Toward Agentic RAG for Ukrainian
arXiv ID: 2604.14896
发表日期: 2026-04-16
作者: Marta Sumyk, Oleksandr Kosovan
方向: 记忆检索 · Agentic RAG · 多语言
类别: cs.AI

摘要（原文翻译）¶

本文介绍了对乌克兰语 Agentic 检索增强生成（Agentic RAG）的初步研究，成果在 UNLP 2026 多领域文档理解共享任务中呈现。系统结合两阶段检索（BGE-M3 配合 BGE 重排）与轻量级智能体层，在 Qwen2.5-3B-Instruct 之上执行查询改写和答案重试循环。分析表明检索质量是主要瓶颈：智能体重试机制提高了答案准确率，但整体分数仍受文档和页面识别的制约。本文讨论了离线智能体流水线的实际局限，并提出将更强检索与更先进智能体推理相结合的乌克兰语方向。

核心贡献¶

乌克兰语 Agentic RAG 基准：首个针对低资源语言的 Agentic RAG 系统与评估
两阶段检索架构：BGE-M3 检索 + BGE 重排 + 查询改写智能体层
瓶颈分析：实证发现检索质量（文档/页面识别）是主要局限，智能体重试机制的效果受限于检索底层的精度

为什么重要¶

Agentic RAG 的研究目前集中在英语和高资源语言，对低资源语言的适配探索较少。乌克兰语的词形变化丰富、语法复杂，对检索系统有特殊挑战。本文揭示了即使引入 Agentic 推理层，如果底层检索质量不足，整体系统仍会达到瓶颈。这对记忆系统的启示是：记忆编码和索引的质量比检索策略更重要。

与移动端/端侧的相关性¶

中等相关性：多语言记忆系统是端侧个性化助手的核心需求
小模型部署：Qwen2.5-3B 适合在移动端部署，结合轻量级 Agentic RAG 层级
离线能力：共享任务中讨论的离线 Agentic 流水线对移动端场景有参考价值

参考文献¶

原论文: https://arxiv.org/abs/2604.14896