已有数据

我们整理并预处理了当前 RAG 研究中最常用的公开评估数据集,并将其发布在 Huggingface datasets。用户可直接下载使用,无需进一步处理。 下表列出了已支持的任务类型与数据集统计信息:
任务类型数据集名称原始数据数量Leaderboard 采样数量
qanq3,6101,000
qaTriviaQA11,3131,000
qapopqa14,2671,000
qaAmbigQA2,0021,000
qaMarcoQA101,093 ; 55,636(过滤无答案版本)1,000(基于过滤后的)
qaWebQuestions2,0321,000
Multi-hop qahotpotqa7,4051,000
Multi-hop qa2WikiMultiHopQA12,5761,000
Multi-hop qaMusique2,4171,000
Multi-hop qabamboogle125125(未处理)
Multi-hop qastrategy-qa2,2901,000
Multiple-choiceARC3,548 ;(选项为大写字母A-E,其中E选项为1条)1,000
Multiple-choicemmlu14,042 ;(选项为大写字母A-D)1,000
Long-form QAASQA948948(未处理)
fact-verificationFEVER13,332 ;(只保留support和refuse标签)1,000
dialogueWoW3,0541,000
slot-fillingT-REx5,0001,000
语料库统计:
语料库名称文档数量
wiki201821,015,324
wiki2024即将上线

数据格式说明

我们建议用户将所有测试数据处理为 .jsonl 格式,并遵循以下结构规范,以保证与 UltraRAG 的各模块兼容: 非选择题数据格式:
{
  "id": 0,  // 整数编号
  "question": "xxxx",  // 问题文本
  "golden_answers": ["xxx", "xxx"],  // 标准答案列表,可包含多个
  "metadata": { ... }  // 其他信息字段,可选
}
选择题数据格式:
{
  "id": 0,
  "question": "xxxx",
  "golden_answers": ["A"],  // 标准答案为选项字母(如 A–D)
  "choices": ["xxx", "xxx", "xxx", "xxx"],  // 选项文本列表
  "metadata": { ... }
}
语料库数据格式:
{
  "id": "0",
  "contents": "xxxxx"  // 语料分块后的文本片段
}