Benchmarks

Explore the benchmarks used in NodeRAG experiments This section details the benchmark datasets and how they were processed.

less than a minute

Benchmarks

我们观察到，许多当前的基准测试不再符合现代RAG设置。传统的RAG基准测试处理段落，在LLM生成答案之前从有限的集合中选择相关段落。当前的RAG设置更接近现实场景，我们直接处理原始语料库进行检索和回答。因此，我们修改了现有的多跳数据集，将所有段落合并到单个语料库中并评估最终答案。认识到RAG主要关注检索系统质量，我们在评估中保持了一致的问答设置以确保公平比较。

原始语料库

您应该将所有语料库合并到一个语料库中，然后使用每个RAG系统的索引功能将其索引到各自的数据库中。

答案和评估

将您的问题和答案以键值对的形式保存在parquet文件格式中。然后您可以直接使用我们提供的"LLM作为评判"脚本进行测试。

基准测试

我们提供了我们使用的大部分数据集，这些数据集已经被处理成易于使用的格式。但是，由于某些数据集的版权要求，请联系任何作者以获取我们处理过的数据集和评估parquet文件。

RAG-QA-ARENA

RAG-QA-ARENA 是一个基于偏好的比较数据集，我们为此提供详细的教程

Feedback

Was this page helpful?

Glad to hear it! Please tell us how we can improve.

Sorry to hear that. Please tell us how we can improve.

Last modified April 5, 2025: update reproduce (f23a25c)