索引

了解如何从原始语料库中为 NodeRAG 建立索引。本指南提供了高效索引的分步说明。

1: 构建
2: 增量更新

1 - 构建

了解如何构建和配置 NodeRAG 项目。本指南提供了设置项目结构和配置的分步说明。

构建

了解项目结构

NodeRAG 项目具有以下结构。您需要通过创建项目文件夹并在其中放置 input 文件夹来手动构建此结构。在 input 文件夹中，放置您需要进行 RAG 处理的语料库。

main_folder/
├── input/
│   ├── file1.md
│   ├── file2.txt
│   ├── file3.docx
│   └── ...

关键目录

main_folder: 项目的根目录。
input: 包含所有需要由 NodeRAG 处理的输入文件。支持的文件格式包括：.md、.doc 和 .txt。

快速输入示例

下载这个 txt 文件作为快速示例到您的输入文件夹。

配置

python -m NodeRAG.build -f path/to/main_foulder

当您第一次使用此命令时，它将在 main_folder 目录中创建 Node_config.yaml 文件。

创建配置

根据以下说明修改配置文件（添加 API 和服务提供商），以确保 NodeRAG 可以访问正确的 API。

要快速使用 NodeRAG 演示，请设置您的 OpenAI 账户的 API 密钥。如果您没有 API 密钥，请参考 OpenAI Auth。确保在 model_config 和 embedding_config 部分都输入 API 密钥。

有关详细的配置和修改说明，请参见配置指南。

#==============================================================================
# AI 模型配置
#==============================================================================
model_config:
  model_name: gpt-4o-mini            # 用于文本生成的模型名称
  api_keys:    # 您的 API 密钥（可选）

embedding_config:
  api_keys:    # 您的 API 密钥（可选）

构建过程

配置设置完成后，重新运行以下命令：

python -m NodeRAG.build -f path/to/main_folder

终端将显示状态树：

状态树

按 y 继续。等待工作流程完成。

处理中

索引过程随后将完成。最终结构（生成后）将在 NodeRAG 文件结构文档中进行解释。

下一步，请参见 Answer 文档以生成特定领域的答案。

2 - 增量更新

NodeRAG 支持语料库的增量更新。

增量更新支持

NodeRAG 支持增量更新。它通过跟踪已索引文档的哈希 ID 来高效管理更新。
请勿修改已经完成索引的文件，因为这可能导致重复索引或不可预测的错误。

添加新语料库的最佳实践

要添加新文档，请将新文件放入 input 文件夹，然后重新运行索引命令：

python -m NodeRAG.build -f path/to/main_folder

NodeRAG 将自动检测新文件并将其转换为内部数据库格式，而无需重新处理现有数据。

关于增量模式以及 GraphRAG 和 LightRAG 在增量更新方面的比较，请参阅这篇博客文章。