This is the multi-page printable view of this section. Click here to print.
索引
1 - 构建
构建
了解项目结构
NodeRAG 项目具有以下结构。您需要通过创建项目文件夹并在其中放置 input 文件夹来手动构建此结构。在 input 文件夹中,放置您需要进行 RAG 处理的语料库。
main_folder/
├── input/
│ ├── file1.md
│ ├── file2.txt
│ ├── file3.docx
│ └── ...
关键目录
- main_folder: 项目的根目录。
- input: 包含所有需要由 NodeRAG 处理的输入文件。支持的文件格式包括:
.md
、.doc
和.txt
。
快速输入示例
下载这个 txt 文件 作为快速示例到您的输入文件夹。
配置
python -m NodeRAG.build -f path/to/main_foulder
当您第一次使用此命令
时,它将在 main_folder
目录中创建 Node_config.yaml
文件。
根据以下说明修改配置文件(添加 API 和服务提供商),以确保 NodeRAG 可以访问正确的 API。
要快速使用 NodeRAG 演示,请设置您的 OpenAI 账户的 API 密钥。如果您没有 API 密钥,请参考 OpenAI Auth。确保在 model_config
和 embedding_config
部分都输入 API 密钥。
有关详细的配置和修改说明,请参见 配置指南。
#==============================================================================
# AI 模型配置
#==============================================================================
model_config:
model_name: gpt-4o-mini # 用于文本生成的模型名称
api_keys: # 您的 API 密钥(可选)
embedding_config:
api_keys: # 您的 API 密钥(可选)
构建过程
配置设置完成后,重新运行以下命令:
python -m NodeRAG.build -f path/to/main_folder
终端将显示状态树:
按 y
继续。等待工作流程完成。
索引过程随后将完成。最终结构(生成后)将在 NodeRAG 文件结构文档 中进行解释。
下一步,请参见 Answer 文档 以生成特定领域的答案。
2 - 增量更新
增量更新支持
NodeRAG 支持增量更新。它通过跟踪已索引文档的哈希 ID 来高效管理更新。
请勿修改已经完成索引的文件,因为这可能导致重复索引或不可预测的错误。
添加新语料库的最佳实践
要添加新文档,请将新文件放入 input
文件夹,然后重新运行索引命令:
python -m NodeRAG.build -f path/to/main_folder
NodeRAG 将自动检测新文件并将其转换为内部数据库格式,而无需重新处理现有数据。
关于增量模式以及 GraphRAG
和 LightRAG
在增量更新方面的比较,请参阅这篇博客文章。