可视化

本指南将帮助您使用NodeRAG可视化数据,以优化性能和准确性。

快速实现

生成可视化最简单的方法是运行单个命令。 这将根据您的索引数据创建一个交互式HTML页面。

您可以在这里查看基于哈利波特语料库的实时示例:示例

python -m NodeRAG.Vis.html -f path/to/main_folder

您还可以使用-n标志控制显示的节点数量。

注意: 最终显示的节点数可能会超过您选择的值,因为我们应用内部优化以提高可视化质量。 我们稍后将解释可视化过程背后的细节。

python -m NodeRAG.Vis.html -f path/to/main_folder -n 600

vis

可视化背后的原理

生成具有数千甚至数万个节点和边的可视化非常消耗资源,通常对浏览器来说是不切实际的。 因此,NodeRAG的可视化不会使用语料库中的所有节点。相反,它会根据相关性有选择地包含固定数量的重要节点。

节点如何被选择

节点重要性使用PageRank算法计算。 NodeRAG按重要性对所有节点进行排名,并选择排名前n的节点进行可视化,其中n由用户定义。

最佳实践:n设置为1000或更少以获得最佳性能。更高的值可能会导致HTML浏览器中出现渲染问题。

确保图的连通性

一个常见问题是排名靠前的节点可能不会形成完全连通的图。 为了解决这个问题,NodeRAG在其异构图上应用双向Dijkstra算法来提取额外的连接节点。 这确保了最终的可视化是完全连通的,没有孤立的节点。

注意: 这就是为什么您的可视化中的节点总数可能会超过您指定的n值。


Last modified April 5, 2025: update reproduce (f23a25c)