apache - 如何在apache nutch中获取webgraph？

如何在apache nutch中获取webgraph？

时间：2016-04-12 06:17:55

标签： apache nutch

我使用命令webgrapgh在apache nutch中生成了'bin/nutch webgraph -segmentDir crawl/segments -webgraphdb crawl/webgraphdb' db ....它在crawl / webgraphdb中生成了三个文件夹，分别是链接，外链和节点。每个文件夹都包含两个二进制文件，如数据和索引。如何在apache nutch中获取可视化web图表？网络图表有什么用？

1 个答案:

答案 0 :(得分：4)

Webgraph打算根据链接结构（即网页）在得分计算中迈出一步：

webgraph将为指定的段/
linkrank将根据以前的结构计算得分
scoreupdater会将网页上的分数更新回crawldb

请注意，此程序非常耗费CPU / IO，默认情况下会忽略网站的内部链接。

您可以使用nodedumper命令从网页数据中获取有用数据，包括节点的实际得分和最高得分的链接/外链。但是这并不是为了可视化，尽管您可以解析此命令的输出并生成您可能需要的任何可视化。

话虽如此，自Nutch 1.11添加了插件index-links，这将允许您将Solr / ES索引到每个URL的链接和外链。我已经使用这个插件索引到Solr以及sigmajs库来生成我的爬行链接结构的一些图形可视化，也许这可以满足您的需求。