如何在apache nutch中获取webgraph?

时间:2016-04-12 06:17:55

标签: apache nutch

我使用命令webgrapghapache nutch中生成了'bin/nutch webgraph -segmentDir crawl/segments -webgraphdb crawl/webgraphdb' db ....它在crawl / webgraphdb中生成了三个文件夹,分别是链接,外链和节点。每个文件夹都包含两个二进制文件,如数据和索引。如何在apache nutch中获取可视化web图表?网络图表有什么用?

1 个答案:

答案 0 :(得分:4)

Webgraph打算根据链接结构(即网页)在得分计算中迈出一步:

  • webgraph将为指定的段/
  • 生成数据结构
  • linkrank将根据以前的结构计算得分
  • scoreupdater会将网页上的分数更新回crawldb

请注意,此程序非常耗费CPU / IO,默认情况下会忽略网站的内部链接。

您可以使用nodedumper命令从网页数据中获取有用数据,包括节点的实际得分和最高得分的链接/外链。但是这并不是为了可视化,尽管您可以解析此命令的输出并生成您可能需要的任何可视化。

话虽如此,自Nut​​ch 1.11添加了插件index-links,这将允许您将Solr / ES索引到每个URL的链接和外链。我已经使用这个插件索引到Solr以及sigmajs库来生成我的爬行链接结构的一些图形可视化,也许这可以满足您的需求。