我使用命令webgrapgh
在apache nutch
中生成了'bin/nutch webgraph -segmentDir crawl/segments -webgraphdb crawl/webgraphdb'
db ....它在crawl / webgraphdb中生成了三个文件夹,分别是链接,外链和节点。每个文件夹都包含两个二进制文件,如数据和索引。如何在apache nutch中获取可视化web图表?网络图表有什么用?
答案 0 :(得分:4)
Webgraph打算根据链接结构(即网页)在得分计算中迈出一步:
webgraph
将为指定的段/ linkrank
将根据以前的结构计算得分scoreupdater
会将网页上的分数更新回crawldb 请注意,此程序非常耗费CPU / IO,默认情况下会忽略网站的内部链接。
您可以使用nodedumper
命令从网页数据中获取有用数据,包括节点的实际得分和最高得分的链接/外链。但是这并不是为了可视化,尽管您可以解析此命令的输出并生成您可能需要的任何可视化。
话虽如此,自Nutch 1.11添加了插件index-links
,这将允许您将Solr / ES索引到每个URL的链接和外链。我已经使用这个插件索引到Solr以及sigmajs库来生成我的爬行链接结构的一些图形可视化,也许这可以满足您的需求。