如何使用Nutch显示本地文件爬网的完成百分比?

时间:2013-10-15 17:23:29

标签: nutch

我想知道,如何显示本地文件抓取完成的百分比?

我将使用Nutch抓取一个共享磁盘。

更新

如果我使用“ls -R”或“find~”提前获取所有文件名,并将它们存储为种子怎么办?通过这种方式,我们知道文件的总数。

1 个答案:

答案 0 :(得分:1)

由于Nutch的性质,这是不可能的。

Nutch通过从根节点(种子)开始抓取内容并找到它的任何外链,迭代地抓取它们,直到没有更多链接或达到爬行限制。

由于Nutch不知道要抓取的节点的完整数量,因此无法计算百分比。

你可以在这里找到Nutch的概述:http://www.slideshare.net/digitalpebble/large-scale-crawling-with-apache-nutch

监控Nutch抓取的替代方法:https://wiki.apache.org/nutch/MonitoringNutchCrawls

编辑: 我想你可以从索引文件中获取索引文件数,或者编写一个插件,每次文件被抓取时都会递增计数器......

更大的问题是,你想解决什么问题?