我想知道,如何显示本地文件抓取完成的百分比?
我将使用Nutch抓取一个共享磁盘。
更新
如果我使用“ls -R”或“find~”提前获取所有文件名,并将它们存储为种子怎么办?通过这种方式,我们知道文件的总数。
答案 0 :(得分:1)
由于Nutch的性质,这是不可能的。
Nutch通过从根节点(种子)开始抓取内容并找到它的任何外链,迭代地抓取它们,直到没有更多链接或达到爬行限制。
由于Nutch不知道要抓取的节点的完整数量,因此无法计算百分比。
你可以在这里找到Nutch的概述:http://www.slideshare.net/digitalpebble/large-scale-crawling-with-apache-nutch
监控Nutch抓取的替代方法:https://wiki.apache.org/nutch/MonitoringNutchCrawls
编辑: 我想你可以从索引文件中获取索引文件数,或者编写一个插件,每次文件被抓取时都会递增计数器......
更大的问题是,你想解决什么问题?