使用Nutch重新抓取网址仅适用于更新的网站

时间:2013-01-10 15:40:29

标签: apache solr lucene nutch web-crawler

我使用Nutch 2.1抓取了一个网址,然后我想在更新后重新抓取网页。我怎样才能做到这一点?我怎么知道页面已更新?

3 个答案:

答案 0 :(得分:5)

简单地说,你不能。您需要重新抓取页面以控制它是否已更新。因此,根据您的需要,确定页面/域的优先级,并在一段时间内重新抓取它们。为此,您需要一个作业调度程序,例如Quartz

您需要编写一个比较页面的函数。但是,Nutch最初将页面保存为索引文件。换句话说,Nutch生成新的二进制文件来保存HTML。我不认为比较二进制文件是可能的,因为Nutch将所有爬网结果组合在一个文件中。如果您想以原始HTML格式保存页面以进行比较,请参阅我对this question.

的回答

答案 1 :(得分:4)

您必须安排ta工作以解雇工作
但是,Nutch AdaptiveFetchSchedule应该允许您对页面进行爬网和索引,并检测页面是新的还是更新的,而不必手动执行。

Article详细描述了相同内容。

答案 2 :(得分:1)

http://pascaldimassimo.com/2010/06/11/how-to-re-crawl-with-nutch/

怎么样?

讨论于:How to recrawle nutch

我想知道上述解决方案是否确实有效。我在说话时正在努力。我抓取新闻网站并且他们经常更新他们的首页,因此我需要经常重新抓取索引/首页并获取新发现的链接。