应用错误收集

时间：2013-01-10 15:40:29

标签： apache solr lucene nutch web-crawler

我使用Nutch 2.1抓取了一个网址，然后我想在更新后重新抓取网页。我怎样才能做到这一点？我怎么知道页面已更新？

答案 0 :(得分：5)

简单地说，你不能。您需要重新抓取页面以控制它是否已更新。因此，根据您的需要，确定页面/域的优先级，并在一段时间内重新抓取它们。为此，您需要一个作业调度程序，例如Quartz。

您需要编写一个比较页面的函数。但是，Nutch最初将页面保存为索引文件。换句话说，Nutch生成新的二进制文件来保存HTML。我不认为比较二进制文件是可能的，因为Nutch将所有爬网结果组合在一个文件中。如果您想以原始HTML格式保存页面以进行比较，请参阅我对this question.

的回答

答案 1 :(得分：4)

您必须安排ta工作以解雇工作
但是，Nutch AdaptiveFetchSchedule应该允许您对页面进行爬网和索引，并检测页面是新的还是更新的，而不必手动执行。

Article详细描述了相同内容。

答案 2 :(得分：1)

怎么样？

我想知道上述解决方案是否确实有效。我在说话时正在努力。我抓取新闻网站并且他们经常更新他们的首页，因此我需要经常重新抓取索引/首页并获取新发现的链接。