solr - 使用NCrawler运行增量爬网 - Thinbug

使用NCrawler运行增量爬网

时间：2013-03-21 10:38:19

标签： solr web-crawler

当我们在SOLR中使用NCrawler时，有没有办法运行增量爬网和索引？我不希望我的抓取工具每次抓取时都会获取完整的数据。有没有办法让爬行变得无用？

提前致谢。

1 个答案:

答案 0 :(得分：2)

为此，NCrawler中没有内置任何内容。您需要创建自己的处理来处理这个问题。但是，可扩展的IPipelineStep机制允许您围绕所需的爬网创建任何进程。例如，您可以将每个访问过的URL与页面内容的散列一起存储在数据库中，以确定页面何时更改并仅将更改的页面处理为索引。